Modelos de Linguagem para Classificação de Documentos de Licitações Públicas

O projeto visa automatizar a detecção de fraudes em licitações públicas no Brasil, que envolvem um grande volume de processos, com mais de 85 bilhões de reais gastos em 2022. A iniciativa se concentra na classificação de documentos licitatórios coletados de Portais da Transparência, como editais e atas, permitindo a extração de entidades (como CNPJs e produtos) para identificar fraudes. Utilizando modelos de linguagem pré-treinados, como o BERT, o projeto enfrenta três desafios principais: adaptar os modelos para documentos longos, lidar com dados fora da distribuição devido à heterogeneidade das licitações e tratar a distribuição desbalanceada das classes de documentos. A pesquisa utilizará bases de dados de municípios de Minas Gerais para desenvolver um modelo robusto que enderece essas questões.
Fonte Canal CNPq YouTube
Top 20 Instituições que Movem a Ciência, a Saúde e a Inovação no Brasil!