Google apresenta DataGemma para aprimorar a precisão em modelos de linguagem

Google lança DataGemma, uma ferramenta para melhorar a precisão em modelos de linguagem, reduzindo informações imprecisas.

Imagem: MarutStudio/Shutterstock

O Google lançou o DataGemma, uma nova ferramenta projetada para reduzir as “alucinações” frequentemente geradas por chatbots, ou seja, informações imprecisas ou inventadas. Essa iniciativa é especialmente relevante para empresas que dependem da confiabilidade das informações.

O DataGemma opera através de dois métodos principais. O primeiro é o Retrieval-Interleaved Generation (RIG), que verifica partes da resposta preliminar no Data Commons do Google, um banco de dados que inclui estatísticas de fontes confiáveis como a ONU e os CDC. A ferramenta também corrige informações erradas, fornecendo dados verificados e citando as fontes utilizadas.

O segundo método é o Retrieval-Augmented Generation (RAG), que busca dados relevantes no Data Commons para construir respostas precisas. Por exemplo, ao responder sobre o progresso do Paquistão em metas de saúde, o modelo utiliza dados de saúde pública e sempre cita as fontes.

No entanto, a eficácia do DataGemma enfrenta desafios. O RIG falhou em encontrar dados úteis em 75% das tentativas, enquanto o RAG apresentou uma taxa de respostas incorretas entre 6% e 20%. A precisão deve melhorar com mais dados e treinamento.

Atualmente, a ferramenta está disponível apenas para pesquisadores, mas o Google planeja expandi-la, o que pode aprimorar a integração da IA em seus serviços. Prem Ramaswami, chefe do Data Commons no Google, destacou que a ferramenta tem como objetivo tornar a IA mais confiável e segura.