O Soneto 3.5 de Claude está no topo do Índice de Alucinações de Galileu


O Soneto 3.5 de Claude está no topo do Índice de Alucinações de GalileuO Soneto 3.5 de Claude está no topo do Índice de Alucinações de Galileu

A empresa de IA Galileo acaba de anunciar seu mais recente Índice de alucinaçãoque é uma estrutura que avalia 22 modelos líderes de IA generativa.

Os modelos são testados usando uma métrica chamada aderência ao contextoque mede “alucinações de domínio fechado: casos em que seu modelo disse coisas que não foram fornecidas no contexto”.

O modelo de melhor desempenho geral para RAG, de acordo com o rating, é Claude 3.5 Sonnet da Anthropic. Galileo disse que este modelo e o outro modelo da Anthropic, Claude 3 Opus, tiveram pontuações quase perfeitas, superando os modelos da OpenAI, que venceram no ano passado.

De uma perspectiva de custo, o modelo de melhor desempenho foi o Gemini 1.5 Flash do Google. E o Qwen2-72B-Instruct do Alibaba foi, no geral, o modelo de código aberto de melhor desempenho, embora em testes RAG de contexto curto, o llama-3-60b-instruct do Meta tenha sido o melhor.

Dividido por comprimento de contexto, o melhor modelo de código fechado em RAG de contexto curto foi o Claude 3.5 Sonnet, em RAG de contexto médio foi o Gemini-1.5-flash-001 do Google (com o custo sendo o desempate com outros modelos que também obtiveram pontuação perfeita) e em RAG de contexto grande foi novamente o Claude 3.5 Sonnet.

“No cenário de IA em rápida evolução de hoje, desenvolvedores e empresas enfrentam um desafio crítico: como aproveitar o poder da IA ​​generativa enquanto equilibram custo, precisão e confiabilidade. Os benchmarks atuais geralmente são baseados em casos de uso acadêmicos, em vez de aplicações do mundo actual. Nosso novo Índice busca abordar isso testando modelos em casos de uso do mundo actual que exigem que os LLMs recuperem dados, uma prática comum em implementações de IA empresarial”, diz Vikram Chatterji, CEO e cofundador da Galileo. “Como as alucinações continuam sendo um grande obstáculo, nosso objetivo não period apenas classificar modelos, mas sim fornecer às equipes e líderes de IA os dados do mundo actual de que precisam para adotar o modelo certo, para a tarefa certa, pelo preço certo.”


Você pode gostar…

O novo modelo Claude 3.5 Sonnet da Anthropic já é competitivo com GPT-4o e Gemini 1.5 Professional em vários benchmarks

O novo modelo Llama 3.1 da Meta compete com o GPT-4o e o Claude 3.5 Sonnet

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *