Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
A inteligência é difundida, mas sua medição parece subjetiva. Na melhor das hipóteses, aproximamos sua medida por meio de testes e benchmarks. Pense nos exames de admissão da faculdade: todos os anos, inúmeros alunos se inscrevem, memorizam truques de preparação de teste e às vezes vão embora com pontuações perfeitas. Um único número, digamos 100%, significa que aqueles que o fizeram compartilham a mesma inteligência – ou que de alguma forma atingiram sua inteligência? Claro que não. Os benchmarks são aproximações, não as medidas exatas dos recursos verdadeiros de alguém – ou de algo.
O AI generativa A comunidade há muito se baseia em benchmarks como Mmlu (Entendimento maciço da linguagem multitarefa) para avaliar os recursos do modelo por meio de questões de múltipla escolha entre as disciplinas acadêmicas. Esse formato permite comparações diretas, mas não consegue realmente capturar recursos inteligentes.
Tanto o Claude 3,5 sonetos quanto o GPT-4.5, por exemplo, alcançam pontuações semelhantes nesse benchmark. No papel, isso sugere recursos equivalentes. No entanto, as pessoas que trabalham com esses modelos sabem que existem diferenças substanciais no desempenho do mundo actual.
O que significa medir ‘inteligência’ na IA?
Brand após o novo Arc-agi Launch de benchmark-um teste projetado para empurrar modelos para o raciocínio geral e a solução criativa de problemas-há um debate renovado sobre o que significa medir a “inteligência” na IA. Embora nem todos tenham testado a referência ARC-AGI ainda, a indústria recebe este e outros esforços para desenvolver estruturas de teste. Cada referência tem seu mérito, e o Arc-Agi é um passo promissor nessa conversa mais ampla.
Outro desenvolvimento recente notável na avaliação da IA é ‘Último exame da humanidade‘Um benchmark abrangente contendo 3.000 perguntas revisadas por pares e várias etapas em várias disciplinas. Embora este teste represente uma tentativa ambiciosa de desafiar os sistemas de IA com raciocínio no nível de especialistas, os resultados iniciais mostram progresso rápido-com o OpenAI alcançando uma pontuação de 26,6% dentro de um mês após seu lançamento. No entanto, como outros benchmarks tradicionais, ele avalia principalmente o conhecimento e o raciocínio isoladamente, sem testar as capacidades práticas de uso de ferramentas que são cada vez mais cruciais para as aplicações de IA do mundo actual.
Em um exemplo, múltiplo modelos de última geração Falha ao contar corretamente o número de “R” s na palavra Strawberry. Em outro, eles identificam incorretamente 3.8 como sendo menores que 3.1111. Esses tipos de falhas-em tarefas que mesmo uma criança ou calculadora básica poderia resolver-expor uma incompatibilidade entre o progresso orientado por referência e a robustez do mundo actual, lembrando-nos que a inteligência não é apenas sobre os exames, mas sobre a lógica cotidiana de navegação confiável.

O novo padrão para medir a capacidade de IA
À medida que os modelos avançaram, esses benchmarks tradicionais mostraram suas limitações-o GPT-4 com ferramentas atinge apenas cerca de 15% em tarefas mais complexas do mundo actual no Gaia Benchmarkapesar das pontuações impressionantes em testes de múltipla escolha.
Essa desconexão entre o desempenho de referência e a capacidade prática tornou -se cada vez mais problemática como Sistemas de IA passar dos ambientes de pesquisa para aplicativos de negócios. Os benchmarks tradicionais testam o conhecimento do conhecimento, mas a falta de aspectos cruciais da inteligência: a capacidade de coletar informações, executar código, analisar dados e sintetizar soluções em vários domínios.
Gaia é a mudança necessária na metodologia de avaliação da IA. Criado através da colaboração entre as equipes Meta-Truthful, Meta-Genai, Huggingface e AutoGPT, o benchmark inclui 466 perguntas cuidadosamente criadas em três níveis de dificuldade. Essas perguntas testam a navegação na Internet, o entendimento multimodal, a execução de código, o manuseio de arquivos e o raciocínio complexo-recursos essenciais para aplicativos de IA do mundo actual.
As perguntas de nível 1 requerem aproximadamente 5 etapas e uma ferramenta para os seres humanos resolverem. Perguntas de nível 2 exigem 5 a ten etapas e várias ferramentas, enquanto as perguntas de nível 3 podem exigir até 50 etapas discretas e qualquer número de ferramentas. Essa estrutura reflete a complexidade actual dos problemas de negócios, onde as soluções raramente vêm de uma única ação ou ferramenta.
Ao priorizar a flexibilidade sobre a complexidade, um modelo de IA atingiu 75percentde precisão no GAIA-superando os gigantes da indústria da Microsoft da Microsoft-1 (38%) e o agente Langfun do Google (49%). Seu sucesso decorre de usar uma combinação de modelos especializados para entender e raciocínio audiovisual, com o Sonnet 3.5 do Anthropic como modelo principal.
Essa evolução na avaliação da IA reflete uma mudança mais ampla no setor: estamos passando de aplicativos de SaaS independentes para agentes de IA que podem orquestrar várias ferramentas e fluxos de trabalho. À medida que as empresas dependem cada vez mais de sistemas de IA para lidar com tarefas complexas e de várias etapas, os benchmarks como a GAIA fornecem uma medida mais significativa de capacidade do que os testes tradicionais de múltipla escolha.
O futuro da avaliação da IA não está em testes de conhecimento isolados, mas em avaliações abrangentes da capacidade de solução de problemas. Gaia outline um novo padrão para medir a capacidade de IA-que reflete melhor os desafios e oportunidades da implantação da IA do mundo actual.
Sri Ambati é o fundador e CEO da H2o.ai.