Um sistema de IA desenvolvido pelo Google DeepMind, o principal laboratório de pesquisa de IA do Google, parece ter superado o medalhista de ouro médio na solução de problemas de geometria em uma competição internacional de matemática.
O sistema, chamado alfageometria2, é uma versão aprimorada de um sistema, alfageometria, Aquele Deepmind lançado em janeiro passado. Em um Estudo recém -publicadoos pesquisadores de DeepMind por trás do Alpageometria2 afirmam que sua IA pode resolver 84% de todos os problemas de geometria nos últimos 25 anos na Olimpíada Matemática Internacional (IMO), um concurso de matemática para estudantes do ensino médio.
Por que a DeepMind se importa com uma competição de matemática no ensino médio? Bem, o laboratório acha que a chave para a IA mais capaz pode estar em descobrir novas maneiras de resolver problemas de geometria desafiadores – especificamente Problemas de geometria euclidiana.
Provando teoremas matemáticos, ou explicando logicamente por que um teorema (por exemplo, o teorema do Pitagorano) é verdadeiro, requer o raciocínio e a capacidade de escolher entre uma variedade de etapas possíveis em direção a uma solução. Essas habilidades de solução de problemas poderiam-se o direito de DeepMind-acabasse sendo um componente útil dos futuros modelos de IA de uso geral.
De fato, no verão passado, o DeepMind demonstrou um sistema que combinou alfagometria2 com o AlphaProof, um modelo de IA para o raciocínio formal de matemática, para resolver quatro em cada seis problemas da IMO de 2024. Além de problemas de geometria, abordagens como essas podem ser estendidas a outras áreas de matemática e ciências – por exemplo, para ajudar com cálculos complexos de engenharia.
O Alphageometria2 possui vários elementos centrais, incluindo um modelo de idioma dos modelos Gemini Household of AI do Google e um “mecanismo simbólico”. O modelo Gemini ajuda o mecanismo simbólico, que usa regras matemáticas para inferir soluções para problemas, a chegar a provas viáveis para um determinado teorema da geometria.

Os problemas da geometria da Olimpíada são baseados em diagramas que precisam de “construções” a serem adicionados antes de serem resolvidos, como pontos, linhas ou círculos. O modelo Gemini do Alpageometria2 prevê que as construções podem ser úteis para adicionar a um diagrama, que o motor faz referência para fazer deduções.
Basicamente, o modelo Gemini do Alpageometria2 sugere etapas e construções em uma linguagem matemática formal para o mecanismo, que – seguindo regras específicas – verifica essas etapas quanto à consistência lógica. Um algoritmo de pesquisa permite que o alfageometria2 understand várias pesquisas por soluções em paralelo e armazenem descobertas possivelmente úteis em uma base de conhecimento comum.
O alfageometria2 considera um problema a ser “resolvido” quando chegar a uma prova que combina as sugestões do modelo de Gêmeos com os princípios conhecidos do mecanismo simbólico.
Devido às complexidades da tradução de provas em um formato que a IA pode entender, há uma escassez de dados utilizáveis de treinamento de geometria. Assim, o DeepMind criou seus próprios dados sintéticos para treinar o modelo de linguagem do Alpageometria2, gerando mais de 300 milhões de teoremas e provas de complexidade variável.
A equipe DeepMind selecionou 45 problemas de geometria em relação às competições de IMO nos últimos 25 anos (de 2000 a 2024), incluindo equações lineares e equações que exigem objetos geométricos em movimento em torno de um plano. Eles então os “traduziram” em um conjunto maior de 50 problemas. (Por razões técnicas, alguns problemas tiveram que ser divididos em dois.)
De acordo com o artigo, o alfageometria2 resolveu 42 dos 50 problemas, limpando a pontuação média do medalhista de ouro de 40,9.
É verdade que existem limitações. Uma peculiaridade técnica impede que o alfageometria2 resolva problemas com um número variável de pontos, equações não lineares e desigualdades. E alfageometria2 não é tecnicamente O primeiro sistema de IA a atingir o desempenho no nível da medalha de ouro na geometria, embora seja o primeiro a alcançá-lo com um conjunto de problemas desse tamanho.
O alfageometria2 também se saiu pior em outro conjunto de problemas mais difíceis da IMO. Para um desafio adicional, a equipe do DeepMind selecionou problemas – 29 no whole – que haviam sido indicados para exames IMO por especialistas em matemática, mas que ainda não apareceram em uma competição. Alfageometria2 só poderia resolver 20 deles.
Ainda assim, os resultados do estudo provavelmente alimentarão o debate sobre se os sistemas de IA devem ser construídos sobre a manipulação de símbolos-ou seja, manipulando símbolos que representam o conhecimento usando regras-ou as redes neurais ostensivamente mais parecidas com o cérebro.
O Alphageometria2 adota uma abordagem híbrida: seu modelo Gemini possui uma arquitetura de rede neural, enquanto seu mecanismo simbólico é baseado em regras.
Os proponentes das técnicas de rede neural argumentam que o comportamento inteligente, do reconhecimento de fala à geração de imagens, pode emergir de nada mais que quantidades enormes de dados e computação. Opostos aos sistemas simbólicos, que resolvem tarefas, definindo conjuntos de regras manipuladoras de símbolos dedicadas a trabalhos específicos, como editar uma linha no software program do processador de texto, as redes neurais tentam resolver tarefas por meio de aproximação estatística e aprendizado de exemplos.
Redes neurais são a pedra angular dos poderosos sistemas de IA como Modelo de “raciocínio” da OpenAi O1. Mas, reivindicando apoiadores da IA simbólica, eles não são o fim de tudo; A IA simbólica pode estar melhor posicionada para codificar com eficiência o conhecimento do mundo, raciocinar o caminho através de cenários complexos e “explicar” como eles chegaram a uma resposta, argumentam esses apoiadores.
“É impressionante ver o contraste entre o progresso continuado e espetacular nesses tipos de parâmetros de referência e, enquanto isso, modelos de idiomas, incluindo os mais recentes com ‘raciocínio’, continuando lutando com alguns problemas de senso comum”, Vince Conitzer, um Carnegie Mellon O professor de ciência da computação da universidade, especializada em IA, disse ao TechCrunch. “Não acho que tudo seja fumaça e espelhos, mas ilustra que ainda não sabemos que comportamento esperar do próximo sistema. É provável que esses sistemas sejam muito impactantes, por isso precisamos urgentemente entendê -los e os riscos que eles representam muito melhor. ”
Alfageometria2 talvez demonstre que as duas abordagens – manipulação de símbolos e redes neurais – combinado são um caminho promissor a seguir na busca por IA generalizável. De fato, de acordo com o artigo DeepMind, O1, que também possui uma arquitetura de rede neural, não conseguiu resolver nenhum dos problemas da IMO que o alfageometria2 foi capaz de responder.
Este pode não ser o caso para sempre. No artigo, a equipe DeepMind disse que encontrou evidências preliminares de que o modelo de linguagem do Alpageometria2 period capaz de gerar soluções parciais para problemas sem a ajuda do mecanismo simbólico.
“(Os resultados) suportam idéias de que grandes modelos de idiomas podem ser auto-suficientes sem depender de ferramentas externas (como motores simbólicos)”, escreveu a equipe DeepMind no artigo, “mas até que a velocidade (modelo) seja melhorada e Alucinações estão completamente resolvidos, as ferramentas permanecerão essenciais para os aplicativos de matemática. ”