Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
Em seu mais recente esforço para redefinir o cenário da IA, Google anunciou Gêmeos 2.0 Pensamento Flashum modelo de raciocínio multimodal capaz de resolver problemas complexos com rapidez e transparência.
Em um postar na rede social XO CEO do Google, Sundar Pichai, escreveu que period: “Nosso modelo mais atencioso até agora :)”
E no documentação do desenvolvedoro Google explica: “O Modo de Pensamento é capaz de capacidades de raciocínio mais fortes em suas respostas do que o modo básico Modelo Flash Gêmeos 2.0”, que anteriormente period o melhor e mais recente do Google, lançado há apenas oito dias.
O novo modelo suporta apenas 32.000 tokens de entrada (cerca de 50-60 páginas de texto) e pode produzir 8.000 tokens por resposta de saída. Em um painel lateral no Google AI Studio, a empresa afirma que é melhor para “compreensão, raciocínio multimodal” e “codificação”.
Detalhes completos do processo de treinamento, arquitetura, licenciamento e custos do modelo ainda não foram divulgados. No momento, mostra custo zero por token no Google AI Studio.
Raciocínio acessível e mais transparente
Ao contrário dos modelos de raciocínio dos concorrentes o1 e o1 mini da OpenAIo Gemini 2.0 permite que os usuários acessem seu raciocínio passo a passo por meio de um menu suspenso, oferecendo uma visão mais clara e transparente sobre como o modelo chega às suas conclusões.

Ao permitir que os usuários vejam como as decisões são tomadas, o Gemini 2.0 aborda preocupações de longa knowledge sobre o funcionamento da IA como uma “caixa preta” e traz este modelo – termos de licenciamento ainda pouco claros – à paridade com outros modelos de código aberto utilizados por concorrentes.
Meus primeiros testes simples do modelo mostraram que ele respondeu de forma correta e rápida (dentro de um a três segundos) algumas perguntas que têm sido notoriamente complicadas para outros modelos de IA, como contar o número de Rs na palavra “Morango”. (Veja a imagem acima).
Em outro teste, ao comparar dois números decimais (9,9 e 9,11), o modelo dividiu sistematicamente o problema em etapas menores, desde a análise de números inteiros até a comparação de casas decimais.
Estes resultados são apoiados por análises independentes de terceiros da LM Areaque nomeou Gemini 2.0 Flash Considering como o modelo de desempenho número um em todas as categorias LLM.
Suporte nativo para add e análise de imagens
Em uma melhoria adicional em relação à família rival OpenAI o1, o Gemini 2.0 Flash Considering foi projetado para processar imagens desde o início.
o1 foi lançado como um modelo somente de texto, mas desde então foi expandido para incluir análise de add de imagens e arquivos. Ambos os modelos também podem retornar apenas texto, neste momento.
Atualmente, o Gemini 2.0 Flash Considering também não suporta aterramento com a Pesquisa Google ou integração com outros aplicativos do Google e ferramentas externas de terceiros, de acordo com o documentação do desenvolvedor.
A capacidade multimodal do Gemini 2.0 Flash Considering expande seus possíveis casos de uso, permitindo-lhe enfrentar cenários que combinam diferentes tipos de dados.
Por exemplo, num teste, o modelo resolveu um puzzle que exigia a análise de elementos textuais e visuais, demonstrando a sua versatilidade na integração e raciocínio entre formatos.
Os desenvolvedores podem aproveitar esses recursos por meio do Google AI Studio e Vertex AI, onde o modelo está disponível para experimentação.
À medida que o cenário da IA se torna cada vez mais competitivo, o Gemini 2.0 Flash Considering poderá marcar o início de uma nova period para modelos de resolução de problemas. Sua capacidade de lidar com diversos tipos de dados, oferecer raciocínio visível e atuar em escala o posiciona como um sério concorrente no mercado de IA de raciocínio, rivalizando com a família o1 da OpenAI e além.