Alibaba diz que seu novo modelo de IA rivaliza com o R-1 de Deepseeks, OpenAi’s O1



Alibaba diz que seu novo modelo de IA rivaliza com o R-1 de Deepseeks, OpenAi’s O1

A Alibaba Cloud lançou na quinta-feira QWQ-32B, um modelo de raciocínio compacto construído em seu mais recente modelo de linguagem grande (Llm), QWEN2.5-32B, um que diz que apresenta desempenho comparável a outros grandes modelos de ponta, incluindo o rival chinês Deepseek e o Openai’s O1, com apenas 32 bilhões de parâmetros.

De acordo com um liberar De Alibaba, “O desempenho do QWQ-32B destaca o poder do aprendizado de reforço (RL), a técnica principal por trás do modelo, quando aplicada a um modelo robusto de fundação como QWEN2.5-32B, que é pré-treinado em amplo conhecimento mundial. Ao alavancar a escala contínua de RL, o QWQ-32B demonstra melhorias significativas no raciocínio matemático e na proficiência em codificação. ”

AWS outline RL como “uma técnica de aprendizado de máquina que treina software program para tomar decisões para alcançar os melhores resultados e imitar o processo de aprendizado de avaliação e erro que os humanos usam para atingir seus objetivos. As ações de software program que funcionam em direção ao seu objetivo são reforçadas, enquanto as ações que prejudicam a meta são ignoradas. ”

“Além disso”, afirmou o lançamento, “o modelo foi treinado usando recompensas de um modelo de recompensa geral e verificadores baseados em regras, aprimorando suas capacidades gerais. Isso inclui melhores seguidores, alinhamento com preferências humanas e desempenho aprimorado do agente. ”

QWQ-32B é um peso aberto em abraçar o escopo do rosto e do modelo sob a licença Apache 2.0, de acordo com um acompanhante weblog De Alibaba, que observou que os 32 bilhões de parâmetros do QWQ-32B alcançam “desempenho comparável ao Deepseek-R1, que possui 671 bilhões de parâmetros (com 37 bilhões de atividades ativadas).”

Seus autores escreveram: “Isso marca a etapa inicial de Qwen na dimensionamento da RL para aprimorar os recursos de raciocínio. Durante essa jornada, não apenas testemunhamos o imenso potencial de RL em escala, mas também reconhecemos as possibilidades inexploradas dentro de modelos de idiomas pré -rastreados. ”

Eles continuaram a declarar: “Enquanto trabalhamos no sentido de desenvolver a próxima geração de Qwen, estamos confiantes de que a combinação de modelos de fundação mais fortes com a RL alimentada por recursos computacionais dimensionados nos levará mais perto de alcançar a inteligência geral synthetic (AGI). Além disso, estamos explorando ativamente a integração de agentes com a RL para permitir o raciocínio de longo horizonte, com o objetivo de desbloquear uma maior inteligência com a escala de tempo de inferência. ”

Pedido por sua reação ao lançamento, Justin St-Maurice, conselheiro técnico do Information-Tech Analysis Group, disse: “Comparar esses modelos é como comparar o desempenho de diferentes equipes da NASCAR. Sim, eles são rápidos, mas a cada volta alguém está ganhando … então isso importa? Geralmente, com a mercantilização do LLMS, será mais importante alinhar modelos com casos de uso reais, como escolher entre uma motocicleta e um ônibus, com base nas necessidades. ”

St-Maurice acrescentou: “Há rumores de que o OpenAI deseja cobrar um preço de US $ 20 mil/mês por uma ‘inteligência de doutorado’ (o que quer que isso signifique), porque é caro correr. Os modelos de alto desempenho da China desafiam a suposição de que os LLMs precisam ser operacionalmente caros. A corrida para a lucratividade é através da otimização, não algoritmos de força bruta e information facilities de meio trilhão de dólares. ”

Deepseek, acrescentou, “diz que todo mundo é muito caro e com baixo desempenho, e há alguma verdade nisso quando a eficiência impulsiona a vantagem competitiva. Mas, se a IA chinesa é “segura para o resto do mundo” é uma conversa diferente, pois depende do apetite por risco corporativo, preocupações regulatórias e como esses modelos estão alinhados com as políticas de governança de dados “.

Segundo St-Maurice, “Todos os modelos desafiam as fronteiras éticas de diferentes maneiras. Por exemplo, enquadrar outro LLM como o Grok da América do Norte como inerentemente mais ético do que o Deepseek da China é cada vez mais ambíguo e uma questão de opinião; Depende de quem está definindo o padrão e de que lente você está vendo. ”

O terceiro grande jogador na IA chinês é Baiduque lançou um modelo próprio chamado Ernie no ano passado, embora tenha causado pouco impacto fora da China, uma situação que St-Maurice disse que não é surpreendente.

“O website ainda está dando respostas em chinês, apesar de afirmar apoiar o inglês”, disse ele. “É seguro dizer que o Alibaba e o Deepseek estão mais focados no cenário world, enquanto Baidu parece mais ancorado no mercado interno. Prioridades diferentes, resultados diferentes. ”

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *