É o Ano Novo Lunar na China e o mundo está comemorando! Graças ao lançamento de um modelo incrível após o outro por empresas chinesas. Alibaba também lançou recentemente QWEN2.5-MAX – Um modelo que substitui Giants da Openai, Deepseek & Llama. Embalado com raciocínio avançado e geração de imagens e vídeos, este modelo está definido para abalar o mundo genai. Neste weblog, compararemos o desempenho de QWEN2.5-MAX, Deepseek-R1 e Kimi K1.5 em várias frentes para encontrar o melhor LLM atualmente!
Introdução a Qwen2.5-Max, Deepseek-R1 e Kimi K1.5
- QWEN2.5-MAX: É um LLM multimodal de código fechado pela Alibaba Cloud, treinado com mais de 20 trilhões de parâmetros e ajustado pelo RLHF. Ele mostra recursos avançados de raciocínio com a capacidade de gerar imagens e vídeos.
- Deepseek-r1: É um modelo de código aberto da Deepseek, que foi treinado usando o aprendizado de reforço com ajuste fino supervisionado. Este modelo se destaca no pensamento lógico, solução complexa de problemas, matemática e codificação.
- Kimi K1.5: É um LLM multimodal de código aberto da Moonshot AI que pode processar grandes quantidades de conteúdo em um immediate simples. Ele pode realizar pesquisas na Net em tempo actual em mais de 100 websites e trabalhar com vários arquivos de uma só vez. O modelo mostra ótimos resultados em tarefas envolvendo STEM, codificação e raciocínio geral.

QWEN2.5-MAX vs Deepseek-R1 vs Kimi K1.5: Comparação técnica
Vamos começar a comparar QWEN2.5-MAX, Deepseek-R1 e Kimi K1.5, começando com seus detalhes técnicos. Para isso, compararemos as performances e recursos de referência desses 3 modelos.
Comparação de desempenho de referência
Com base nos dados disponíveis, aqui está o desempenho do QWEN2.5-MAX contra o DeepSeek-R1 e o Kimi K1 em vários testes de referência padrão.

- Banco de código ao vivo: Este benchmark determina como cada modelo lida com tarefas de codificação, incluindo redação, depuração ou compreensão do código. Kimi K1.5 e QWEN2.5-MAX estão quase amarrados, indicando que eles são muito capazes de gerar e analisar trechos de código.
- GPQA (resposta de perguntas de uso geral): Este benchmark avalia a capacidade de um modelo de entender e resolver questões em torno de vários domínios, como raciocínio, entendimento baseado em contexto e conhecimento factual. Nesta referência, o Deepseek R1 lidera o QWEN2.5-MAX com uma margem significativa, destacando seu domínio.
- Mmlu: Este benchmark testa o conhecimento e a compreensão do idioma de vários sujeitos em vários domínios (matemática, ciências, humanidades and so forth.). O QWEN2.5-MAX lidera o Deepseek R1, mostrando uma melhor compreensão de diversos tópicos acadêmicos e do mundo actual.
- C-EVAL (avaliação abrangente): Este benchmark abrange questões de raciocínio diferenciadas e de nível superior. QWEN2.5-MAX mostra um melhor desempenho nesse parâmetro em comparação com o Kimi K1.5, tornando-o um modelo de raciocínio melhor.
Comparação de recursos
Cada um dos três modelos possui sua própria interface de bate -papo na net, que oferece recursos diferentes. Veja como o QWEN2.5-MAX funciona contra seus pares quando se trata de recursos:
Recurso | QWEN2.5-MAX | Deepseek-r1 | Kimi K1.5 |
---|---|---|---|
Análise de imagem | Não | Sim | Sim |
Interface da net | Sim | Sim | Sim |
Geração de imagens | Sim | Não | Não |
Pesquisa na net | Não | Sim | Sim |
Artefatos | Sim | Não | Não |
Documentos add | Solteiro | Múltiplo | Múltiplo |
Frase comum | Não | Não | Sim |
QWEN2.5-MAX vs Deepseek-R1 vs Kimi K1.5: Análise baseada em aplicativos
Agora vamos comparar os 3 principais modelos chineses atualmente reinantes-QWEN2.5-MAX, Deepseek-R1 e Kimi K1.5-com base em seus aplicativos. Para isso, testaremos seu desempenho em três tarefas diferentes envolvendo raciocínio, processamento em várias etapas e codificação.
Daremos o mesmo immediate aos três modelos e compararemos suas respostas, dando a eles pontuações de 0, 0,5 e 1 com base no desempenho deles. No last, contaremos as pontuações para descobrir qual deles é o melhor. Então, vamos começar.
Tarefa 1: Raciocínio Avançado
Incitar: “Show matematicamente que a terra é redonda”
Saídas
QWEN2.5-MAX | Deepseek-r1 | Kimi K1.5 |
---|---|---|
Usando geometria, gravidade, movimento de satélite e experimentos históricos, mostramos matematicamente que a Terra é redonda. A curvatura do horizonte, a uniformidade da gravidade e a consistência das órbitas de satélite suportam essa conclusão. A Terra é uma esfera (ou mais precisamente, um esferóide oblato). | Ao calcular a circunferência da Terra usando diferenças angulares nas sombras e distâncias entre dois locais, os eratóstenos provaram matematicamente a forma esférica da Terra. Medições e observações modernas (por exemplo, curvatura do horizonte, eclipses lunares) confirmam ainda mais isso. | A consistência de distâncias e ângulos medidos com geometria esférica (por exemplo, d = rθ) prova que a terra é redonda. Os modelos de Terra plana não conseguem explicar esses relacionamentos. |
Minha análise
QWEN2.5-MAX | Deepseek-r1 | Kimi K1.5 |
---|---|---|
O modelo forneceu algumas observações importantes que apoiam a reivindicação. Em seguida, abordou vários parâmetros, como a geometria de uma esfera, curvatura do horizonte, força rotacional e centrífuga e outros que não eram necessários. Ele abrangeu o “experimento de Eratóstenes” como parte desses parâmetros. | O modelo explicou a teoria em breve, juntamente com todos os cálculos matemáticos para fornecer a prova da tarefa fornecida. Também deu algumas provas adicionais, juntamente com algumas observações importantes para estabelecer seu resultado. O modelo usou o experimento de Eratóstenes para estabelecer a prova. | Este modelo deu a resposta mais clara e concisa. Provou a hipótese com um pequeno cálculo matemático. Utilizou as medidas do experimento de Eratóstenes, sem mencioná -lo explicitamente. |
A prova mais relevante da curvatura da Terra seria a que envolve o método de Eratóstenes (por volta de 240 aC), uma vez que é uma das provas mais antigas e abrangentes que envolvem a análise matemática da diferença angular entre dois lugares. Todos os três modelos usaram essa abordagem de uma maneira ou de outra.
QWEN2.5-MAX forneceu 8 maneiras diferentes de provar que a Terra é redonda sem nenhuma explicação adequada de nenhuma. Deepseek-R1 tomou o método de Eratóstenes-explicou sua teoria e matemática em termos concisos e claros. O Kimi Ok 1.5 usou a abordagem mais simples, com base no método necessário sem mencioná -lo explicitamente.
Pontuação: QWEN2.5-MAX: 0 | Deepseek-r1: 0,5 | Kimi K1.5: 1
Tarefa 2: Processamento e análise de documentos em várias etapas
Incitar: ““Resuma a lição em 1 linha, crie um fluxograma para explicar o processo que está acontecendo na lição e depois traduza o resumo para o francês.
🔗 Lição““
Saídas

Minha análise
QWEN2.5-MAX | Deepseek-r1 | Kimi K1.5 |
---|---|---|
O resumo foi conciso e estabeleceu os tópicos abordados na lição. | O resumo da lição foi nítido, conciso e direto ao ponto. | O resumo abrangeu todos os tópicos e period bastante simples, mas um pouco longo em comparação com os outros. |
O fluxograma cobriu todos os títulos essenciais e suas subtítulos, conforme necessário. | O fluxograma cobriu todos os títulos essenciais, mas tinha mais do que o conteúdo necessário nas sub-cabeças. | Em vez do fluxograma sobre a lição, o modelo gerou o fluxograma no processo que foi coberto na lição. No geral, esse fluxograma period claro e nítido. |
Eu queria um resumo simples, nítido e de uma linha da lição que foi gerada por Deepseek-R1 e Qwen2.5-max. Mas para o fluxograma, embora o design e a nitidez do resultado gerado por Kimi K1.5 fosse a pergunta exata, ele não tinha detalhes sobre o fluxo da lição. O fluxograma da Deepseek-R1 period um pouco pesado, enquanto Qwen2.5-Max deu um bom fluxograma que cobria todos os itens essenciais.
Pontuação: QWEN2.5-MAX: 1 | Deepseek-r1: 0,5 | Kimi K1.5: 0.5
Tarefa 3: Codificação
Incitar: “Escreva um código HTML para um tipo de aplicativo”
Observação: Antes de inserir seu immediate no QWEN2.5-MAX, clique em Artefatos, dessa forma, você poderá visualizar a saída do seu código na interface de bate-papo.
Saída:
Qwen2.5-max:
Deepseek-R1:
Kimi K1.5:
Minha análise:
QWEN2.5-MAX | Deepseek-r1 | Kimi K1.5 |
---|---|---|
O modelo gera o código rapidamente e o próprio aplicativo se parece muito com o “aplicativo Wordle” actual. Em vez de alfabetos listados na parte inferior, ele nos apresentou a opção de inserir diretamente nossas 5 letras. Atualizaria automaticamente essas cartas no quadro. | O modelo leva algum tempo para gerar o código, mas a saída foi ótima! A saída que gerou period quase a mesma do “aplicativo Wordle” actual. Podemos selecionar os alfabetos que desejamos tentar adivinhar e eles colocariam nossa seleção na palavra. | O modelo gera o código com rapidez suficiente. Mas a saída do código foi uma versão distorcida do “aplicativo Wordle” actual. O quadro de palavras não estava aparecendo, nem todas eram cartas. De fato, os recursos de Enter e Excluir quase vieram sobre os alfabetos. |
Com seu recurso de artefatos, foi tremendous fácil analisar o código ali mesmo. | O único problema period que eu tinha que copiar o código e executá -lo em uma interface diferente. | Além disso, tive que executar esse código em uma interface diferente para visualizar a saída. |
Em primeiro lugar, eu queria que o aplicativo gerado fosse o mais semelhante ao aplicativo Wordle actual possível. Em segundo lugar, eu queria fazer um esforço mínimo para testar o código gerado. O resultado gerado pelo DeepSeek-R1 foi o mais próximo da pergunta, enquanto o resultado bastante bom de Qwen-2.5 foi o mais fácil de testar.
Pontuação: QWEN2.5-MAX: 1 | Deepseek-r1: 1 | Kimi K1.5: 0
Pontuação last
Qwen2.5-max: 2 | Deepseek-r1: 1,5 | Kimi K1.5: 1.5
Conclusão
QWEN2.5-MAX é um LLM incrível que oferece aos modelos como Deepseek-R1 e Kimi K1.5 Difícil. Suas respostas foram comparáveis em todas as tarefas diferentes. Embora atualmente não tenha o poder de analisar imagens ou pesquisar na Net, uma vez que esses recursos estiverem ao vivo; QWEN2.5-MAX será um modelo imbatível. Ele já possui recursos de geração de vídeo que até o GPT-4O ainda não possui. Além disso, sua interface é bastante intuitiva, com recursos como artefatos, o que tornam mais simples executar os códigos na mesma plataforma. Em suma, o QWEN2.5-MAX do Alibaba é um LLM geral que está aqui para redefinir como trabalhamos com o LLMS!
Perguntas frequentes
A. QWEN2.5-MAX é o mais recente LLM multimodal do Alibaba, otimizado para geração de texto, imagem e vídeo com mais de 20 trilhões de parâmetros.
A. Comparado a Deepseek-R1 e Kimi K1.5, ele se destaca no raciocínio, criação de conteúdo multimodal e suporte de programação, tornando-o um forte concorrente no ecossistema de IA chinês.
R. Não, Qwen2.5-Max é um modelo de código fechado, enquanto o Deepseek-R1 e o Kimi K1.5 são de código aberto.
A. Sim! O modelo QWEN2.5-MAX suporta geração de imagem e vídeo.
R. Sim, o DeepSeek-R1 e o Kimi K1.5 suporta a pesquisa na Net em tempo actual, enquanto o QWEN2.5-MAX atualmente não possui recursos de pesquisa na Net. Isso oferece à Deepseek-R1 e Kimi uma vantagem para recuperar as informações on-line mais recentes.
A. Dependendo do seu caso de uso, escolha:
-QWEN2.5-MAX: Se você precisar de recursos multimodais (texto, imagens, vídeo) e raciocínio avançado de IA.
-Deepseek-r1: Se você deseja a flexibilidade de um modelo de código aberto, desempenho superior à resposta a perguntas e integração de pesquisa na net.
– Kimi K1.5: Se você precisar de manuseio de documentos eficientes, solução de problemas baseados em haste e acesso na Net em tempo actual.