Quer insights mais inteligentes em sua caixa de entrada? Inscreva -se para que nossos boletins semanais obtenham apenas o que importa para a IA, dados e líderes de segurança corporativos. Inscreva -se agora
Tiktok está ganhando manchetes novamente hoje depois A Casa Branca se juntou ao widespread aplicativo de mídia social – Mas sua empresa controladora Bytedanceuma gigante da net chinesa, também teve um anúncio surpresa na manga.
A empresa Equipe de sementes de pesquisadores de IA Hoje lançou o sementes-36b No web site de compartilhamento de código da AI, abraçando o rosto.
Seed-ass-36b é uma nova linha de código aberto, grandes modelos de idiomas (LLM) projetados para raciocínio avançado e usabilidade focada em desenvolvedores com um contexto de token mais longo – isto é, quanta informação os modelos podem aceitar como entradas e depois em uma única troca – do que muitos LLMs concorrentes de empresas de tecnologia dos EUAaté líderes como o Openai e Antrópico.
A coleção apresenta três variantes principais:
Ai escala atinge seus limites
Capitões de energia, custos crescentes de token e atrasos de inferência estão remodelando a IA corporativa. Junte -se ao nosso salão exclusivo para descobrir como são as principais equipes:
- Transformando energia em uma vantagem estratégica
- Arquitetagem Inferência eficiente para ganhos reais de rendimento
- Desbloqueando o ROI competitivo com sistemas de IA sustentáveis
Prenda seu lugar para ficar à frente: https://bit.ly/4mwgngo
- Base de semente-asso-36b com dados sintéticos
- Base de semente-asso-36b sem dados sintéticos
- Instrução de sementes-OSS-36B
Ao liberar versões sintéticas e não sintéticas do modelo de semente-36b-base, a equipe de sementes procurou equilibrar o desempenho prático com a flexibilidade da pesquisa.
O variante de dados sintéticos, treinado com dados de instruções adicionais, consistentemente oferece pontuações mais fortes em benchmarks padrão e se destina como uma opção de uso geral de maior desempenho.
O modelo não sintético, Por outro lado, omite esses aumentos, criando uma base mais limpa que evita potencial viés ou distorção Introduzido por dados de instruções sintéticas.
Ao fornecer ambos, a equipe fornece aos usuários aplicados acesso a resultados aprimorados, garantindo que os pesquisadores mantenham uma linha de base neutra para o estudo dos métodos pós-treinamento.
Enquanto isso, o Modelo de Instrução de Seed-Oss-36B difere em que é Pós-treinado com dados de instrução Para priorizar a execução de tarefas e as instruções seguintes, em vez de servir puramente como um modelo de fundação.
Todos os três modelos são lançados sob a licença Apache-2.0, permitindo o uso, modificação e redistribuição gratuitas por pesquisadores e desenvolvedores que trabalham para empresas.
Isso significa Eles podem ser usados para alimentar aplicativos comerciais, internos a uma empresa ou externo/voltado para o cliente, sem pagar a Bytedance nenhuma taxa de licenciamento ou para o uso da interface de programação de aplicativos (API).
Isso continua o Verão 2025 Tendência de empresas chinesas que enviam poderosos modelos de código aberto com o Openai tentando alcançar seu O próprio Duet de GPT de código aberto lançado no início deste mês.
A equipe de sementes posiciona Oss para aplicações internacionaisenfatizando a versatilidade entre o raciocínio, a execução de tarefas do tipo agente e as configurações multilíngues.
A equipe de sementes, formada em 2023, concentrou -se na construção de modelos de fundação que podem servir os casos de pesquisa e uso aplicados.
Recursos de design e núcleo
A arquitetura por trás do semente-36b combina opções familiares de design, como modelagem de linguagem causal, atenção agrupada da consulta, ativação do Swiglu, RMSNorm e codificação posicional de corda.
Cada modelo carrega 36 bilhões de parâmetros em 64 camadas e suporta um vocabulário de 155.000 tokens.
Um dos recursos definidores é o seu Capacidade nativa de longo contexto, com um comprimento máximo de 512.000 tokens, Projetado para processar documentos estendidos e cadeias de raciocínio sem perda de desempenho.
Isso é o dobro do comprimento de Nova família modelo GPT-5 do OpenAI e é aproximadamente equivalente a cerca de 1.600 páginas de texto, o comprimento de uma Bíblia cristã.
Outro elemento distintivo é a introdução de um orçamento de pensamentoque permite que os desenvolvedores especifiquem quanto raciocínio o modelo deve executar antes de fornecer uma resposta.
É algo que também vimos de outros modelos recentes de código aberto, incluindo O novo Nemotron-Nano-9b-V2 da NVIDIAtambém Disponível no rosto de abraçar.
Na prática, isso significa que as equipes podem ajustar o desempenho, dependendo da complexidade da tarefa e dos requisitos de eficiência da implantação.
Os orçamentos são recomendados em múltiplos de 512 tokens, com 0 fornecendo um modo de resposta direta/
Desempenho competitivo em benchmarks de terceiros
Os benchmarks publicados com a posição de lançamento semente-36b entre os grandes modelos de código aberto mais fortes. A variante de instrução, em explicit, publica resultados de última geração em várias áreas.
- Matemática e raciocínio: Instrução de sementes-OSS-36B alcança 91,7 % no AIME24 e 65 em BeyondAimeambos representando de código aberto “ponta” (SOTA).
- Codificação: No LivecodeBench V6, o modelo de instrução registra 67.4outra pontuação do SOTA.
- Manuseio de longo prazo: No governante na duração do contexto de 128k, ele atinge 94.6marcando o maior resultado de código aberto relatado.
- Desempenho do modelo básico: A variante base de dados sintéticos entrega 65.1 no mmlu-pro e 81.7 em matemáticaambos os resultados de última geração em suas categorias.
A versão base sem sintética, embora um pouco atrás de muitas medidas, se mostra competitiva por si só.
Isto supera sua contraparte sintética no GPQA-D, Fornecendo aos pesquisadores uma linha de base mais limpa e sem instrução para experimentação.
Para empresas comparando opções abertas, esses resultados sugestão os ossos de sementes oferecem um forte potencial entre as cargas de trabalho em matemática, codificação e de longo prazo enquanto ainda fornece flexibilidade para casos de uso de pesquisa.
Acesso e implantação
Além do desempenho, a equipe de sementes destaca a acessibilidade para desenvolvedores e profissionais. Os modelos pode ser implantado usando transformadores de rosto abraçadoscom Suporte de quantização em formatos de 4 e 8 bits para reduzir os requisitos de memória.
Eles também integrar -se ao VLLM para porção escalávelincluindo exemplos de configuração e instruções do servidor API.
Para reduzir ainda mais as barreiras, a equipe inclui scripts para inferência, personalização imediata e integração de ferramentas.
Para Líderes técnicos gerenciando pequenas equipes ou trabalhando sob restrições orçamentáriasessas disposições estão posicionadas para tornar a experimentação com modelos de 36 bilhões de parâmetros mais acessíveis.
Licenciamento e considerações para tomadores de decisão corporativos
Com os modelos oferecidos no Apache-2.0, as organizações podem adotá-los sem termos de licenciamento restritivos, um fator importante para as equipes que equilibram as preocupações legais e operacionais.
Para os tomadores de decisão que avaliam o cenário de código aberto, o comunicado traz três takeaways:
- Os benchmarks de última geração em matemática, codificação e raciocínio de longo prazo.
- Um equilíbrio entre modelos treinados sintéticos de maior desempenho e linhas de base limpas de pesquisa.
- Recursos de acessibilidade que reduzem a sobrecarga operacional para as equipes de engenharia enxuta.
Ao colocar um forte desempenho e implantação flexível sob uma licença aberta, a equipe de sementes da Bytedance adicionou novas opções para empresas, pesquisadores e desenvolvedores.