Por Melissa Anchisi e Florian Meyer
Em julho, anunciou a ETH, ETH Zurique e o Supercomputing Middle (CSCS) da Suíça (CSCs) sua iniciativa conjunta para construir um grande modelo de linguagem (LLM). Agora, este modelo está disponível e serve como um bloco de construção para desenvolvedores e organizações para futuras aplicações, como chatbots, sistemas de tradução ou ferramentas educacionais.
O modelo é nomeado Apertus – Latim para “Open” – destacando sua característica distinta: todo o processo de desenvolvimento, incluindo sua arquitetura, pesos do modelo e dados e receitas de treinamento, é acessível abertamente e totalmente documentado.
Pesquisadores, profissionais e entusiastas experientes da IA podem acessar o modelo através do parceiro estratégico Swisscom ou baixá -lo de Abraçando o rosto – Uma plataforma para modelos e aplicações de IA – e implantá -la para seus próprios projetos. Apertus está disponível gratuitamente em dois tamanhos – com parâmetros de 8 bilhões e 70 bilhões de parâmetros, sendo o modelo menor mais apropriado para o uso particular person. Ambos os modelos são lançados sob uma licença permissiva de código aberto, permitindo o uso em educação e pesquisa, além de amplas aplicações sociais e comerciais.
Um LLM totalmente aberto
Como modelo de linguagem totalmente aberta, o Apertus permite que pesquisadores, profissionais e entusiastas se baseem no modelo e o adaptem às suas necessidades específicas, bem como inspecionem qualquer parte do processo de treinamento. Isso distingue Apertus de modelos que tornam acessíveis apenas componentes selecionados.
“Com este lançamento, pretendemos fornecer um plano de como um modelo de IA confiável, soberano e inclusivo pode ser desenvolvido”, diz Martin Jaggi, professor de aprendizado de máquina da EPFL e membro do Comitê Diretor da iniciativa da AI suíça. O modelo será atualizado regularmente pela equipe de desenvolvimento, que inclui engenheiros especializados e um grande número de pesquisadores da CSCS, ETH Zurique e EPFL.
Um motorista de inovação
Com sua abordagem aberta, EPFL, ETH Zurique e CSCs estão se aventurando em um novo território. “Apertus não é um caso convencional de transferência de tecnologia da pesquisa para o produto. Em vez disso, vemos isso como um impulsionador da inovação e um meio de fortalecer a experiência da IA em pesquisa, sociedade e indústria”, diz Thomas Schultthess, diretor de CSCs e professor da ETH Zurich. De acordo com sua tradição, a EPFL, a ETH Zurique e os CSCs estão fornecendo tecnologia elementary e infraestrutura para promover a inovação em toda a economia.
Treinado em 15 trilhões de fichas em mais de 1.000 idiomas-40% dos dados não são ingleses-Apertus inclui muitos idiomas que até agora foram sub-representados no LLMS, como Swiss German, Romansh e muitos outros.
“Apertus é construído para o bem público. Ele está entre os poucos LLMs totalmente abertos nessa escala e é o primeiro do gênero a incorporar multilinguismo, transparência e conformidade como princípios de design elementary”, diz Imanol Schlag, líder técnico do projeto LLM e cientista de pesquisa da ETH Zurich.
“A Swisscom orgulha -se de estar entre os primeiros a implantar esse modelo pioneiro de grande linguagem em nossa plataforma soberana de IA Swiss. Como parceiro estratégico da iniciativa Swiss AI, estamos apoiando o acesso de Sondes de Apertus durante o Swiss Surves, que suporta o Swiss -Sortent Weeks. Daniel Dobos, diretor de pesquisa da Swisscom.
Acessibilidade
Embora a configuração do Apertus seja direta para profissionais e usuários proficientes, componentes adicionais, como servidores, infraestrutura em nuvem ou interfaces específicas do usuário, são necessárias para uso prático. Os próximos Hackathons Swiss {AI} Weeks serão a primeira oportunidade para os desenvolvedores experimentarem práticas com Apertus, testarão seus recursos e fornecerão suggestions para melhorias nas versões futuras.
A Swisscom fornecerá uma interface dedicada aos participantes do Hackathon, facilitando a interação com o modelo. Atualmente, os clientes comerciais da Swisscom poderão acessar o modelo Apertus através da plataforma Swiss AI Swiss da Swisscom.
Além disso, para pessoas fora da Suíça, o Utilitário de inferência de IA pública tornará o Apertus acessível como parte de um movimento world para a IA pública. “Atualmente, Apertus é o principal modelo público de IA: um modelo construído por instituições públicas, para o interesse público. É a nossa melhor prova, mas que a IA pode ser uma forma de infraestrutura pública como rodovias, água ou eletricidade”, diz Joshua Tan, mantenedora de vantagem da utilidade pública de inferência de IA.
Transparência e conformidade
Apertus é projetado com transparência em sua essência, garantindo assim a reprodutibilidade complete do processo de treinamento. Juntamente com os modelos, a equipe de pesquisa publicou uma variedade de recursos: documentação abrangente e código-fonte do processo de treinamento e conjuntos de dados utilizados, pesos de modelo, incluindo pontos de verificação intermediários-todos lançados sob a licença permissiva de código aberto, que também permite o uso comercial. Os termos e condições estão disponíveis através do rosto abraçando.
Apertus foi desenvolvido com a devida consideração às leis suíças de proteção de dados, leis suíças de direitos autorais e as obrigações de transparência da Lei da UE. Atenção specific foi dada aos padrões éticos e integridade ética: o corpus de treinamento se baseia apenas em dados que estão disponíveis ao público. É filtrado para respeitar as solicitações de opção de opção legíveis por máquina de websites, mesmo retroativamente, e remover dados pessoais e outros conteúdos indesejados antes do início do treinamento.
O começo de uma jornada
“Apertus demonstra que a IA generativa pode ser poderosa e aberta”, diz Antoine Bosselut, professor e chefe do laboratório de processamento de linguagem pure da EPFL e co-líder da iniciativa da IA suíça. “O lançamento do Apertus não é uma etapa remaining, mas é o começo de uma jornada, um compromisso de longo prazo de abrir, confiáveis e soberanas de fundações de IA, para o bem público em todo o mundo. Estamos entusiasmados em ver os desenvolvedores se envolver com o modelo no Mannequin Swiss {ai} hackathons.
As versões futuras visam expandir a família modelo, melhorar a eficiência e explorar adaptações específicas de domínio em áreas como lei, clima, saúde e educação. Eles também devem integrar recursos adicionais, mantendo padrões fortes para transparência.
Epfl
(École Polytechnique Fédérale de Lausanne) é um Instituto de Pesquisa e Universidade de Lausanne, Suíça, especializado em ciências naturais e engenharia.
A EPFL (École Polytechnique Fédérale de Lausanne) é um Instituto de Pesquisa e Universidade em Lausanne, Suíça, especializado em ciências naturais e engenharia.