Maio foi um mês de anúncios: entre Google, Apple, Microsoft e OpenAI, houve muito barulho sobre — bem, muito pouco, na verdade. Sempre me pareceu que grandes anúncios roubam a atenção que poderia ir para projetos menos chamativos, mas mais merecedores. (Ou talvez eu esteja apenas ficando cansado.)
Isso não quer dizer que nada de interessante aconteceu. Estamos vendo interesse contínuo em modelos de linguagem pequenos — pequenos o suficiente para rodar em celulares (que têm mais poder de processamento do que os supercomputadores de algumas décadas atrás). Nós nos perguntamos se novas linguagens de programação fazem sentido na period do código gerado por IA — mas vimos Bend (para código altamente paralelo) e Jolie (para serviços), além de LuaX (um novo interpretador Lua) e Faer (para números de alto desempenho em Rust). E para desenvolvedores internet, alguém tem usado CSS Grid para compor música. A programação de vários tipos está muito viva.
IA
- O primeiro dois partes da série de três partes O que aprendemos com o ano de construção com LLMsforam postadas no O’Reilly Radar. A terceira parte será postada em 6 de junho. Esta série é uma coleção abrangente de sabedoria e experiência que será essencial para qualquer um que esteja construindo aplicativos de IA.
- lhama-fs é um sistema de arquivos baseado no Llama 3 que nomeia e encontra arquivos para você. É uma ideia muito interessante, embora eu não tenha certeza se é uma em que eu confiaria.
- MonsterGPT é uma ferramenta no GPT Market da OpenAI para usar o ChatGPT para ajustar LLMs menores. Você aponta para o conjunto de dados (ele pode usar conjuntos de dados hospedados no Hugging Face) e o modelo, e ele faz o resto.
- Audição da fala alvo é um novo sistema para fones de ouvido com cancelamento de ruído que pode permitir ao usuário ouvir uma única voz em uma multidão; vozes indesejadas são canceladas.
- Difusão ambiente é um nova estratégia de treinamento para arte generativa que reduz o problema de reproduzir obras ou estilos que estão nos dados de treinamento. Ela treina modelos em versões corrompidas dos dados de treinamento iniciais, de modo que é impossível “memorizar” qualquer obra em explicit.
- PCs Copilot+ são computadores pessoais com {hardware} capaz de executar aplicativos de IA, incluindo processadores neurais e GPUs. Os PCs Copilot+ são projetados para oferecer suporte a recursos de IA que estão sendo integrados ao Home windows 11.
- A Meta criou uma nova família de modelos mistos-modais chamados Camaleão. Ao contrário dos modelos multimodais, que usam modelos diferentes para texto e imagens, o Chameleon é um modelo único e pode integrar livremente dados de diferentes modalidades.
- Aqui está um implementação do Llama 3em detalhes, do zero. Você precisa baixar os pesos do Meta.
- Thom Wolf, um dos cofundadores da Hugging Face, publicou um lista de livros e artigos para ler se você quiser entrar na IA.
- O GPT-4o pode ser usado para auxiliar em revisões de código. É útil. Mas quando se trata de perception actual, fica aquém. Quantas vezes você quer que lhe digam para usar nomes de variáveis mais longos ou escrever mais comentários?
- Uma nova interface cerebral dispositivo pode converter pensamento em fala.
- Para o bem ou para o mal, o Google é integrando IA generativa na pesquisa. Ela tem um problema sério com a geração de resultados ruins, algo que o Google está tentando consertar. Tom’s {Hardware} mostra como desabilitar Resultados gerados por IA.
- O Google tem anunciado “Projeto Astra”, que adiciona voz e visão interativas aos seus modelos. Também anunciou que uma versão futura do Gemini terá uma janela de contexto de dois milhões de tokens. Outros anúncios incluem Flash de Gêmeosum modelo leve para rodar em dispositivos menores e Vejoum modelo de texto para vídeo que é considerado comparável ao Sora.
- A versão mais recente do GPT, GPT-4o, adiciona capacidades de análise de voz, visão e emoção interativas em tempo actual. A latência na entrada de voz foi reduzida para 3,2 segundos.
- A OpenAI lançou um rascunho de proposta para Especificações do modeloque fornecem uma maneira de especificar o comportamento desejado para um modelo. As especificações do modelo parecem um suplemento interessante para — embora não um substituto para —cartões modelo.
- ConheçaHalu é uma nova estrutura para detectar alucinações em grandes modelos de linguagem.
- Uma nova série de três partes sobre Segurança da IA está começando. É básico e parece razoavelmente bem equilibrado. No momento, apenas a primeira parte foi escrita.
- A IA pode esquecer? Ben Lorica escreve sobre desaprendendoo processo pelo qual informações podem ser removidas de um modelo pré-treinado. Desaprender será importante por muitas razões, e não menos importante são as regulamentações europeias sobre remoção de dados pessoais incorretos.
- Georgia Tech e Meta têm criado um conjunto de dados climáticos aberto para treinar IA para sistemas de captura de carbono.
- A Apple tem lançado seus modelos de linguagem OpenELM. Esses modelos são todos relativamente pequenos (parâmetros 270M-3B) e projetados para rodar em dispositivos móveis. O código fonte está disponível em Abraçando o Rosto; eles são licenciados sob a Apple Pattern Code License.
- Floco de neve-ártico-instruir é um novo modelo de linguagem. Ele afirma ser o maior verdadeiramente código aberto modelo (mistura de parâmetros de 128×3,66 de especialistas).
Programação
- LuaX (Lua eXtended) é um novo interpretador para a linguagem de programação Lua que pode compilar executáveis independentes.
- O Google lançou Firebase Genkit apoiar para seus modelos Gemma. Este framework permite que desenvolvedores JavaScript criem backends Node.js para integrar o modelo de linguagem Gemma em aplicativos. Suporte para Go é prometido em breve.
- Não é útil, mas é authorized: um grupo da Universidade de Michigan criou espectrogramas que parecem imagens mas isso pode ser tocado como som.
- Dobrar é uma nova linguagem de programação de alto nível para gerar código altamente paralelo. O código pode ser executado em CPUs multicore ou em GPUs. Bend parece e funciona como Python, mas detecta automaticamente oportunidades de paralelismo.
- A Pink Hat criou o Pink Hat Enterprise Linux (RHEL) inicializável como uma imagem de contêiner. Isso facilita o uso do RHEL no contexto do desenvolvimento nativo da nuvem moderno.
- Patchwork tenta estender o controle de fonte semelhante ao Git de software program para textos escritos e outros artefatos. Uma possível aplicação seria ajudar a integrar escritores humanos e assistentes de IA. De forma mais geral, seus desenvolvedores estão interessados em criar camadas de dados colaborativos locais-primeiro.
- Jolie é uma nova linguagem de programação projetada para desenvolver serviços, em oposição a funções ou objetos. Ela enfatiza contratos, que definem o relacionamento entre o usuário e o serviço. É excellent para projetar APIs e microsserviços.
- O Linguagem de consulta de gráfico (GQL) é um novo Norma ISO para consultar bancos de dados gráficos, colocando-o no mesmo nível do SQL.
- Faer é uma nova biblioteca Rust para álgebra linear. Uma boa biblioteca de álgebra linear é um requisito básico para computação numérica, incluindo aprendizado de máquina e inteligência synthetic.
- Uma nova distribuição Linux, com o nome infeliz EB corbos Linux para aplicações de segurançaapoia a indústria automotiva requisitos de segurança funcionalo que significa que pode ser usado em sistemas embarcados em automóveis.
Rede
- PHP agora pode ser executado no WebAssembly. Isso inclui os frameworks mais populares: WordPress, Laravel e Symfony.
- Houve muitas postagens em desenterrando an online: Molly Branco, Traço de Anil, Maria Farrell e Robin Berjonentre outros. Todos eles são sobre a recuperação da agência em uma internet que se tornou dominada por barões ladrões, tomadores de rendae jardins murados.
- Uma obra-prima do CSS: exibindo partituras musicais com CSS Grid. A tipografia deixa um pouco a desejar, mas isso é corrigível. Um problema maior é que não há uma boa maneira de representar a partitura musical a ser exibida.
- Caneta é uma ferramenta de design colaborativo de código aberto e baseada na internet. Se você acha que isso parece uma versão de código aberto de Figmavocê tem razão.
Segurança
- Um XSS vulnerabilidade no GitLab permite a aquisição de contas com um clique.
- O LastPass será iniciado criptografando os URLs dos websites nos quais os usuários fazem login. Essas URLs não são particularmente sensíveis, mas a criptografia é um passo importante em direção a um design de conhecimento zero.
- Algo novo para desabilitar: o Home windows 11 está adicionando um “lembrar” recurso que salva tudo o que acontece no computador e permite que os aplicativos restaurem o estado anterior. Recall é um grande ameaça à segurança e privacidade. A Microsoft afirma que o conteúdo permanece native, mas essa é uma música que já ouvimos antes.
- A Apple e o Google se uniram em um padrão para detectando dispositivos de rastreamento Bluetooth que são usados para perseguir usuários.
- Adoção de IA por criminosos ainda é relativamente baixo, mas actual. A maior parte da atividade se concentra em jailbreaks para LLMs legítimos (jailbreak como serviço) e deep fakes. Há um número razoável de conjuntos de dados fraudulentos. Até agora, há apenas um LLM treinado para aplicações criminosas.
- Visão de Túnelum ataque recém-descoberto contra virtualmente todas as VPNs permite que o invasor roteie o tráfego não criptografado da vítima pelos servidores do invasor. Embora isso seja chamado de “novo”, a vulnerabilidade existe desde 2002.
- A Microsoft propôs DNS de confiança zero (ZTDNS)uma estrutura que alega resolver muitos dos problemas de segurança que o DNS teve ao longo dos anos. Todas as comunicações são criptografadas. Os resolvedores só podem resolver nomes que são explicitamente permitidos. Não está claro se o ZTDNS será uma solução somente para Home windows ou somente para Enterprise. Agora, ele está em visualização privada.
- Uma mudança no mecanismo de alteração de senhas fez GitLab vulnerável a sequestro de conta. Por sua vez, uma conta sequestrada pode ser usada para plantar vulnerabilidades que comprometem as cadeias de fornecimento de software program.
- O Reino Unido proibiu senhas padrão adivinháveis em dispositivos IoT. Os fornecedores ainda podem vender dispositivos com senhas padrão, mas cada senha deve ser única.
- Se você quiser entender o ataque xz em detalhes, aqui está um palestra convidada da Colômbia. Inclui uma demonstração ao vivo.
Realidade Aumentada e Digital
- Os pesquisadores têm desenvolvido óculos de realidade aumentada que parecem óculos comuns em vez de um capacete. Eles dependem da holografia para produzir imagens 3D coloridas. Embora não esteja claro se isso algum dia se tornará um produto, é exatamente o que a RA precisa para ter sucesso.
- A Stability AI lançou Vídeo 3D estávelque gera uma imagem 3D a partir de uma única imagem 2D.
Projeto
- Design pobre tem consequências: pelo menos 11 pessoas estão concorrendo à presidência da Islândia sem ter ideia de que estavam concorrendo. A mesma página da internet confusa é usada para endossar um candidato e registrar sua própria candidatura.
- O IF vem curando um catálogo de padrões de design para IA. É uma ótima fonte para pessoas que estão projetando sistemas de IA e que precisam criar serviços nos quais seus usuários confiem.
Robótica
- Cylon é um framework JavaScript para robótica e a Web das Coisas. Se você quiser usar Node.js quando estiver programando robôs, agora você pode.
- Um robô autônomo habilitado para IA projetou, construiu e testou um objeto 3D que atualmente é o melhor amortecedor do mundo. Ele absorve 75% da energia usada para esmagá-lo.
- A incorporação da IA na robótica significa que os roboticistas precisam de novas fontes de dados. De onde virão esses dados? (acesso pago)? Dados 3D são preferíveis, mas são lentos e caros para desenvolver. Vídeos on-line?