Tendências de radar a serem observadas: janeiro de 2025 – O’Reilly


Apesar dos 31 dias, dezembro é um mês curto. É difícil que anúncios e acontecimentos que não sejam festas de escritório chamem a atenção. Combatendo essa tendência, a OpenAI fez uma série de anúncios: os “12 Dias de OpenAI”. Para não ficar ofuscado, o Google respondeu com uma enxurrada de anúncios, incluindo o modelo Gemini 2.0 Flash Pondering. Surgiram modelos que podiam usar streaming de áudio e vídeo tanto para entrada quanto para saída. Mas talvez o anúncio mais importante tenha sido o DeepSeek-V3, um modelo muito grande de mistura de especialistas (parâmetros 671B) que tem desempenho equivalente ao de outros modelos de ponta, mas custa cerca de 1/10 do valor para treinar.

IA

  • DeepSeek-V3 é outro LLM para assistir. Seu desempenho está no mesmo nível do Llama 3.1, GPT-4o e Claude Sonnet. Embora o treinamento não fosse barato, o custo de treinamento foi estimado em cerca de 10% dos modelos maiores.
  • Para não ser superado pelo Google, OpenAI visualizado seus próximos modelos: o3 e o3-mini. Ambos são “modelos de raciocínio” que foram treinados para resolver problemas lógicos. Eles poderão ser lançados no remaining de janeiro; OpenAI está procurando pesquisadores de segurança e proteção para teste.
  • Para não ficar atrás dos 12 dias de OpenAI, o Google lançou um novo modelo experimental que foi treinado para resolver problemas lógicos: Pensamento Flash Gêmeos 2.0. Ao contrário dos modelos GPT da OpenAI que suportam o raciocínio, o Flash Pondering mostra explicitamente sua cadeia de pensamento.
  • Jeremy Howard e sua equipe lançou ModernBERTum grande atualizar ao modelo BERT lançado há seis anos. Ele vem em dois tamanhos: parâmetros 139M e 395M. É ideally suited para recuperação, classificação e extração de entidades e outros componentes de um pipeline de dados.
  • O serviço Bedrock da AWS tem a capacidade de verifique a saída de outros modelos para alucinações.
  • Para garantir que eles não sejam superados pelos 12 dias de OpenAI, o Google anunciou o Android XRum sistema operacional para fones de ouvido e óculos de realidade estendida. O Google não planeja construir seu próprio {hardware}; eles estão fazendo parceria com Samsung, Qualcomm e outros fabricantes.
  • Também para não ficar atrás dos 12 dias de OpenAI, a Anthropic anunciou Cliouma abordagem que preserva a privacidade para descobrir como as pessoas usam seus modelos. Essas informações serão usadas para melhorar a compreensão da Anthropic sobre questões de segurança e para construir modelos mais úteis.
  • Para não ficar atrás dos 12 dias de OpenAI, o Google anunciado Gemini 2.0 Flash, um modelo multimodal que suporta streaming para entrada e saída. O anúncio também apresentou Astraum agente de IA para smartphones. Nenhum dos dois está disponível ainda.
  • OpenAI lançou telaum novo recurso que combina programação com escrita. As alterações na tela (código ou texto) tornam-se imediatamente parte do contexto. O código Python é executado no navegador usando Pyodide (Wasm), em vez de em um contêiner (como acontece com o Code Interpreter).
  • Listra tem anunciado um equipment de ferramentas do agente que permite incorporar pagamentos em fluxos de trabalho de agentes. Stripe recomenda usar o equipment de ferramentas em modo de teste até que o aplicativo seja totalmente validado.
  • Simon Wilson mostra como executar um modelo de classe GPT-4 (Llama 3.3 70B) em um laptop computer razoavelmente bem equipado (MacBook Professional M2 de 64 GB).
  • Como parte da série 12 Days of OpenAI, a OpenAI finalmente lançou seu modelo de geração de vídeo, Sora. É gratuito para assinantes do ChatGPT Plus, embora limitado a 50 videoclipes de cinco segundos por mês; uma conta ChatGPT Professional relaxa muitas das limitações.
  • Os pesquisadores demonstraram que modelos avançados de IA, incluindo Claude 3 Opus e OpenAI o1, são capazes de “maquinando”: trabalhar contra os interesses de seus usuários para atingir seus objetivos. Planejar inclui subverter mecanismos de supervisão, entregar intencionalmente resultados abaixo da média e até mesmo tomar medidas para evitar o desligamento ou a substituição. Olá, HAL?
  • RAG de roaming é uma nova técnica de geração aumentada de recuperação que encontra conteúdo relevante pesquisando títulos para navegar nos documentos – como um ser humano faria. Requer documentos bem estruturados. Uma ideia surpreendentemente simples, na verdade.
  • Google anunciou Pali Gemma 2uma nova versão dos seus modelos Gemma que incorpora visão.
  • A visualização GPT-4-o1 não existe mais; a visualização agora é actual, OpenAI o1. Além de habilidades avançadas de raciocínio, o lançamento da produção afirma ser mais rápido e entregar resultados mais consistentes.
  • Um grupo de agentes de IA em Minecraft comportou-se surpreendentemente como humanos– até mesmo desenvolvendo empregos e religiões. Esta é uma forma de modelar como os grupos humanos colaboram?
  • Uma coisa que a indústria de IA precisa desesperadamente (além de mais poder) é melhores benchmarks. Os benchmarks atuais são fechados, facilmente jogáveis ​​(é isso que a IA faz) e irreproduzíveis, e podem não testar nada significativo. Melhor banco é uma estrutura para avaliar a qualidade do benchmark.
  • Palmyra Inventive, um novo modelo de linguagem do Authorpromete a capacidade de desenvolver “estilo” para que todos os resultados gerados por IA não soem chatamente iguais.
  • Durante o treinamento, a IA detecta preconceitos em dados humanos. Quando os humanos interagem com a IA, há uma ciclo de suggestions isso amplifica esses preconceitos.

Programação

  • Unicórnio pode nunca se tornar uma das 20 (ou 100) principais linguagens de programação, mas é descendente de Íconeque sempre foi minha linguagem favorita para processamento de strings.
  • O que significam os CAPTCHAs quando os bots equipados com LLM podem concluir com sucesso tarefas definidas para humanos?
  • eguijuntamente com quadroé uma biblioteca GUI e estrutura para Rust. É portátil e roda nativamente (em macOS, Home windows, Linux e Android), na net (usando Wasm) e em muitos motores de jogo.
  • Para o arquivista que há em nós: O Manx projeto não é sobre uma ilha no Mar da Irlanda ou sobre gatos. É um catálogo de manuais para computadores antigos.
  • Cerbrec é um Python gráfico estrutura para aprendizagem profunda. Destina-se a programadores Python que não possuem conhecimento suficiente para construir aplicativos com PyTorch ou outras bibliotecas de IA.
  • GitHub tem anunciado acesso gratuito ao GitHub Copilot para todos os usuários atuais e novos. O acesso gratuito oferece 2.000 preenchimentos de código e 50 mensagens de bate-papo por mês. Eles também adicionaram a capacidade de usar o Claude 3.5 Sonnet além do GPT-4o.
  • Devina ferramenta de codificação assistida por IA que afirma apoiar o desenvolvimento de software program do início ao fim, incluindo design e depuração, atingiu disponibilidade geral.
  • JSON5, também conhecido como “JSON para humanos”, é uma variante do JSON que foi projetada para ser legível por humanos, para que possa ser escrita e mantida manualmente, por exemplo, em arquivos de configuração.
  • AWS tem anunciado dois novos serviços significativos: Aurora DSQLque é um banco de dados SQL distribuído, e Tabelas S3que oferece suporte a knowledge lakehouses por meio do Apache Iceberg.
  • Fluxo automático é uma ferramenta de código aberto para criar um gráfico de conhecimento. É baseado em TiDB (um banco de dados vetorial), LlamaIndex e DSPy.

Segurança

  • Portspoof é uma ferramenta de segurança que faz com que todas as 65.535 portas TCP pareçam abertas para serviços válidos. Ele emula um serviço válido em todas as portas. Isso torna difícil para um invasor determinar quais portas estão realmente abertas sem investigar cada porta.
  • Vamos criptografarque emite os certificados que os websites (e outros aplicativos) usam para provar suas identidades, anunciou certificados de curta duração que expiram após seis dias. Certificados de curta duração aumentam a segurança, minimizando a exposição se uma chave privada for comprometida.
  • Devido à presença contínua de atacantes nas redes de telecomunicações, o FBI e a CISA dos EUA têm recomendado o uso de protocolos de comunicação criptografados. (Embora eles ainda queiram backdoors nos sistemas de criptografia, o que os tornaria vulneráveis ​​a ataques.)
  • UM novo ataque de phishing usa documentos do Phrase corrompidos para contornar as verificações de segurança. Embora os documentos estejam corrompidos, o Phrase é capaz de recuperá-los.
  • LLM Quebra de fluxo é uma nova classe de ataque contra modelos de linguagem que impede que as proteções impeçam que resultados questionáveis ​​cheguem ao usuário. Esses ataques aproveitam condições de corrida na interação do aplicativo com os usuários.
  • Bootkitty é um Rootkit UEFI que visa inicialização segura em sistemas Ubuntu. Parece ter sido desenvolvido por estudantes de segurança cibernética na Coréiaentão vazou (possivelmente acidentalmente). Ainda não foi encontrado na natureza, mas quando for, será uma ameaça perigosa.
  • A DEF CON iniciou um projeto para melhorar a segurança cibernética da infraestrutura hídrica nos EUA. Eles estão começando com seis empresas de água que atendem comunidades rurais.

Computação Quântica

Rede

Biologia

  • Sim, podemos ter um sabor digital. Um grupo de pesquisa desenvolveu um interface pirulito para que as pessoas possam experimentar o sabor em mundos virtuais.

Aprenda mais rápido. Vá mais fundo. Veja mais longe.



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *