Entre férias, projetos de last de ano, feriados que se aproximam e outras histerias, não publiquei um artigo este mês. Então aqui está uma lista rápida de coisas que me surpreenderam recentemente.
Já somos virtuais?
Estou longe de ser a primeira pessoa a encontrar NotebookLM incrível, e certamente não serei o último. Fiz uma experiência simples: indiquei duas de minhas postagens recentes, “Pense melhor” e “Henry Ford faz IA.” Tanto o resumo quanto as perguntas sugeridas fornecidas pelo NotebookLM foram muito bons: eles foram além de simplesmente comentar as duas peças e entraram na relação entre as duas. Mas o que me surpreendeu foi o podcast gerou: uma discussão de oito minutos entre duas pessoas sintéticas que pareciam interessadas e engajadas. (Aqui está uma descrição de alguns dos técnicas que o Google utiliza para fazer acontecer.) Estava 100% correto? Não, mas honestamente, se um humano resumisse meus artigos, provavelmente encontraria algumas coisas para reclamar.
Sendo o Google, após a experiência inicial, a interface do usuário ficou mais do que um pouco desajeitada. Quando quis voltar ao podcast alguns dias depois, tive que brincar demais de “adivinhe no que clicar”. (Dica: você acha que precisa clicar em “Guia do Pocket book”? Por que o reprodutor de podcast não aparece por padrão?) Mas isso é realmente um problema muito pequeno.
Modelos usando computadores
Antrópico API de uso de computador agora está disponível em beta. Beta está certo – há claramente muita coisa acontecendo aqui que é perigosa e facilmente abusiva. Mas também é muito divertido e aponta para uma nova direção para o desenvolvimento da IA.
Em essência (e posso ter errado a essência), o uso do computador permite que você diga a Claude como usar um computador: navegadores, editores, shells, qualquer coisa que possa ter uma interface de usuário em uma tela (e possivelmente mais). A Anthropic fornece uma demonstração como um contêiner Docker, para que você possa executá-lo com segurança. Quando o contêiner estiver em execução, você poderá dar a Claude um problema para resolver; ele descobrirá como resolver esse problema e usará o computador Linux digital do contêiner para fazer o trabalho. Por exemplo, você pode pedir para preencher uma planilha com dados coletados de websites. Claude fará todos os cliques, cópias e colagens para você.
Isso é revolucionário? Minha primeira reação foi “Grande coisa, posso fazer add de um arquivo para GPT e usá-lo para navegar na internet para mim”. Em princípio isso é verdade, embora o ChatGPT não permita navegação na internet e add de arquivos na mesma conversa. O que há de realmente novo? Pense na solicitação monstruosa que você precisaria para que o GPT lesse uma planilha, descobrisse quais dados estavam faltando, procurasse esses dados na internet e gerasse uma nova planilha atualizada. Não seria simples. Com o uso do computador, grande parte dessa complexidade desaparece.
Isso realmente desaparece? Descobriremos à medida que avançarmos. Ainda estamos no estágio em que as alucinações e o mau comportamento são mais fofos do que críticos. É fácil para Claude ser induzido a interpretar algo em um website aleatório como um immediate. Será um dia de campo para ataques imediatos de injeção. E posso imaginar muitas melhorias. O uso do computador atualmente funciona por meio de capturas de tela e envio para Claude, que calcula onde clicar. Isso parece incrivelmente estranho, especialmente considerando que muitos aplicativos têm recursos de acessibilidade que podem tornar desnecessária a captura de tela.
Por enquanto, relaxe e respire. Não use o computador para nada sério ainda – é importante prestar atenção aos muitos avisos da Anthropic. Mas você deve brincar com isso e pensar no que isso significa. Uma estrutura automatizada para testar aplicações internet, Selenium++? Uma ferramenta para negociar com fornecedores on-line? Estamos muito mais próximos de um mundo cheio de agentes, onde perguntamos ao computador o que fazer e ele faz isso por nós.
Será este o fim do CRM?
Mais ou menos na mesma linha: Sam Lessin postado no Twitter (não vou chamá-lo de X) sobre um hack muito inteligente e útil. Ele exportou muitos anos de e-mail, usou GPT para extrair partes importantes e carregou-os no NotebookLM (sim, de novo), o que lhe permitiu fazer perguntas sobre suas conversas na última década. Com quem eu conversei? Por que? Quais são os assuntos sobre os quais conversamos? Todas essas são informações úteis.
Sam argumenta que este é o fim do software program estruturado de gerenciamento de relacionamento com o cliente (CRM). Não vou oferecer uma opinião para investidores ou fundadores, mas seu processo ressoou em mim imediatamente. Trabalhei com muitos autores e potenciais autores ao longo das décadas, e meu e-mail inclui conversas com milhares de pessoas. Então, quando quero fazer uma pergunta como “Quero entender mais sobre DDOS; com quem devo falar?” meu primeiro passo é acessar o Gmail e começar a pesquisar. E-mail é meu sistema CRM; Nunca usei um produto comercial de CRM.
Infelizmente e ironicamente, a capacidade de pesquisa do Gmail é bastante fraca. Usá-lo para gerenciamento de contatos, embora possa funcionar, não é agradável. Posso apenas perguntar ao NotebookLM? Absolutamente.
O CRM baseado em e-mail pode até ser uma boa ideia inicial, embora seja difícil imaginar um sucesso a longo prazo. Não haveria muito “fosso” para proteger uma startup contra empresas maiores – como o próprio Google. Posso facilmente imaginar o Google construindo esse tipo de pesquisa habilitada para IA diretamente no Gmail. Eles já têm todos os dados.
É isso por este mês. Isso não foi tão ruim – talvez eu devesse fazer isso com mais frequência.