Resumindo livros como podcasts – O’Reilly


Como quase todo mundo, ficamos impressionados com a capacidade do NotebookLM de gerar podcasts: duas pessoas virtuais discutindo. Você pode fornecer alguns hyperlinks e ele gerará um podcast baseado nos hyperlinks. Os podcasts eram interessantes e envolventes. Mas eles também tinham algumas limitações.

O problema com o NotebookLM é que, embora você possa avisá-lo, ele faz em grande parte o que vai fazer. Ele gera um podcast com duas vozes – uma masculina e uma feminina – e dá pouco controle sobre o resultado. Há um immediate opcional para personalizar a conversa, mas esse único immediate não permite que você faça muita coisa. Especificamente, você não pode dizer quais tópicos discutir ou em que ordem discuti-los. Você pode tentar, mas ele não ouvirá. Também não é coloquial, o que é uma surpresa agora que todos nós nos acostumamos a conversar com IAs. Você não pode dizer para iterar dizendo “Isso foi bom, mas gere uma nova versão alterando esses detalhes” como você pode fazer com ChatGPT ou Gemini.

Aprenda mais rápido. Vá mais fundo. Veja mais longe.

Podemos fazer melhor? Podemos integrar nosso conhecimento de livros e tecnologia com a capacidade de resumo da IA? Argumentamos (e continuaremos a argumentar) que simplesmente aprender como usar a IA não é suficiente; você precisa aprender como fazer algo com IA que seja melhor do que aquilo que a IA poderia fazer sozinha. Você precisa integrar a inteligência synthetic com a inteligência humana. Para ver como seria na prática, construímos nosso próprio conjunto de ferramentas que nos dá muito mais controle sobre os resultados. É um pipeline de vários estágios:

  • Usamos IA para gerar um resumo para cada capítulo de um livro, garantindo que todos os tópicos importantes sejam abordados.
  • Usamos IA para reunir os resumos dos capítulos em um único resumo. Esta etapa essencialmente nos dá um esboço estendido.
  • Usamos IA para gerar um diálogo entre duas pessoas que se torna o roteiro do podcast.
  • Editamos o roteiro manualmente, certificando-nos novamente de que os resumos cobrem os tópicos certos na ordem certa. Esta é também uma oportunidade para corrigir erros e alucinações.
  • Usamos a conversão de fala em texto do Google API multifalante (ainda em versão prévia) para gerar um podcast resumido com dois participantes.

Por que estamos nos concentrando em resumos? Os resumos nos interessam por vários motivos. Primeiro, sejamos realistas: ter duas pessoas inexistentes discutindo algo que você escreveu é fascinante – especialmente porque elas parecem genuinamente interessadas e entusiasmadas. Ouvir as vozes de ciberpessoas inexistentes discutindo seu trabalho faz você se sentir como se estivesse vivendo uma fantasia de ficção científica. De forma mais prática: a IA generativa é inquestionavelmente boa em resumos. Existem poucos erros e quase nenhuma alucinação whole. Finalmente, nossos usuários desejam um resumo. Sobre O’Reilly Respostasnossos clientes frequentemente pedem resumos: resuma este livro, resuma este capítulo. Eles querem encontrar as informações de que precisam. Eles querem descobrir se realmente precisam ler o livro – e, em caso afirmativo, quais partes. Um resumo os ajuda a fazer isso e, ao mesmo tempo, economizar tempo. Isso permite que eles descubram rapidamente se o livro será útil, e faz isso melhor do que a contracapa ou uma sinopse na Amazon.

Com isso em mente, tivemos que pensar qual seria o resumo mais útil para nossos membros. Deve haver um ou dois alto-falantes? Quando uma única voz sintetizada resumiu o livro, meus olhos (ouvidos?) ficaram vidrados rapidamente. Foi muito mais fácil ouvir um resumo estilo podcast onde os participantes virtuais estavam entusiasmados e entusiasmados, como os do NotebookLM, do que uma palestra. O dar e receber de uma discussão, mesmo que simulada, deu aos podcasts uma energia que um único palestrante não tinha.

Qual deve ser a extensão do resumo? Essa é uma questão importante. Em algum momento, o ouvinte perde o interesse. Poderíamos alimentar o texto inteiro de um livro em um modelo de síntese de fala e obter uma versão em áudio – ainda podemos fazer isso; é um produto que algumas pessoas desejam. Mas, no geral, esperamos que os resumos durem minutos, em vez de horas. Posso ouvir por 10 minutos, talvez 30 se for um tópico ou palestrante que considero fascinante. Mas fico notavelmente impaciente quando ouço podcasts e não tenho deslocamento ou outro tempo de inatividade para ouvir. Suas preferências e sua situação podem ser muito diferentes.

O que exatamente os ouvintes esperam desses podcasts? Os usuários esperam aprender ou querem apenas saber se o livro tem o que procuram? Isso depende do tópico. Não consigo imaginar alguém aprendendo Go a partir de um resumo – talvez, mais especificamente, não vejo alguém fluente em Go aprendendo a programar com IA. Os resumos são úteis para apresentar as ideias-chave apresentadas no livro: por exemplo, os resumos de Nativo da nuvem Go deu uma boa visão geral de como Go poderia ser usado para resolver os problemas enfrentados por pessoas que escrevem software program que roda na nuvem. Mas realmente aprender este materials requer olhar exemplos, escrever código e praticar – algo que está fora dos limites em um meio limitado ao áudio. Ouvi IAs lerem listagens de código-fonte em Python; é horrível e inútil. A aprendizagem é mais provável com um livro como Facilitando Arquitetura de Software programque trata mais de conceitos e ideias do que de código. Alguém poderia sair da discussão com algumas ideias úteis e possivelmente colocá-las em prática. Mas, novamente, o resumo do podcast é apenas uma visão geral. Para obter todo o valor e detalhes, você precisa do livro. Em um artigo recente, Ethan Mollick escreve: “Solicitando um resumo não é o mesmo que ler por si mesmo. Pedir à IA para resolver um problema para você não é uma forma eficaz de aprender, mesmo que pareça que deveria ser. Para aprender algo novo, você terá que ler e pensar sozinho.”

Outra diferença entre os podcasts NotebookLM e os nossos pode ser mais importante. Os podcasts que geramos a partir de nosso conjunto de ferramentas têm cerca de seis minutos de duração. Os podcasts gerados pelo NotebookLM têm duração de 10 a 25 minutos. A duração maior poderia permitir que os podcasts do NotebookLM fossem mais detalhados, mas na realidade não é isso que acontece. Em vez de discutir o livro em si, o NotebookLM tende a usá-lo como ponto de partida para uma discussão mais ampla. Os podcasts gerados por O’Reilly são mais direcionados. Eles seguem a estrutura do livro porque fornecemos um plano, um esboço, para a IA seguir. Os podcasters virtuais ainda expressam entusiasmo, ainda trazem ideias de outras fontes, mas estão caminhando numa direção. Os podcasts mais longos do NotebookLM, por outro lado, podem parecer sem objetivo, voltando para pegar ideias que já abordaram. Para mim, pelo menos, isso parece um ponto importante. É verdade que usar o livro como ponto de partida para uma discussão mais ampla também é útil, e há um equilíbrio que precisa ser mantido. Você não quer que pareça que está ouvindo o índice. Mas você também não quer que pareça fora de foco. E se você quiser uma discussão sobre um livro, você deve fazer uma discussão sobre o livro.

Nenhum desses podcasts gerados por IA é isento de limitações. Um resumo gerado por IA não é bom para detectar e refletir sobre nuances na escrita unique. Com o NotebookLM, isso claramente não estava sob nosso controle. Com nosso próprio conjunto de ferramentas, certamente poderíamos editar o roteiro para refletir o que quiséssemos, mas as vozes em si não estavam sob nosso controle e não seguiriam necessariamente a orientação do texto. (É discutível que refletir as nuances de um livro de 250 páginas num podcast de seis minutos seja uma proposta perdida.) O preconceito – uma espécie de nuance implícita – é um problema maior. Nossos primeiros experimentos com o NotebookLM tendiam a ter a voz feminina fazendo as perguntas, e a voz masculina fornecendo as respostas, embora isso parecesse melhorar com o tempo. Nosso conjunto de ferramentas nos deu controle, porque fornecemos o script. Não afirmaremos que éramos imparciais – ninguém deveria fazer afirmações como essa – mas pelo menos controlávamos a forma como o nosso pessoal digital se apresentava.

Nossos experimentos terminaram; é hora de mostrar o que criamos. Pegamos cinco livros, geramos pequenos podcasts resumindo cada um com o NotebookLM e nosso conjunto de ferramentas e publicamos ambos os conjuntos em oreilly.com e em nossa plataforma de aprendizagem. Adicionaremos mais livros em 2025. Ouça-os e veja o que funciona para você. E por favor nos avise o que você acha!



Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *