Como a casi todo el mundo, nos impresionó la capacidad de NotebookLM para generar podcasts: dos personas virtuales manteniendo una discusión. Puede darle algunos enlaces y generará un podcast basado en los enlaces. Los podcasts fueron interesantes y atractivos. Pero también tenían algunas limitaciones.
El problema con NotebookLM es que, si bien puedes darle un aviso, en gran medida hace lo que va a hacer. Genera un podcast con dos voces (una masculina y otra femenina) y te da poco management sobre el resultado. Hay un mensaje opcional para personalizar la conversación, pero ese único mensaje no le permite hacer mucho. Específicamente, no puedes decirle qué temas discutir o en qué orden discutirlos. Puedes intentarlo, pero no escucha. Tampoco es conversacional, lo cual es una sorpresa ahora que todos nos hemos acostumbrado a chatear con IA. No puede decirle que repita diciendo “Eso estuvo bien, pero genere una nueva versión cambiando estos detalles” como puede hacerlo con ChatGPT o Gemini.
Aprende más rápido. Profundiza más. Ver más lejos.
¿Podemos hacerlo mejor? ¿Podemos integrar nuestro conocimiento de libros y tecnología con la capacidad de resumir de la IA? Hemos argumentado (y seguiremos argumentando) que simplemente aprender a utilizar la IA no es suficiente; necesitas aprender a hacer algo con IA que sea mejor que lo que la IA podría hacer por sí sola. Es necesario integrar la inteligencia synthetic con la inteligencia humana. Para ver cómo se vería eso en la práctica, creamos nuestra propia cadena de herramientas que nos brinda mucho más management sobre los resultados. Es un proceso de varias etapas:
Usamos IA para generar un resumen de cada capítulo de un libro, asegurándonos de que se cubran todos los temas importantes.
Usamos IA para reunir los resúmenes de los capítulos en un solo resumen. Este paso esencialmente nos da un esquema extendido.
Usamos IA para generar un diálogo de dos personas que se convierte en el guión del podcast.
Editamos el guión a mano, asegurándonos nuevamente de que los resúmenes cubran los temas correctos en el orden correcto. Esta también es una oportunidad para corregir errores y alucinaciones.
Usamos la conversión de voz a texto de Google. API multialtavoz (aún en vista previa) para generar un podcast resumen con dos participantes.
¿Por qué nos centramos en los resúmenes? Los resúmenes nos interesan por varias razones. Primero, seamos realistas: tener a dos personas inexistentes discutiendo algo que escribiste es fascinante, especialmente porque parecen genuinamente interesadas y entusiasmadas. Escuchar las voces de ciberpersonas inexistentes discutiendo tu trabajo te hace sentir como si estuvieras viviendo en una fantasía de ciencia ficción. De manera más práctica: la IA generativa es indudablemente buena para resumir. Hay pocos errores y casi ninguna alucinación absoluta. Finalmente, nuestros usuarios quieren un resumen. En O’Reilly Respuestasnuestros clientes frecuentemente solicitan resúmenes: resuma este libro, resuma este capítulo. Quieren encontrar la información que necesitan. Quieren saber si realmente necesitan leer el libro y, de ser así, qué partes. Un resumen les ayuda a hacerlo mientras ahorran tiempo. Les permite descubrir rápidamente si el libro será útil y lo hace mejor que la contraportada o una propaganda en Amazon.
Con eso en mente, tuvimos que pensar cuál sería el resumen más útil para nuestros miembros. ¿Debería haber uno o dos oradores? Cuando una sola voz sintetizada resumió el libro, mis ojos (¿oídos?) se pusieron vidriosos rápidamente. Fue mucho más fácil escuchar un resumen estilo podcast donde los participantes virtuales estaban emocionados y entusiasmados, como los de NotebookLM, que una conferencia. El toma y daca de una discusión, incluso si period simulado, dio a los podcasts una energía que un solo orador no tenía.
¿Cuánto debe durar el resumen? Ésa es una pregunta importante. En algún momento, el oyente pierde el interés. Podríamos introducir el texto completo de un libro en un modelo de síntesis de voz y obtener una versión en audio; todavía podemos hacerlo; es un producto que algunas personas quieren. Pero en normal, esperamos que los resúmenes duren minutos en lugar de horas. Podría escuchar durante 10 minutos, tal vez 30 si es un tema o un orador que me parece fascinante. Pero soy notablemente impaciente cuando escucho podcasts y no tengo desplazamientos ni ningún otro tiempo de inactividad para escucharlos. Tus preferencias y tu situación pueden ser muy diferentes.
¿Qué esperan exactamente los oyentes de estos podcasts? ¿Los usuarios esperan aprender o sólo quieren saber si el libro tiene lo que buscan? Eso depende del tema. No veo a nadie aprendiendo Go a partir de un resumen; quizás más concretamente, no veo a nadie que domine Go aprendiendo a programar con IA. Los resúmenes son útiles para presentar las concepts clave presentadas en el libro: por ejemplo, los resúmenes de Nativo de la nube brindó una buena descripción normal de cómo se podría utilizar Go para abordar los problemas que enfrentan las personas que escriben software program que se ejecuta en la nube. Pero realmente aprender este materials requiere mirar ejemplos, escribir código y practicar, algo que está fuera de los límites en un medio limitado al audio. He oído a las IA leer listados de código fuente en Python; es horrible e inútil. Es más possible aprender con un libro como Facilitando la arquitectura de software programque trata más de conceptos e concepts que de código. Alguien podría salir del debate con algunas concepts útiles y posiblemente ponerlas en práctica. Pero nuevamente, el resumen del podcast es solo una descripción normal. Para obtener todo el valor y los detalles, necesita el libro. En un artículo reciente, Ethan Mollick escribe: “Solicitar un resumen no es lo mismo que leer por ti mismo. Pedirle a la IA que resuelva un problema por usted no es una forma efectiva de aprender, incluso si parece que debería serlo. Para aprender algo nuevo, tendrás que leer y pensar tú mismo”.
Otra diferencia entre los podcasts de NotebookLM y los nuestros puede ser más importante. Los podcasts que generamos a partir de nuestra cadena de herramientas duran aproximadamente seis minutos. Los podcasts generados por NotebookLM tienen una duración de entre 10 y 25 minutos. La mayor duración podría permitir que los podcasts de NotebookLM sean más detallados, pero en realidad eso no es lo que sucede. En lugar de discutir el libro en sí, NotebookLM tiende a utilizarlo como punto de partida para una discusión más amplia. Los podcasts generados por O’Reilly están más dirigidos. Siguen la estructura del libro porque proporcionamos un plan, un esquema, que la IA debe seguir. Los podcasters virtuales todavía expresan entusiasmo, todavía aportan concepts de otras fuentes, pero van en una dirección. Los podcasts más largos de NotebookLM, por el contrario, pueden parecer sin rumbo, dando vueltas para retomar concepts que ya han cubierto. Para mí, al menos, ese parece un punto importante. Por supuesto, utilizar el libro como punto de partida para una discusión más amplia también es útil, y es necesario mantener un equilibrio. No querrás que sientas que estás escuchando el índice. Pero tampoco querrás que se sienta desenfocado. Y si quieres una discusión sobre un libro, deberías conseguir una discusión sobre el libro.
Ninguno de estos podcasts generados por IA está exento de limitaciones. Un resumen generado por IA no es bueno para detectar y reflexionar sobre los matices del escrito unique. Con NotebookLM, eso claramente no estaba bajo nuestro management. Con nuestra propia cadena de herramientas, ciertamente podíamos editar el guión para reflejar lo que quisiéramos, pero las voces en sí no estaban bajo nuestro management y no necesariamente seguirían el ejemplo del texto. (Es discutible que reflejar los matices de un libro de 250 páginas en un podcast de seis minutos sea una propuesta perdida). El sesgo, una especie de matiz implícito, es un problema mayor. Nuestros primeros experimentos con NotebookLM tendían a tener la voz femenina haciendo las preguntas y la voz masculina proporcionando las respuestas, aunque eso pareció mejorar con el tiempo. Nuestra cadena de herramientas nos dio management porque proporcionamos el script. No afirmaremos que fuimos imparciales (nadie debería hacer afirmaciones como esa), pero al menos controlamos cómo se presentaba nuestra gente digital.
Nuestros experimentos han terminado; Es hora de mostrarte lo que creamos. Tomamos cinco libros, generamos podcasts cortos que resumen cada uno de ellos tanto con NotebookLM como con nuestra cadena de herramientas, y publicamos ambos conjuntos en oreilly.com. Agregaremos más libros en 2025. Escúchelos y vea qué funciona para usted. Y por favor háganoslo saber qué piensas!