Según TechCrunch, Meta ha presentado una implementación "abierta" de la popular función de generación de podcasts que se encuentra en NotebookLM de Google. Este proyecto, llamado NotebookLlama, aprovecha los modelos Llama patentados de Meta para gran parte de su procesamiento. De manera similar a NotebookLM, NotebookLlama puede crear resúmenes de estilo podcast a partir de archivos de texto cargados en él. El proceso comienza con la generación de una transcripción a partir de un archivo, como un PDF de un artículo de noticias o una publicación de blog. Luego agrega dramatización e interrupciones antes de convertir la transcripción en voz utilizando modelos abiertos de texto a voz.

Sin embargo, la calidad de audio de la salida de NotebookLlama no coincide con la de NotebookLM. Las muestras analizadas muestran un tono claramente robótico, con voces que ocasionalmente hablan unas sobre otras en momentos inapropiados. Los investigadores de Meta reconocen que el modelo de texto a voz es un factor limitante para lograr resultados que suenen naturales. Sugieren que la calidad podría mejorarse con modelos más avanzados. Además, proponen un enfoque alternativo en el que dos agentes debaten el tema para crear un esquema de podcast, en lugar del método actual de utilizar un solo modelo.

NotebookLlama no es el primer intento de replicar la función de podcast de NotebookLM. Varios proyectos lo han intentado, con distintos grados de éxito. No obstante, un problema común persiste en todos los podcasts generados por IA, incluido NotebookLM: el problema de la alucinación, en el que la IA genera información inexacta o inventada. Esto sigue siendo un desafío importante para los desarrolladores que trabajan en la generación de podcasts con IA.