— Il semble toujours être au courant des dernières tendances.
— Totalement. Et il n’a pas peur de poser les questions difficiles, ce que j’apprécie.
– Assez. Et en plus…
Les deux animateurs du podcast Plongée profonde parler, en anglais, d’un sujet que je connais bien : moi-même.
Plongée profonde est le nom donné au podcast virtuel que l’on peut créer dans le NotebookLM de Google, une sorte d’assistant de recherche capable de résumer rapidement des documents et de les transformer en notes de travail ou en guides d’étude, lancé sans grand succès à l’été 2023. La popularité de cet assistant a explosé le mois dernier avec l’arrivée de l’outil Audio Overview, qui permet de réaliser des podcasts sans le moindre effort.
Créer un épisode de Plongée profonde dans NotebookLM ne pourrait pas être plus simple. Nous téléchargeons divers documents, tels que des PDF, des enregistrements audio et des liens vers des sites Web, cliquons sur un bouton et, quelques minutes plus tard, deux voix, une masculine et une féminine, discutent pendant environ 10 minutes du sujet téléchargé.
Pour mon test, j’ai soumis 16 exemplaires de ma newsletter technique personnelle à NotebookLM. Les deux animateurs virtuels ont discuté de moi, de mon style d’écriture et de mes thèmes favoris, puis ils ont analysé plus en profondeur certains des sujets abordés.
Le réalisme est déconcertant. Non seulement les voix (en anglais uniquement pour l’instant) sont crédibles, mais la façon dont les animateurs s’interrompent et interviennent lorsque l’autre parle donne vraiment l’impression qu’ils collaborent depuis de nombreuses années.
Même dans le fond, c’est plutôt réussi. Il est clair que, sans être parfait, l’épisode pourrait être une bonne introduction au bulletin pour quelqu’un qui ne l’a jamais lu.
Succès viral pour un petit produit
NotebookLM apparaît actuellement partout sur le Web. Pendant que certains parlent du type d’usage qu’ils en font, comme résumer un document de 200 pages, d’autres s’amusent à trouver des moyens de détourner l’outil pour en repousser les limites, générant par exemple une discussion où les deux animateurs affirment avoir Je viens de réaliser qu’ils sont des IA et non des humains.
Détail intéressant, et plutôt inhabituel pour quelque chose venant d’une grande entreprise comme Google, NotebookLM est le produit d’une petite équipe, qui a imaginé, créé et lancé la fonctionnalité Audio Overview en moins de deux mois, selon ce qu’un de ses concepteurs a partagé sur X.
Techniquement, la technologie repose sur deux tendances de l’IA générative que j’ai abordées au printemps. Gemini 1.5 Pro, le modèle d’IA utilisé par NotebookLM, est une IA multimodale, ce qui signifie qu’elle est capable d’analyser plusieurs « modes », incluant le texte ainsi que les images et fichiers audio qui lui sont fournis. ; c’est aussi une IA à “mémoire longue”, ce qui signifie que vous pouvez lui poser de très longues questions – vous pouvez soumettre jusqu’à 50 sources à NotebookLM, et chacune fait une sorte de partie d’une longue requête qui est automatiquement transmise à l’IA lorsque créer le podcast.
Google n’a pas donné beaucoup de détails sur la mécanique de l’outil, mais on peut aussi supposer que le modèle d’IA a été entraîné au préalable avec différents podcasts existants, ce qui lui permet de reproduire la cadence, les onomatopées et le style d’animation communs à celui-ci. type de contenu avec autant de réalisme.
Les créateurs de podcasts peuvent être tranquilles
Après l’annonce de la fin des emplois d’agents de service client, d’illustrateurs, de traducteurs, de journalistes, d’agents de brevets et de presque tous les emplois imaginables, les podcasteurs seront-ils les prochains à tomber dans le champ de l’IA générative ?
Absolument pas.
D’ailleurs, même Google ne présente pas Audio Overview comme un outil de création de podcasts, mais plutôt comme un moyen de générer une discussion sur le sujet de son choix, à étudier avant un examen par exemple.
La nuance est bien réelle. L’écoute d’un podcast est généralement destinée à s’informer ou à se divertir. Dans le cas d Plongée profonde, on ne peut pas vraiment s’y fier pour s’informer (l’IA peut oublier des aspects importants d’un dossier, en plus d’introduire de fausses informations), et la discussion produite n’est jamais aussi agréable qu’un échange entre vraies personnes.
L’outil pourrait cependant être utile à ceux qui ont plus de temps pour écouter que pour lire, et qui pourraient, par exemple, entreprendre des recherches en se faisant expliquer un sujet précis en se rendant au travail en voiture le matin. Il plaira également aux personnes qui se souviennent mieux de ce qu’elles entendent que de ce qu’elles lisent. Cependant, il est important de valider les informations qui sont dites, surtout si vous envisagez de les utiliser pour le travail ou les études, par exemple. Vous constaterez que dans certains cas, il aurait pu être plus facile de lire tous les documents originaux du premier coup.
Il s’agit évidemment d’un outil particulièrement intéressant pour Google lui-même, dont les outils d’IA générative, souvent oubliés derrière ceux d’OpenAI, peuvent à terme bénéficier à leur tour d’une bonne visibilité.