Kyutai (Xavier Niel/Iliad) dévoile “Unmute”, sa nouvelle IA vocale modulaire en temps réel

Le laboratoire français Kyutai poursuit son avancée dans le domaine de l’intelligence artificielle vocale avec Unmute, une technologie innovante capable de transformer n’importe quel modèle de langage textuel en agent conversationnel vocal temps réel.
Après avoir lancé Moshi, sa première intelligence artificielle vocale en temps réel, puis d’autres technologies comme MoshiVis, le laboratoire de recherche français Kyutai co-fondé par Iliad poursuit son travail sur l’interface homme-machine avec le lancement de Unmute. Cette nouvelle technologie, présentée comme un prolongement naturel de Moshi, entend franchir une étape supplémentaire dans la fluidité des échanges avec l’IA, en permettant à n’importe quel grand modèle de langue d’être utilisé à l’oral, sans délais perceptibles.
Concrètement, Unmute repose sur une architecture modulaire qui combine transcription vocale, traitement linguistique et synthèse de la parole. Il s’appuie sur les avancées des LLMs (grands modèles de langage) tout en contournant la lourdeur des échanges écrits. L’originalité de la solution réside dans sa capacité à analyser en temps réel la parole de l’utilisateur, à distinguer les pauses naturelles des fins de phrase, et à générer une réponse vocale immédiate, avant même que celle-ci soit entièrement rédigée par le modèle textuel.
Kyutai met en avant une latence extrêmement faible, condition essentielle à une interaction fluide et naturelle. L’aspect personnalisable d’Unmute est également mis en avant : la voix de l’agent peut être définie à partir de quelques secondes d’enregistrement, et son comportement est ajustable via des prompts textuels, permettant une adaptation à divers contextes et usages.
Le laboratoire, qui revendique une approche ouverte et collaborative de la recherche, prévoit de publier prochainement les détails techniques de Unmute, comme il l’a fait pour ses projets antérieurs. Les utilisateurs peuvent dès à présent expérimenter la technologie sur unmute.sh, et une démonstration est prévue lors du salon VivaTech.