Advertisement
Brèves

Kyutai (Xavier Niel et Iliad) lance MoshiVis, une nouvelle innovation pour son IA vocale

Advertisement

Le laboratoire co-fondé par Xavier Niel et Iliad présente MoshiVis, la première IA vocale open-source capable de parler d’images.

Kyutai continue d’améliorer son modèle d’IA Moshi et a lancé récemment une toute nouvelle fonctionnalité nommée MoshiVis. MoshiVis permet à Moshi d’analyser des images tout en maintenant ses capacités conversationnelles et une faible latence. En somme, l’IA vocale est ainsi désormais capable de comprendre les images que vous lui montrez.

Conçu pour être accessible à la communauté, le modèle mise sur un entraînement optimisé avec des données variées et de haute qualité. Il repose sur l’encodeur de vision figé de PaliGemma2-3B-448 et utilise des modules d’attention croisée pour intégrer les informations visuelles aux échanges vocaux.

Un pipeline synthétique génère des dialogues dynamiques autour d’images, grâce à des modèles Mistral Nemo simulant des interactions variées. MoshiVis réduit son besoin en données audio en exploitant des textes existants et son propre “monologue intérieur”. À l’inférence, l’attention croisée est mise en cache, optimisant les calculs et assurant de bonnes performances même avec peu de données audio. Des tests sur OCR-VQA, VQAv2 et COCO valident cette approche avec des résultats comparables aux modèles spécialisés.

L’évaluation conversationnelle souligne un équilibre entre précision et richesse descriptive. Si MoshiVis est plus détaillé, il obtient parfois des scores inférieurs aux indicateurs classiques, privilégiant une interaction plus fluide et naturelle. Ce projet ouvre de nouvelles perspectives pour l’adaptation de Moshi à divers usages, même en contexte de données vocales limitées, et encourage la communauté à contribuer à son développement. Si vous souhaitez l’essayer, Kyutai le propose en accès libre sur cette page, il faudra cependant saisir votre adresse email et vous pourrez fournir l’image que vous souhaitez. A noter cependant, l’IA est toujours uniquement capable de parler en anglais.

Cet article a été repris sur le site Univers FreeBox

Advertisement
Lucas Musset

Advertisement

Articles récents

Le saviez-vous : abonnés Freebox Ultra, il vous faut ces équipements pour bénéficier des 8 Gbit/s symétriques

La Freebox Ultra promet des débits très élevés, mais encore faut-il disposer de l’équipement adapté…

9 février 2026

Êtes-vous couverts par la 3G, 4G et 5G de Free ? L’opérateur vient à nouveau de mettre à jour sa carte officielle de couverture mobile

Une deuxième mise à jour pour la carte de couverture mobile de l'opérateur, avec cette…

9 février 2026

Déploiement de la fibre : un opérateur rappelé à l’ordre par la justice devra retirer ses câbles installés illégalement

Dans le Tarn, la cour d’appel de Toulouse a ordonné le retrait d’une installation de…

9 février 2026

La Commission Européenne s’attaque à la sécurité des câbles transportant internet à travers le globe

Face à des risques croissants, la Commission européenne déploie une nouvelle boîte à outils visant…

9 février 2026

Free Mobile garde le cap pour déployer la 5G et continue la modernisation de sa 4G

Free Mobile poursuit son déploiement de réseau mobile, dans un mois sans coup d'éclat pour…

9 février 2026

Plusieurs fonctionnalités premium de Disney+ disparaissent en plein conflit autour de brevets, la plateforme avance des “difficultés techniques”

Disney+ supprime Dolby Vision, HDR10+ et la 3D sur fond de litige autour de brevets.…

9 février 2026
Advertisement