En apprentissage automatique, la multimodalité est la capacité d'un système à traiter ou à générer plusieurs types d'information (texte, images, son, actions...)[1].
Là où les premiers grands modèles de langage ne pouvaient traiter que du texte, dès 2024, de nombreux nouveaux grands modèles de langage (parfois appelés grands modèles multimodaux)[1] comme GPT-4o peuvent également traiter et générer des images et du son[2],[3]. Les modèles vision-image-son, souvent utilisés en robotique, peuvent comprendre des requêtes textuelles et l'environnement visuel, et générer une série de mouvements à effectuer[4].
Références
- Tehseen Zia, « Dévoilement de grands modèles multimodaux : façonner le paysage des modèles linguistiques en 2024 », sur Unite.AI, (consulté le )
- ↑ Aayush Mittal, « GPT-4o d'OpenAI : le modèle d'IA multimodal qui transforme l'interaction homme-machine », sur Unite.AI, (consulté le )
- ↑ Célia Séramour, « Avec GPT-4o, OpenAI veut défier toute concurrence sur les modèles multimodaux », L'Usine Digitale, (lire en ligne, consulté le )
- ↑ Yoann Bourgin, « Google sort un modèle Gemini capable de tourner en local sur des robots », sur L'Usine Digitale,