À l’ère des données massives et diversifiées, la capacité d’un modèle d’intelligence artificielle à interpréter et intégrer des informations provenant de différentes sources est cruciale.
La multi-modalité en deep learning traite de l’intégration de données variées telles que le texte, l’image, l’audio et la vidéo, afin de créer des systèmes d’IA plus complets et plus robustes.
Cette séquence couvrira les concepts fondamentaux et les techniques avancées nécessaires pour traiter ces différentes sources d’information.
Au menu de cette séquence :
- Multimodal embedding
- TP CLIP playground
- Multimodal LLM
- TP Entraînement d’un modèle de type LLAVA sur des données audio
- Massively Multimodal Model
Durée : 2h00
Pour rappel, FIDLE est une Formation d'Introduction au Deep Learning, libre et gratuite.
Pour en savoir plus : [ Ссылка ]
Cette vidéo est sous licence Créative Common CC BY-NC-ND 4.0
00:00 Introduction
05:25 Introduction multimodalité
12:54 Embedding multimodaux
19:45 Embedding multimodaux: CLIP
33:23 Hands-on: CLIP
52:48 Multimodal LLM (VLM)
54:34 Multimodal LLM: LLaVA
01:01:15 Multimodal LLM: Flamingo/Idefics
01:11:10 Hands-on: LLaVA sur données audio
01:24:32 Modèle Massivement multimodaux: 4M
01:36:16 Outro
Ещё видео!