VEESION
Poste : Ingénieur / Chercheur Deep Learning - LLMs Multimodaux appliqués à la Vidéo (CDI ou Freelance, Full Remote possible) Domaine : Intelligence Artificielle / Vision par Ordinateur / NLP / Multimodalité Contexte Veesion développe des technologies de vision par ordinateur pour détecter automatiquement des gestes de vol en rayon dans les supermarchés. Nous ouvrons un nouveau chantier : l'application de LLMs multimodaux (MLLMs) à la compréhension de la vidéo, avec un focus sur l'analyse d'actions humaines, la compréhension fine de séquences visuelles, et le reasoning multimodal. Missions Implémenter et fine-tuner des modèles LLMs multimodaux open source (ex. : Flamingo, Video-LLaVA, mPLUG-Video, etc.) Adapter efficacement des repositories GitHub issus de la recherche (exploitation rapide, modification agile) Développer des pipelines d'entraînement et d'évaluation efficaces sur des données vidéo réelles Concevoir des entraînements optimisés pour GPU (data pipeline performant
MISSION
saturation GPU, etc.) Lire et implémenter des travaux de recherche récents (ACL, CVPR, NeurIPS, etc.) Participer à la définition de tâches de video understanding : classification d'actions, raisonnement temporel, interprétation de gestes Construire des métriques pertinentes et les intégrer dans la boucle d'entraînement pour suivi temps réel Profil recherché 3 ans d'expérience minimum en deep learning (thèse incluse), dont au moins 1 an sur des LLMs multimodaux Maîtrise des concepts fondamentaux des LLMs : transformers, attention, PEFT, LoRA, prompt tuning, etc. Expérience concrète en modèles multimodaux texte + vidéo Capacité à adapter rapidement des architectures complexes à des cas d'usage spécifiques Bonnes intuitions sur la conception et les limites des modèles actuels Excellente maîtrise de PyTorch, HuggingFace, et des bonnes pratiques de recherche / prototypage rapide Bonne connaissance des datasets de video understanding : LVBench, VideoQA, Video-Vista, Next-QA, TVQA, TGIF-QA, etc. Capacité à citer et discuter les architectures récentes de MLLMs : Flamingo, Video-ChatGPT, mPLUG-Owl, Video-LLaVA, VideoCoCa, etc. Intérêt pour le reasoning multimodal (interprétation, chaînage, inférence causale, etc.) Anglais technique courant (lecture de papier, implémentation à partir de code et doc) Bonus appréciés Expérience avec des modèles orientés reasoning Publications en conférence ou participation à des benchmarks publics (LVU Challenge, Ego4D Q&A, etc.) Connaissances en traitement vidéo (ffmpeg, OpenCV) Pratique d'outils de suivi d'expériences (W&B, TensorBoard) Experience en Gen AI vidéo Stack technique pertinente PyTorch, HuggingFace, DeepSpeed OpenCV, ffmpeg Python 3.10+, Git, Linux, Docker Contrat et cadre CDI ou freelance longue durée Full remote possible Rémunération compétitive selon expérience Pour postuler Envoyez votre CV (et GitHub si disponible) à (adresse email), accompagné de quelques lignes expliquant vos expériences concrètes en MLLMs, video understanding et reasoning multimodal si applicables
PROFIL RECHERCHÉ
Savoir-être professionnels * Faire preuve de créativité, d'inventivité * Faire preuve de rigueur et de précision * Organiser son travail selon les priorités et les objectifs, VEESION
Bordeaux
Paiement mensuel
12€ min - 12€ max
27/07/2025
Freelance
Notre plateforme gratuite rassemble des milliers de missions freelance mises à jour régulièrement.