Tu rejoins la squad produit d'une grande entreprise pharma en charge d'un système IA agentique qui génère des insights marketing stratégiques en croisant plusieurs sources de données (littérature scientifique, veille concurrentielle, web analytics).
Contribuez à la construction des frameworks d'évaluation et garantissez la qualité des outputs dans un contexte de montée en échelle du produit. Votre rôle consiste à construire un golden dataset ainsi qu'une méthodologie de scoring axée sur la précision, la pertinence, l'innovation et les hallucinations. Vous serez également responsable de mettre en place un benchmark reproductible pour détecter les régressions, optimiser les prompts et l'architecture multi-agents, tout en concevant des méthodes efficaces pour la détection de nouveauté et la synthèse cross-sources.
- Construire un golden dataset et une méthodologie de scoring.
- Mettre en place un benchmark reproductible pour identifier les régressions.
- Optimiser les prompts et gérer l'architecture multi-agents.
- Concevoir des méthodes pour détecter la nouveauté et réaliser des synthèses cross-sources.
Vous disposez d'une expérience significative en prompt engineering, évaluation LLM et fine-tuning. La maîtrise des systèmes RAG est essentielle ainsi qu'une expertise en architecture multi-agents et orchestration. Un track record solide dans le développement de golden datasets et frameworks d'évaluation est requis. Vous devez avoir un bon niveau d'anglais. Les compétences techniques indispensables incluent :
- Python
- AWS (S3, Lambda, SageMaker, Bedrock)
- Snowflake
- LangChain / LlamaIndex
Nous proposons une collaboration flexible avec horaires réguliers permettant une bonne gestion du temps personnel. Vous travaillerez avec des technologies avancées telles que AWS et Snowflake qui favorisent le développement professionnel continu.
Partager cette mission via
Explore ces missions en lien avec tes compétences et ton expérience.