Non renseigné
Concevez et industrialisez la chaîne d'ingestion, de normalisation et de structuration des données externes dans une solution Data & IA. Le rôle implique de garantir la qualité des données, la robustesse des pipelines, la traçabilité des traitements et l'exploitabilité des flux pour les briques analytiques. Ce poste requiert 5 à 10 ans d'expérience avec une forte autonomie.
- Développer des pipelines d'ingestion automatisés.
- Concevoir et implémenter des connecteurs vers des sources externes.
- Gérer le parsing documentaire (découpage, nettoyage, structuration).
- Mettre en place des mécanismes de déduplication et de contrôle qualité.
- Concevoir les modèles de données intermédiaires et normalisés.
- Collaborer avec les équipes IA/NLP pour rendre les données exploitables.
- Participer aux tests, à la documentation et à la fiabilité des traitements.
- Maîtrise avancée du Python.
- Conception de pipelines de données et orchestration.
- Compétences en APIs, scraping raisonné, parsing documentaire (PDF, HTML…).
- Expertise en SQL et modélisation de données sur PostgreSQL.
- Culture forte en qualité des données incluant logs et monitoring, tests et industrialisation.
- Gestion efficace des problématiques liées à volumétrie, erreurs et supervision.
- Expérience avec Airflow ou Prefect ou équivalent.
- Utilisation de librairies pour le parsing documentaire (PyMuPDF, pdfplumber, OCR…).
- Connaissance d'Elasticsearch pour l'indexation et le moteur de recherche.
- Familiarité avec Docker et GitLab CI/CD.
Nous proposons un environnement propice au développement professionnel grâce à une culture axée sur la qualité. Les candidats auront accès à diverses formations techniques adaptées aux enjeux actuels du secteur. L'équipe valorise également l'autonomie dans le travail tout en soutenant les projets individuels par un suivi régulier.
Partager cette mission via
Explore ces missions en lien avec tes compétences et ton expérience.