Mission Freelance Data Scientist
Mission Freelance Data Scientist
Périmètre de la consultation :
Prestations attendues
Activités principales du data scientist :
* Comprendre les cas d'usage
* Participer aux réunions de cadrage des besoins avec le chef de projet DPIT
* Apporter une expertise et évaluer la pertinence de l'IA pour le besoin
* Réaliser une première estimation de l'effort nécessaire au développement d'une solution
* Développer des POC (Proof of Concept) pour démontrer la faisabilité et la performance, Collecte de données :
* Identifier les sources de données (internes et externes)
* Extraire les données depuis des bases de données, des API, des fichiers texte, des documents Word/PDF, via du web scraping, des données semi-structurées, etc.
Préparation et nettoyage des données :
* Nettoyer les données : corriger ou supprimer les données corrompues/incorrectes, gérer les valeurs manquantes, supprimer les doublons
* Transformer les données : normaliser les formats, mettre à l'échelle, encoder les variables catégorielles
Ingénierie des caractéristiques (Feature Engineering) :
* Extraire, créer et sélectionner les caractéristiques pertinentes à partir des données brutes
Traitement du langage naturel (NLP) :
* Extraire, nettoyer et transformer le texte issu de documents non structurés
Exploration et visualisation des données :
* Réaliser une analyse exploratoire des données (EDA)
* Détecter des motifs et tendances pour formuler des hypothèses et identifier des relations causales potentielles
Modélisation et développement :
* Utiliser Python pour développer des applications et des interfaces utilisateur de base
* Sélectionner les algorithmes de ML/DL appropriés
* Entraîner les modèles et ajuster les paramètres
* Valider les modèles via la validation croisée pour éviter le surapprentissage (overfitting)
* Instancier des modèles de langage pré-entraînés (LLMs, embeddings, rerankers, etc.) et les intégrer dans des solutions complexes comme le RAG (Retrieval-Augmented Generation)
Maîtrise des bibliothèques Python clés :
* Manipulation de données : Pandas, Polars, Dask, PySpark
* NLP : NLTK, SpaCy
* Machine Learning : Scikit-Learn, XGBoost, LightGBM
* Deep Learning : PyTorch
* IA Générative : Ollama, Transformers, SentenceTransformers, Langchain, LlamaIndex
Évaluation des modèles :
* Utiliser des métriques de performance : précision, rappel, F1 score, AUC-ROC, Matthews, RMSE, MAE, R², MAPE, Silhouette, etc.
* Analyser les erreurs de prédiction pour identifier les faiblesses et les axes d'amélioration
Déploiement des modèles :
* Collaborer avec les équipes d'ingénierie pour intégrer les modèles en production
* Automatiser les pipelines de données du stockage à l'inférence
* Développer des API pour permettre l'accès aux modèles par d'autres systèmes ou utilisateurs
Surveillance et maintenance :
* Surveiller les performances des modèles en production et détecter toute dégradation
* Mettre à jour et réentraîner régulièrement les modèles pour maintenir leur performance face aux nouvelles données et aux évolutions
Documentation et communication :
* Documenter les processus, méthodologies, choix de conception et résultats des modèles
* Présenter les analyses et résultats aux parties prenantes avec des visualisations claires et un langage accessible
* Rédiger des rapports et préparer des présentations pour partager les conclusions et recommandations
Recherche et développement :
* Se tenir informé des dernières avancées en algorithmes, techniques de ML et outils
* Prototyper et expérimenter de nouveaux modèles et approches pour résoudre des problèmes complexes ou améliorer les performances
Collaboration :
* Travailler avec des experts métier, des analystes business et d'autres parties prenantes pour comprendre les besoins et contraintes spécifiques
Technologies de l'Information et de la Communication
Lyon
Freelance