Morgan Gautherot

Je suis

Passionné par la data et le machine learning, j'ai de nombreuses casquettes, je suis docteur, formateur, Youtuber et organisateur de conférences.

Mon objectif est de vous aider à résoudre vos problèmes professionnels en exploitant le potentiel des données.

Je suis déterminé à partager mes connaissances et à contribuer à la réussite des entreprises grâce aux données.

Ensemble, nous pouvons façonner un avenir plus intelligent.

Experience

Leroy Merlin

Senior Data Scientist Freelance

Projet : Créer des modèles pour estimer l’efficacité énergétique d’un logement

Contexte : Leroy Merlin est le leader français du marché de l'aménagement de la maison. La mission de l'entreprise est de rendre l'habitat plus accessible et plus durable. Dans cette optique, l'entreprise intègre à son site web un simulateur capable d'estimer la performance énergétique de chaque logement. L'objectif est de pouvoir suggérer des améliorations concrètes pour améliorer le confort de vie et contribuer à l'effort de réduction de la consommation d'énergie.

Missions:

Analyser les données externes.
Intégrer les données ouvertes dans les systèmes d'information.
Création d'un modèle de prédiction de la performance énergétique d'un bâtiment (DPE, GES, déperdition de chaleur, etc.).
Création d'une API pour mettre le modèle à disposition du front-end.
Gestion du cycle de vie d'un modèle d'apprentissage automatique.
Proactif sur la vision business du produit.

Environnement Technique : Google Cloud Plateforme, BigQuery, FastAPI, Python, SQL, TensorFlow, Pytest, Github

Octobre 2023 - Avril 2024 | Lille

Professeur associé

Enseignant

Ecole : ISEN, EDHEC, IAE, Polytech Lille

Université : Université de Lille, Dakar institute of Technology

Institut de formation : ORSYS, Jedha

Création de contenus pédagogiques et évaluation de compétences sur les thèmes suivants :

Machine learning
Deep learning
Data science
Computer vision
Natural language processing

Septembre 2018 - Aujourd'hui | France

Digital Nomade

Data scientist Freelance

Contexte : De janvier à juillet, j'ai exploré la région de l'Océanie, visitant la Nouvelle-Zélande, la Tasmanie, l'Australie, les Fidji et la Nouvelle-Calédonie. C'était l'occasion pour moi d'expérimenter le mode de vie de nomade digital, me permettant de travailler tout en voyageant. J'ai réussi à accomplir diverses missions de courtes durées, qu'elles soient de prestation de service, de conseil ou de formation. Ci-dessous une liste non exhaustive des missions que j’ai pu réaliser.

Tools: Python, Flask, SQLAlchemy, Render, Github Action, Flake8, Black, TensorFlow, Pytest

Janvier 2023 - Septembre 2023 | Océanie

ADEO

Data scientist/Data engineer Freelance

Projet 1 : Etudes des nouveaux jeux de données

Contexte : Les entrepôts Leroy Merlin reçoivent chaque jour des centaines de colis. Tous ne sont pas contrôlés. Si des colis acceptés font défaut, la perte est pour Leroy Merlin. Pourtant tous les colis ne peuvent pas être contrôlés car seul une faible quantité fait défaut. Un modèle a été créé pour déterminer si un colis doit être contrôlé. Le POC a été mis très récemment en production pour des magasins tests et doit être étendu à de nouveaux pays.

Missions:

Collecter, nettoyer et orchestrer les pipelines de données pour les nouveaux pays,
Examiner les données en collaboration avec les équipes métiers en vue d'améliorer leur qualité.
Etudier les nouvelles sources de données disponibles,

Projet 2 : Mis-à-jour du modèle de prédiction

Contexte : Les entrepôts Leroy Merlin reçoivent chaque jour des centaines de colis. Tous ne sont pas contrôlés. Si des colis acceptés font défaut, la perte est pour Leroy Merlin. Pourtant tous les colis ne peuvent pas être contrôlés car seul une faible quantité fait défaut. Un modèle a été créé pour déterminer si un colis doit être contrôlé. Même si ROI du modèle est positif et suivit chaque semaine, le modèle n’a pas été mis à jour ni contrôlé depuis sa mise en production.

Missions:

Monitoring des performances du modèle au cours du temps,
Diagnostic des drifts dans les données,
Amélioration des performance du modèle,
Mise en production du nouveau modèle.

Tools: Google Cloud Plateforme, BigQuery, FastAPI, Python, SQL, Kafka, Docker, Airflow, Colibra

Septembre 2022 - Décembre 2022 | Lille, France

CHRU Lille

Data scientist

Projet 1 : Modèle de prédiction de la dégradation de patient Alzheimer

Contexte : Les patients atteints de la maladie d’Alzheimer subissent des dégradations cognitives hétérogènes et difficilement prévisible à l’échelle individuelle. L’objectif est de créer un modèle capable de déterminer la dégradation future d’un patient Alzheimer à partir de ces données cliniques et d’imageries.

Missions:

Charger d’extraire les données utiles à partir des images IRM du patient,
Analyser les données cliniques et imageries du patient,
Trouver la variable cible (ici la pente de décroissance du MMSE qui évalue l’état cognitif du patient),
Entraînement de modèle de machine learning pour prédiction la pente du MMSE de chaque patient (Random Forest, Gradient Boosting Tree, SVM, régression linéaire),
Gestion de projet,
Rédaction de documentation techniques du projet et d’un article de recherche.

Projet 2 : Mis-à-jour du modèle de prédiction

Contexte : Aujourd’hui les patients victimes de catatonie sont peu pris en charge et les traitements associés sont peu voire pas efficaces. La benzodiazépine est un médicament censé soigner ses troubles, mais les patients ne répondent pas tous au traitement. L’objectif est de créer un modèle capable de déterminer à l’avance si un patient est répondeur au traitement au non à partir de ces données cliniques et d’imageries.

Missions:

Charger d’extraire les données utiles à partir des images IRM du patient,
Analyser les données cliniques et imageries du patient,
Entraînement de modèle de machine learning pour prédire la réponse de chaque patient (Random Forest, Gradient Boosting Tree, SVM, régression linéaire),
Gestion de projet,
Rédaction de documentation techniques du projet et d’un article de recherche.

Tools: Python, Sklearn, Pandas, Numpy, Linux, Git

Projet 3 :Segmentation de l’hypothalamus

Contexte : Pour évaluer l’évolution de maladie neurologique, les neurologues doivent pouvoir contrôler le volume de régions cérébrales au cours du temps. Certaines régions comme l’hypothalamus sont très petites. Il est donc difficile d’obtenir une segmentation automatique de ces régions avec les méthodes classiques. Des radiologues doivent donc segmenter manuellement les images, ce qui est une tâche longue et fastidieuse. L’objectif est de créer un modèle d’apprentissage profond capable de segmenter automatiquement la région de l’hypothalamus.

Missions:

Chargé de traiter et homogénéiser les images IRM,
Analyser les données d’imageries,
Implémentation de nombreuses fonctions de data augmentation,
Entraînement de modèle de deep learning,
Gestion de projet,
Rédaction de documentation techniques du projet et d’un article de recherche.

Tools: Python, Sklearn, Pandas, Numpy, Linux, Github, Keras, TensorFlow

Janvier 2022 - Août 2022 | Lille, France

General Electric

Data scientist

Contexte : General Electric Healthcare, est un des trois plus grands constructeurs d’IRM au monde. Depuis quelques années, les innovations des IRMs ne sont plus exclusivement techniques mais aussi dues à l’intégration de logiciels d’intelligence artificielle d’aide à la décision. Ces logiciels permettent d’aider les radiologues à obtenir une image de meilleure qualité, plus rapidement et d’obtenir des biomarqueurs associés à l’image. Un de ces biomarqueurs est l’âge cérébral qui permet de quantifier la santé cérébrale d’un individu. L’objectif était de développer un modèle de prédiction de l’âge cérébral capable de prédire la santé cérébrale à l’échelle individuelle.

Missions:

Chargé de traiter et homogénéiser les images IRM,
Analyser les données d’imageries,
Implémentation de nombreuses fonctions de data augmentation,
Entraînement de modèle de deep learning,
Gestion de projet,
Rédaction de documentation techniques du projet et d’un article de recherche.

Tools: Python, Sklearn, Pandas, Numpy, keras, Tensorflow, Linux, Git

Novembre 2023 - Décembre 2023 | Lille, France

Decathlon

Data scientist

Contexte : Decathlon est un des leaders de la grande distribution de sport et loisirs. L’objectif de l’équipe data science est de tirer parti de la donnée pour aider les métiers du commerce, de l’offre et de la logistique dans leurs actions de tous les jours.

Missions:

Elaboration de modèle d’association à base de graphes,
Prédiction de sport pratiqué grâce à la consommation des clients,
Prévision de ventes à la semaine sur 1 an,
Prototypages, test et mise en production des solutions.

Tools: Python, Sklearn, Pandas, Numpy, keras, tensorflow, Linux, git, dash, Rshiny, Spark, AWS

Octobre 2017 - Octobre 2018 | Lille, France

Projets

                
Bot Tetris
                  Entraînement d'un modèle de deep learning capable de battre le champion du monde de Tetris
                
AccomplishmentsOutils: Pygame, Pytest, TensorFlow, openCV, GitHub
Création d'une version de Tetris.
Création d'un bot utilisant un system expert.
Entraînement d'un modèle de deep learning.
Scraping de données d'entraînement sur des vidéos professionnels.

Deep learning from scratch
                 Coder une version du deep learning from scratch
                
AccomplishmentsOutils: Python, Numpy
Coder une version du deep learning from scratch avec Python.

CNN from scratch
                 Coder une version du CNN from scratch
                
AccomplishmentsOutils: Python, Numpy
Coder une version du CNN from scratch avec Python.

Formation You Tube - clustering
                Découvrez le clustering et les algorithmes k-means, Gaussian Mixture, DBSCAN et Hierarchical clustering
                
AccomplishmentsOutils: Python, Numpy, sklearn
Découvertes de la théorie.
Code l'algorithme from scratch.
Utilisation de l'algorithme avec sklearn.

Formation You Tube - K nearest neighbors
                Découvrez l'algorithme k nearest neighbors
                
AccomplishmentsOutils: Python, Numpy, sklearn
Découvertes de la théorie.
Code l'algorithme from scratch.
Utilisation de l'algorithme avec sklearn.

Formation You Tube - Les modèles linéaires
                Découvrez la régression linéaire, logistique, péanlisées, à noyau et SVM
                
AccomplishmentsOutils: Python, Numpy, Sklearn
Découvertes de la théorie.
Code l'algorithme from scratch.
Utilisation de l'algorithme avec sklearn.

Compétences

Languages

Python

HTML5

CSS3

Shell Scripting

Manipulation des données

SQL

Big Query

Spark

Pandas

Numpy

Machine learning

Sklearn

Keras

TensorFlow

Cloud

Google Cloud Platform

Amazon Web Services

Render

Visualisation des données

Matplotlib

Seaborn

Tests

Pytest

Black

API

FastAPI

Pydantic

Prototype web

Flask

Rshiny

Orchestrateur

AirFlow

Gestion du code

Github

Github action

Poetry

Docker

Formation

Docteur en intelligence artificielle appliqué à l'imagerie médicale

Université de Lille

Mes recherches ont porté sur l'estimation de l'âge du cerveau par l'apprentissage profond de l'IRM dans l'étude des maladies neurologiques et psychiatriques.

Ingénieur en informatique et statistique

Polytech Lille

Cours pertinents :

Statistique
Probabilité
Machine learning
Théorie des graphes
Développement informatique

Contact

gautherotmorgan0@gmail.com

github.com/MorganGautherot

linkedin.com/in/morgan-gautherot-phd