Après plusieurs années à piloter des projets digitaux mêlant enjeux techniques, utilisateurs et performance commerciale, j’ai choisi de faire de la donnée mon métier.
Curieuse, rigoureuse et orientée solution, je conçois aujourd’hui des pipelines robustes, nettoie et transforme les données, et veille à toujours proposer des solutions utiles, fiables et alignées avec les besoins métier.
Ma double compétence technique et terrain me permet de comprendre les problématiques business tout en maîtrisant leur traduction en flux de données concrets.
📍Secteur : Nantes - Angers - Cholet
Langages et bases de données
Python
SQL
PostgreSQL
MongoDB
Librairies
Pandas
NumPy
Pyspark
scikit-learn
Dataviz
Matplotlib
Seaborn
PowerBI
Orchestration & MLOps
Airflow
Airbyte
MLflow
BentoML
IA & LLMs
LangChain
Mistral
Cloud & DevOps
AWS
Docker
Git
Poetry
Conception et déploiement d’une infrastructure complète de gestion des données (collecte, traitement et stockage)
Optimisation des pipelines de données
Modélisation d’infrastructures dans le cloud
Gestion de projets d’infrastructures
Création et adaptation d’un modèle d’apprentissage
Conception et déploiement d’un RAG
Gestion Base de Données : SQL (MySQL), UML, Analyse Merise
Conception de sites web : HTML5, CSS3
Gestion de projets, méthode AGILE, communication, management
Informatique, mathématiques statistiques, webmarketing, gestion de projet
Management, communication, négociation, commerce international
Comptabilité...
Spécialité Mathématiques
Chinois LV3
Mention européenne avec option Histoire-Géographie en anglais
Coordination de projets SI côté métier (showroom B2B, outils commerciaux)
Analyse des données commerciales, automatisation de reportings (KPI)
Participation aux phases de test (recette, UAT), support utilisateurs
Interface métier-technique avec prestataire
Formation des équipes commerciales aux outils déployés
Rédaction de procédures et documentation interne
Ce projet explore la faisabilité d’un système de récompenses pour les salariés actifs, basé sur la collecte de données sportives (déclaratif ou via API type Strava).
Il inclut l’automatisation du calcul de primes sportives et de jours bien-être, le contrôle de cohérence des données, l’envoi de messages Slack motivants, et la visualisation des KPI RH dans Power BI.
Stack technique :
Data pipeline : Python, Airflow
Data validation : Great Expectations
Base de données : PostgreSQL
API : Google Maps, Strava (simulée)
Visualisation : Power BI
Communication : Slack API
Conception d’un assistant IA pour recommander des événements culturels à partir de données OpenAgenda.
Le système s’appuie sur le framework RAG pour fournir des réponses contextualisées, intégrant la recherche sémantique via Faiss et un LLM Mistral. Une interface interactive a été développée avec Streamlit.
Stack technique :
Langage : Python
LLM : Mistral (via transformers)
Vector store : Faiss
Interface utilisateur : Streamlit
Données : API OpenAgenda
Cloud : AWS
Autres : langchain, pandas
Mise en place d’un pipeline automatisé avec Kestra pour nettoyer, fusionner et analyser des données issues d’un ERP et d’un CMS.
Génération mensuelle de rapports de chiffre d’affaires et de fichiers segmentant les vins premium. Intégration de tests de qualité, planification, et export vers AWS S3.
Stack technique :
Langage : Python
Orchestration : Kestra
Base de données : DuckDB
Stockage cloud : AWS S3
Traitements de données : pandas, scipy, openpyxl
Infrastructure : Docker, Poetry
Définition de workflows : YAML
Tests & supervision : Kestra (logs, validations intégrées)
Conception d’un pipeline complet de machine learning pour prédire la consommation énergétique spécifique (SiteEUI) de bâtiments non résidentiels à Seattle.
Le modèle a été entraîné, optimisé, suivi avec MLflow, puis exposé via une API REST avec BentoML et validé avec Pydantic.
Stack technique :
Langage : Python
Modélisation & suivi : scikit-learn, MLflow
Traitements de données : pandas, numpy, seaborn, matplotlib
Déploiement API : BentoML
Validation des données : Pydantic
Infrastructure & gestion dépendances : Docker, Poetry
Notebooks & exploration : Jupyter Notebook
Ce projet consiste à développer un pipeline de traitement en temps réel pour ingérer, analyser et générer des rapports sur des tickets clients à l'aide de Redpanda et PySpark.
Il simule un système de gestion de tickets, traitant les données des clients avec une architecture hybride cloud/on-premise.
Stack technique :
Langage : Python
Framework : PySpark
Stream Processing : Redpanda
Cloud : AWS
Autres : Docker, Kafka, Docker Compose
Conception et déploiement d'une infrastructure de traitement de données automatisée.
Les données météorologiques sont extraites depuis un connecteur Airbyte, transformées puis stockées dans une base MongoDB répliquée. Des tests d’intégrité et de réplication sont automatisés pour garantir la fiabilité des données.
Stack technique :
Langage : Python
Orchestration : Docker Compose
Base de données : MongoDB (Replica Set)
Stockage cloud : AWS S3
Extraction de données : Airbyte
Traitements de données : pandas, json
Infrastructure : Docker, Poetry
Tests & supervision : Pytest (intégrité & réplication)