Data engineering pour la surveillance en santé publique (SurSaUD)

Référence du stage : DATA-STA-2026-07

Publié le 13 novembre 2025
Cette offre vous intéresse ?

Nous rejoindre

Vous avez envie de faire carrière au sein d'un organisme public qui a pour mission de  protéger efficacement la santé des populations ? Rejoignez-nous.

Présentation de l'agenceAfficherMasquer

Santé publique France est l’agence nationale de santé publique française. Etablissement public de l’Etat sous tutelle du ministre chargé de la santé créé par l’ordonnance 2016-246 du 15 avril 2016, elle intervient au service de la santé des populations. Agence scientifique et d’expertise du champ sanitaire, elle a pour missions :

  1. L'observation épidémiologique et la surveillance de l'état de santé des populations ;
  2. La veille sur les risques sanitaires menaçant les populations ;
  3. La promotion de la santé et la réduction des risques pour la santé ;
  4. Le développement de la prévention et de l'éducation pour la santé ;
  5. La préparation et la réponse aux menaces, alertes et crises sanitaires ;
  6. Le lancement de l'alerte sanitaire.

L’agence est organisée autour de directions scientifiques et transversales et de directions assurant le support et le soutien à l’activité.
Son programme de travail, arrêté par son Conseil d’administration, s’articule autour de cinq axes prioritaires : les déterminants de santé, les populations, les pathologies, les interventions et les territoires, et les infrastructures.

AffectationAfficherMasquer

Direction Appui, Traitements et Analyses des données

Description du stageAfficherMasquer

Missions

  • Collecte et structuration des données : mobiliser les différentes sources du système SurSaUD et leurs référentiels associés pour constituer un jeu de données cohérent et structuré.
  • Contrôle qualité : mettre en place des procédures d’évaluation de la qualité des données incluant la détection et, si nécessaire, l’imputation des valeurs manquantes, l’identification des anomalies, ainsi que la définition d’indicateurs synthétiques de fiabilité.
  • Construction d’un référentiel de séries temporelles : organiser les données en un corpus structuré selon plusieurs dimensions (géographiques, temporelles, syndromiques et démographiques), adapté aux analyses statistiques et exploratoires.
  • Extraction de descripteurs temporels : compiler des indicateurs décrivant le comportement des séries (statistiques globales, saisonnalité, tendance, variabilité…) en vue d’une typologie des dynamiques observées.
  • Analyse exploratoire et classification non supervisée : regrouper les séries selon leurs profils temporels afin d’identifier des tendances récurrentes ou atypiques et de mieux caractériser la diversité des comportements.
  • Enrichissement contextuel : intégrer des données externes (caractéristiques sociodémographiques, calendrier scolaire, jours fériés, conditions météorologiques…) pour affiner l’analyse des séries et orienter les choix méthodologiques futurs (pré-sélection de variables explicatives).
  • Constitution d’un jeu de données de référence annoté : participer à l’élaboration d’un corpus structuré et documenté, destiné à l’évaluation comparative de méthodes de détection de signaux et de prévision.
  • Documentation des traitements : produire une documentation technique complète (guides, scripts, structuration des jeux de données) et mettre en oeuvre des pratiques garantissant la reproductibilité et la généralisation des travaux à d’autres sources de données (versioning, modularité des scripts).
  • Automatisation des traitements : concevoir et implémenter une chaîne de traitement automatisée, garantissant la traçabilité, l’horodatage et la reproductibilité des processus.
  • Optimisation des performances : adapter les traitements aux infrastructures de calcul haute performance de Santé publique France, en tenant compte des contraintes liées aux volumes importants de données manipulées.