Aller au contenu

Vue d'ensemble — le quoi & le pourquoi

🟢🔵 Messier est un système de medical entity linking pour les biobanques suisses. Il prend en entrée des mentions de maladies (texte clinique libre, souvent court, en FR / DE / IT) et les normalise vers des concepts d’ontologie, puis émet des codes d’interopérabilité exploitables par les registres et les cadres suisses (SPHN, BBMRI).

Il est bâti sur xMEN (un toolkit d’entity linking biomédical) et opère on-premise (Docker, RTX 4090), sans donnée personnelle sortante (conformité nLPD). Il est livré et opérationnel, en phase d’itération / pré-pilote avec un CHU partenaire.

Pourquoi c’est non-trivial : le texte clinique est court, multilingue et ambigu ; les terminologies cibles sont sous licence ; et la granularité entre l’ontologie pivot (Mondo) et la cible (SNOMED) diffère — ce qui plafonne la justesse et impose une curation humaine assistée plutôt qu’un mapping automatique aveugle.

🟢 Quatre rôles autour du système :

RôleFait quoi
Curateurnormalise les mentions dans l’IDE ; confirme les codes candidats
Médecin-arbitretranche les mentions routées (cas difficiles)
Admin biobanquecrée les projets, importe les fichiers, lance les exports
Déployeur licenciéfournit les dumps d’ontologies (BYO), gère les imports d’ontologie

Cas d’usage typiques : constituer un registre tumeurs codé en SNOMED ; produire un dictionnaire mention→Mondo réutilisable ; alimenter une release SPHN ; bâtir un cache de validations mutualisable entre projets.

🔵 Les invariants qui reviennent dans tout le système :

  • Contract-first — l’openapi.yaml est la source de vérité ; types TS et schémas Pydantic en dérivent (le compile-time attrape les drifts). → Architecture
  • Identifiant vs contenu — on ne redistribue que des codes (CC0) ; jamais le contenu licencié. → Modèle de licence (open-core)
  • Snapshot dénormalisé > FK — l’audit fige des libellés au moment de l’action (validated_by, actor_label) plutôt que des clés étrangères.
  • Déterminisme — émission, pseudonymisation et augmentation onco sont déterministes (reproductibles, auditables).
  • On-premise / nLPD — tout tourne en local ; les exports sont pseudonymisés.

4. Périmètre (ce que Messier fait / ne fait pas)

Section intitulée « 4. Périmètre (ce que Messier fait / ne fait pas) »
  • ✅ Linking maladies → Mondo ; émission → SNOMED/NCIt ; décomposition onco (axes).
  • ✅ Curation, arbitrage, cache, exports (biobanque, SPHN).
  • Staging TNM, gestion patients/échantillons (BBMRI specimen) — linking ≠ staging. Le linkage sujet/specimen est laissé à la biobanque. → Imports & exports (interop)