L’ère des modèles du langage
Les “IA conversationnelles” constituent aujourd’hui un ensemble d’outils incontournable, et sont appliquées à de nombreux domaines. Nous avons même régulièrement le droit à des classements des métiers qui seront automatisés ou même des sites plus dramatiques qui vous permettent de saisir le nom de votre métier et de voir sa probabilité d’être remplacé. Mélangeant souvent différents types de modèles et d’applications, avec une rigueur méthodologique parfois variable, ces articles ont le mérite de pointer du doigt l’extraordinaire enthousiasme qui entoure les technologies englobées sous le terme générique d’IA.
Un exemple de liste des métiers “à risque”
OpenAI published a paper on whose jobs are most under threat 🫣 pic.twitter.com/WZbnoEpI8k
— Ric Burton (@ricburton) 20 mars 2023
Il faudrait être de mauvaise foi pour ne pas reconnaître l’utilité présente et future que constituent ces innovations majeures. A l’ère de l’information, le chapitre des LLMs, ou “Grand Modèles du Langage”*, s’érige sans doute en “grands pas en avant pour l’humanité”.
* Au choix la définition anglaise ou française, qui correspond simplement à un type très particuliers de réseaux de neurones, basé sur des Transformers : des étapes de transformations du texte d’origine en une représentation vectorielle, une combinaisons de nombres pour faire simple, plus concise que le texte. Aucun rapport avec les robots-véhicules géants malheureusement.
Le mot de l’expert menacé
Du point de vue très spécifique d’un Médecin de santé publique, exerçant comme DIM, il était inévitable de se poser la question : “…et si les LLMs pouvaient me remplacer” ? Cette question fait écho à la nature même des LLMs et des agents conversationnels qui les mobilisent. Ce sont des machines à synthétiser, résumer l’information, à la modeler à la demande en conservant théoriquement une (grande) partie de sa sémantique. A tel point même que des applications de compression d’image sans perte d’information sont envisagées*, bien loin de leur raison d’exister initiale.
* L’article de l’équipe de DeepMind sur l’utilisation des LLMs comme compresseurs
La théorie grammaticale : l’adversaire déchu des LLMs
Ce constat se fait d’ailleurs au détriment de la thèse d’un grand expert du langage de notre époque, Noam Chomsky, qui avait, avant l’émergence des modèles utilisés pour Traitement Automatisés du Langage (ou NLP en anglais), établi qu’ils ne pourraient égaler l’humain puisqu’incapable de retenir le sens sous-jacent du langage sans en reproduire les règles implicites. Or, il est aujourd’hui évident qu’aucune règle particulière n’a été donnée (codée) aux LLMs, et que pire encore, une “simple” analyse statistique du langage (note : à grand coup de V100 et de salaires mirobolants de data scientists) suffisait à en reproduire les règles sans en perdre le sens.
* C’est la théorie grammaticale de Chomsky, qu’il serait bien trop complexe à détailler ici, mais pour référence : transcrit d’un podcast sur le sujet
Si Chomsky avait tort, est-ce que les gourous qui nous promettent un remplacement de nos métiers auraient raison ? Essayons de trouver des éléments de réponse sans couler le budget d’un sous-marin nucléaire en équivalent de temps de calcul distribué.
Le challengeur : GPT 3.5
On ne le présente plus. Dans sa version 3.5, la plus récente gratuite d’utilisation, GPT, le modèle sous-jacent à l’application ChatGPT, exhibe 175 milliards de paramètres *
* Comprendre : autant de “nombres” qui stockent une partie des informations du modèle. Les paramètres d’un modèle sont des valeurs numériques qui le caractérisent et peuvent être modifiées par l’entraînement. Une bonne explication ici
Inutile également de revenir sur la quantité astronomique d’applications et d’utilisations de ce modèle : cela va du simple agent conversationnel à la traduction complexe ou génération de musique, super-assistant, voir même à la traduction du langage des animaux *
*Un thread twitter passionnant sur la traduction du langage des cachalots
Rappelons simplement que ce qui fait sa “spécificité” par rapport aux autres modèles et une partie de sa performance, c’est qu’il a été entraîné sur un jeu de données conséquent et large issu de tout l’internet *, de livres sélectionnés et de wikipédia. En outre, son architecture type “transformers” lui permet d’être très performant sur ces tâches de synthèse d’information.
* Commoncrawl est un projet open source archivant et “crawlant” internet, il s’agit en fait d’une grande base de données basée sur des “échantillons” aléatoires du web et du contenu de ses sites pour des réutilisations futures. A voir comme un musée vivant actualisé de l’internet.
Un grand modèle au talon d’Achille
Pour cet exercice, nous nous contenterons de mobiliser sa faculté de répondre à des questions d’experts sur un sujet donné. A noter qu’on anticipe déjà l’une de ses limites : GPT 3.5 est dans sa forme par défaut un modèle généraliste, c’est à dire qu’il n’a pas été entraîné sur des corpus spécifiques ou techniques dans des domaines particuliers. Par ailleurs son jeu d’entraînement étant par définition limité à une période, les dernières actualités du domaine ne peuvent logiquement pas être assimilées par le modèle.
Le King of The Hill : le Médecin DIM
Formé d’abord à la médecine, puis reniant la clinique pour les manuels de groupage et les guides méthodologiques * , c’est un expert métier censé connaître à la fois les cadres médicaux, techniques et réglementaires qui entourent l’activité des établissement de santé et sa facturation à l’activité (la fameuse T2A). C’est beaucoup pour un seul être, mais certains y parviennent.
* Documentation de référence pour les médecins DIM.
Une de ses activités principales, en omettant l’exercice de sa répartie légendaire face aux railleries constantes de ses confrères cliniciens, c’est de répondre à des questions des différents intervenants du système de santé (médecins, directions d’hôpitaux, institutions, chercheurs/épidémio et industriels…) sur des thèmes aussi variés que :
la valorisation économique d’une activité médicale,
l’offre de soin d’un territoire,
la disponibilité d’une information dans des grandes bases de données médico-économiques (par exemple pour des études de vie réelle),
…
C’est à toutes ces questions qu’un modèle du langage adapté devrait pouvoir répondre sans encombre.
La méthodo
Les questions proposées reflètent le quotidien d’un médecin DIM. Elles sont inspirées de véritables questions issues de ma pratique et des échanges entre médecins DIM et l’Agence Technique de L’Information Hospitalière qui est l’organisme responsable de la remontée des données hospitalières à l’échelon national. Les 3 premières questions sont plutôt orientées “codage de l’information” tandis que les suivantes sont plus axées “études de vie réelle”.
Un prompt pour améliorer la pertinence des réponses
Parce que nous sommes bons joueurs et que ChatGPT n’est pas encore omniscient, avant chaque question nous donnons à l’outil un “prompt” lui permettant 1) d’augmenter ses chances d’être pertinent, 2) de standardiser son format de réponse.
Pour ceux d’entre vous qui ne connaîtraient pas encore l’univers des prompt-engineers et de leurs salaires insolents, chargés de générer des prompts pour optimiser la pertinence des réponses des agents conversationnels, vous en aurez un aperçu ici.
J’ai personnellement répondu aux questions AVANT de soumettre la question à ChatGPT, et ce afin d’éviter d’être influencé par la réponse. Idéalement, il aurait fallu soumettre la question à deux évaluateurs indépendants mais comme cet article de blog ne sera malheureusement pas publié dans le JAMA, on s’en passera pour cette fois-ci *
* tant pis pour les points SIGAPS
Le prompt
” Réponds à une question comme si tu étais un médecin d’information médicale (DIM) français, expert de la tarification à l’activité et du PMSI. L’objectif est de donner une réponse éclairée à un autre médecin expert du domaine qui s’interroge et requiert ton aide. Il faut répondre avec un style neutre, concis, si nécessaire en faisant rapidement référence à la règle ou au cadre légal qui te permet de répondre. Pas besoin de mise en garde ou d’explications détaillées, il faut aller droit au but. Voilà la question :
<question>
?
Les 6 questions posées à Chat GPT
Un patient est immédiatement hospitalisé lors d’une consultation au sein d’un hôpital, a-t-on le droit de facturer une consultation et/ou un acte médico-technique en sus du GHS ?
Un patient hospitalisé en MCO début une dialyse péritonéale durant son séjour, il est ensuite muté en SSR après plusieurs séances de dialyse. Comment doit-on coder la dialyse en MCO ? En SSR ?
La pose d’un cathéter veineux périphérique compte-elle comme une intervention pour une HDJ ?
Un établissement de santé peut-il accéder directement aux données de santé contenues dans le SNDS sans déposer de protocole CESREES ?
Peut-on chaîner des données du SNDS à une autre base de données de santé ? Si oui avec quel cadre réglementaire ?
Quelle sélection de codes PMSI permettrait d’identifier des patients avec un cancer de la vessie stade IV ?
Ces questions ont été posées à ChatGPT v 3.5 le 27/09/2023 en les enchaînant sans remise à zéro du chat entre les questions.
Résultats
Un patient est immédiatement hospitalisé lors d’une consultation au sein d’un hôpital, a-t-on le droit de facturer une consultation et/ou un acte médico-technique en sus du GHS ?
La réponse de ChatGPT
Non, en France, en vertu de la réglementation de la tarification à l’activité et du PMSI, il n’est pas autorisé de facturer une consultation ou un acte médico-technique en sus du GHS lorsque le patient est immédiatement hospitalisé à la suite d’une consultation à l’hôpital.
La tarification à l’activité inclut les services de consultation et les actes médico-techniques dans le forfait global du GHS pour cette hospitalisation.
La réponse du DIM
Non, il n’est pas possible de facturer une consultation ou un acte externe durant une hospitalisation, qui fait l’objet d’une facturation d’un GHS.
Un patient hospitalisé en MCO début une dialyse péritonéale durant son séjour, il est ensuite muté en SSR après plusieurs séance de dialyse. Comment doit-on coder la dialyse en MCO ? En SSR ?
La réponse de ChatGPT
En MCO, la dialyse péritonéale doit être codée à l’aide du code CIM-10 : Z99.2 “Dépendance à la dialyse”. En SSR, la dialyse péritonéale doit être codée avec le code CIM-10 approprié en fonction de la pathologie sous-jacente du patient, et non pas en tant que Z99.2, car en SSR, le codage se base sur les diagnostics et non sur les procédures de traitement.
La réponse du DIM
On peut coder l’acte CCAM de dialyse tous les jours de dialyses, que ce soit en MCO ou en SSR.
La pose d’un cathéter veineux périphérique compte-elle comme un intervention pour une HDJ ?
La réponse de ChatGPT
Non, en France, la pose d’un cathéter veineux périphérique ne compte pas comme une intervention pour une Hospitalisation à Domicile (HDJ). Les HDJ sont définies par des actes médicaux réalisés au domicile du patient sans hospitalisation en établissement de santé. La pose d’un cathéter veineux périphérique est considérée comme un acte médical de routine et ne constitue pas une hospitalisation à domicile.
La réponse du DIM
Oui la pose d’un cathéter veineux périphérique peut compter comme l’une des interventions d’une HDJ, comme le prévoit l’instruction gradation.
Un établissement de santé peut-il accéder directement aux données de santé contenues dans le SNDS sans déposer de protocole CESREES ?
La réponse de ChatGPT
Non, en France, un établissement de santé ne peut pas accéder directement aux données de santé contenues dans le Système National des Données de Santé (SNDS) sans déposer un protocole CESREES (Comité d’Expertise pour les Recherches, les Etudes et les Evaluations dans le domaine de la Santé). L’accès aux données du SNDS est soumis à des procédures strictes et nécessite l’approbation du CESREES, conformément à la réglementation en vigueur pour garantir la protection des données de santé.
La réponse du DIM
Non, à moins de disposer d’une autorisation d’accès unique, ce qui implique tout de même un dépôt initial de protocole au CESREES, un établissement de santé n’a pas d’accès au SNDS sans déposer le protocole de la recherche au CESREES.
Peut-on chaîner des données du SNDS à une autre base de données de santé ? Si oui avec quel cadre réglementaire ?
La réponse de ChatGPT
Oui, il est possible de chaîner des données du Système National des Données de Santé (SNDS) à une autre base de données de santé en France. Le cadre réglementaire pour cela est défini par la Commission Nationale de l’Informatique et des Libertés (CNIL) et nécessite une autorisation spécifique de la CNIL pour la mise en place de cette chaîne de données. Cette autorisation est généralement obtenue en déposant une demande auprès de la CNIL, en fournissant des informations détaillées sur la manière dont les données seront chaînées et utilisées, tout en respectant les règles de confidentialité et de sécurité des données de santé.
La réponse du DIM
Oui, il est possible de chaîner (ou apparier) les données du SNDS à une autre base de données. Cet appariement se fait dans un cadre fixé par la CNIL, qui donne son autorisation pour ce dernier. L’appariement peut être ponctuel dans le cadre d’une recherche/cohorte ou prévu pour une plus longue durée dans le cadre des entrepôts de données de santé.
Quelle sélection de codes PMSI permettrait d’identifier des patients avec un cancer de la vessie stade IV ?
La réponse de ChatGPT
Pour identifier des patients avec un cancer de la vessie stade IV dans le cadre du PMSI en France, vous pouvez utiliser les codes suivants de la Classification Commune des Actes Médicaux (CCAM) :
Code CCAM pour la résection transuréthrale de la vessie (RCPA002) avec la clé 05 pour indiquer le stade IV.
Code CCAM pour la cystoprostatectomie totale avec dérivation urinaire (RCPA007) avec la clé 05 pour indiquer le stade IV.
Code CCAM pour la cystectomie totale de la vessie avec iléostomie cutanée (RCPA008) avec la clé 05 pour indiquer le stade IV.
Ces codes CCAM associés à la clé indiquant le stade IV permettront d’identifier les patients atteints d’un cancer de la vessie au stade IV dans le PMSI.
La réponse du DIM
Il faudrait utiliser les codes en C67.* associés à des codes de localisation secondaires de tumeurs (métastases) en C78-79.* et un traitement par chimiothérapie (séances) tracé par la présence d’une séance en Z51.1.
Du bon… et des saucisses
Nombre de bonnes réponses : 3/6
Sur 6 questions, cette version de ChatGPT répond correctement à 3 d’entre elles. Certaines questions étaient volontairement ouvertes : la présence d’un seul élément faux dans la réponse constituait un zéro à la question, même si une partie de la réponse était bonne.
Concernant la nature des bonne réponses, ChatGPT a correctement répondu à 2 questions portant sur le SNDS et 1 sur le codage des séjours en PMSI. La consigne qui consistait à rajouter le cadre légal a été respectée.
[…]La tarification à l’activité inclut les services de consultation et les actes médico-techniques dans le forfait global du GHS pour cette hospitalisation
On notera que sur la première question, CHatGPT s’est même permis le luxe de faire un peu de pédagogie sur la T2A, un comportement très proche du DIM dans son milieu naturel, le côté patronisant en moins diront certains directeurs d’hôpitaux. On apprécie.
Si près et pourtant si loin : analyse des 3 erreurs
Une revue des erreurs dans les réponses qui illustre bien les limites de ce type de modèle.
L’hallucination de codes CCAM et de concepts inexistants
Code CCAM pour la cystectomie totale de la vessie avec iléostomie cutanée (RCPA008) avec la clé 05 pour indiquer le stade IV.
Dans la dernière question sur les cancers de la version stade IV, nous sommes témoin du phénomène d’hallucination* de codes CCAM inexistants : le RCPA008 n’existe pas, tout comme les autres codes évoqués, et le concept de clé également. Il s’agit peut-être d’une confusion avec le concept de phase, mais ceci ne permet toujours pas d’identifier des cancers de la vessie stade IV.
* réponse d’un modèle manifestement fausse qui est présentée comme un fait certain, wikipédia
On notera que le phénomène d’hallucination permet de mieux illustrer le fait que ces modèles du langage ne stockent pas la connaissance sous forme structurée mais sont bien des représentations “compressées” de l’information.
Imprécision et mauvaise compréhension de la question
[…] la dialyse péritonéale doit être codée à l’aide du code CIM-10 : Z99.2 “Dépendance à la dialyse”.
La deuxième question a été comptée fausse même si elle était partiellement vraie. Le code Z99.2 sert plutôt, en pratique, à coder l’information d’un patient bénéficiant d’une dialyse de manière chronique. En revanche, la question portait plutôt sur l’acte de dialyse en lui-même, qui lui n’est pas un code CIM10, mais bien un code d’acte.
Cette finesse se situe à un niveau d’exigence assez haut pour un modèle qui n’a normalement pas accès à une connaissance de domaine très structurée, et il est possible que la question n’ait pas été assez claire pour permettre à notre apprenti DIM d’être précis dans ses réponses.
On notera qu’en réalité la facturation des dialyses est un sujet assez complexe, même pour un DIM formé.
Une confusion dans les acronymes
Non, en France, la pose d’un cathéter veineux périphérique ne compte pas comme une intervention pour une Hospitalisation à Domicile (HDJ).
C’est sans doute l’erreur la plus “réaliste” dans le sens où il s’agit d’une confusion d’acronyme désignant deux types d’hospitalisation complètement différents. Esprit d’optimisation oblige, le secteur de l’hospitalisation et du PMSI est un monde où se côtoient de nombreux acronymes.
* HDJ pour Hospitalisation de Jour et HAD pour Hospitalisation à Domicile
Si on omet cette confusion, la réponse est correcte.
Discussion
ChatGPT a répondu dans 50% des cas correctement à une question complexe, spécifique à un domaine. Ce résultat n’est pas si mauvais en considérant son jeu d’entraînement non spécifique au domaine, et la nature des erreurs qu’il commet. Notre méthodologie est loin des standards de l’évaluation de la performance des modèles qui sont évidemment moins biaisés qu’un article de blog.
Cette démarche visait justement à évaluer rapidement l’utilisation “vraie vie” de tels modèles et nous a permis très vite de mettre en lumière ses limites. Cela ne les disqualifie pas pour autant d’un usage concret mais peut tempérer les ardeurs des plus virulents “évangélistes” de ces modèles.
A la question “Une IA conversationnelle peut-elle remplacer un médecin DIM ?” la réponse est clairement non.
Pour autant, ces modèles pourraient servir d’aide documentaire à un médecin DIM qui en maîtrise les limites, et qui aurait besoin rapidement de se référer à une règle sans passer du temps à feuilleter une longue documentation. Ce rôle de super-assistant est celui qui semble le plus réaliste pour les domaines d’expertise similaires à celui de médecin DIM.
Leur applicabilité à des case d’usages concrets reste justement au cœur des discussions : ces LLMs peuvent-ils vraiment s’intégrer au travail quotidien d’un expert ? Si oui comment ? Ce sont ces questions qui ont un véritable intérêt.
What’s next
Même si les réponses contiennent des éléments faux, inventés dans certains cas, ce type d’échange et de synthèse d’information est prometteur. Les erreurs générées sont possiblement corrigibles par l’entraînement d’un LLM fine-tuné (réentraîné) sur des données plus récentes et précises du domaine.
La structure du langage et sa cohérence globale sont respectées, mais le niveau d’information “vraie” conservée dans ces modèles est insuffisant pour une utilisation en production dans leur état actuel.
Pistes pour une utilisation plus pertinente des LLMs
Une autre piste d’utilisation de ces modèles serait de se contenter d’un moteur de recherche “sémantique” qui exploite les capacités de conversation de chatgpt sans pour autant fine-tuner le modèle (ce qui est couteux et long).
Ce type de moteur de recherche s’appuie comme pour ChatGPT sur une représentation vectorielle (“embeddings”) * du texte pour renvoyer le passage le plus pertinent d’un corpus. Cela permettrait de ne pas dénaturer l’information et de renvoyer directement au passage d’intérêt qui répond le mieux à la question de l’utilisateur. **
* “Plongement lexical” en français, qui correspond à la première étape de transformation du texte en vecteurs. définition
** Cette question du fine-tuning vs l’utilisation d’embeddings est une question intéressante en recherche d’information : voir ce post linkedin
L’indispensable nécessité d’un expert
Cependant, il semble inévitable de développer ce type d’outils avec l’aide voir la supervision d’un expert PMSI (médecin DIM) pour corriger les biais observés ici. Il serait en effet catastrophique de mettre en production un modèle sans être assuré d’un minimum de véracité des informations renvoyées ou de suivre la qualité de ses réponses sur le long terme.
En outre, comme pour d’autres disciplines, on peut affirmer sans trop s’avancer que les experts feront entrer ce type d’outil dans leur arsenal, comme un gain de temps, sans pour autant qu’ils ne les supplantent totalement, comme certains gourous nous le promettent.
Comme pour d’autres métiers basés sur une documentation extensive et technique, le PMSI verra certainement ce type de modèle se généraliser. Et même si leur impact n’est pas encore clair, il sera probablement non négligeable. Les savoureuses blagues de DIM en moins, probablement.