La CNIL a publié le 11/10/2023 7 fiches portant sur l’Intelligence Artificielle.
Augure Data vous propose une première lecture critique sous le prisme des applications en santé.
Pour ceux qui n’auraient pas le temps de lire cet article entier, retrouvez ici les 10 points les plus marquants à retenir sur ces fiches.
Le contexte
La CNIL, Commission nationale de l’informatique et des libertés, autorité administrative indépendante chargée de préserver les libertés individuelles à l’ère du tout-numérique en accompagnant et en contrôlant l’usage des données personnelles, outre sa mission de contrôle et de sanction, se pose en accompagnant et force d’innovation sur les nouvelles technologies.
Avec ces fiches, la CNIL entend répondre aux questions des industriels et chercheurs sur les éventuelles oppositions entre développement de systèmes d’IA et respect du Règlement Général sur la Protection des Données (RGPD).
Des données personnelles pour développer les modèles d’IA
Dans le vaste paysage de l’IA, de nombreux modèles, dont ceux appartenant à la famille du machine learning, requièrent des jeux de données* dit “d’entraînement” pour remplir leur fonction. Il ne s’agit ni plus ni moins que d’ajuster un modèle mathématique (parfois complexe) à la réalité pour lui permettre de la prévoir ou de la reproduire.
C’est aux acteurs concernés par cette phase de développement des systèmes d’IA que les fiches de la CNIL s’adressent, puisque les jeux de données peuvent contenir des données dites personnelles**, qui tombent donc sous le régime du RGPD.
A l’ère du développement croissant d’outils, d’applications et de traitement de données dans le domaine de l’Intelligence Artificielle, la CNIL propose donc une première série de 7 lignes directrices pour le développement de ces systèmes avec des données personnelles.
*un jeu de données est un ensemble de valeurs organisées et contextualisées porteuses d’information.
**selon la définition même de la CNIL, les données personnelles sont constituées par toute information se rapportant à une personne physique identifiée ou identifiable. Et ce, directement ou indirectement par le croisement de plusieurs bases de données.
Du développement à la production
On notera ainsi que la mise en production* des modèles n’est pas adressée par la CNIL dans ces fiches, sauf dans le cadre d’un apprentissage continu ou d’un paramétrage (finetuning) du modèle. Cette distinction est importante car dans le cadre des modèles du langage par exemple, comme ChatGPT testé dans le précédent post, l’amélioration d’un modèle existant est possible avec des données personnelles**.
Deux autres publications sont prévues ainsi qu’une consultation publique.
* leur utilisation une fois entraînés et validés.
**par exemple pour améliorer les performances de ChatGPT en tant que médecin DIM, nous pourrions utiliser des données issues de dossiers médicaux…qui pourraient contenir des données personnelles sous forme de texte.
5 fiches sur des points classiques et 2 points techniques
Cinq d’entre elles sont effectivement des sujets “attendus” de la CNIL et les habitués du RGPD ne seront pas perdus :
le cadre général,
les finalités de traitement,
le statut juridique des acteurs,
la licéité* du traitement,
l’analyse d’impact.
Par ailleurs, les 2 dernières fiches retiennent immédiatement l’attention puisqu’elles s’intéressent directement à des aspects techniques spécifiques à l’IA.
En plus d’être ancrée dans une logique d’accompagnement plutôt que de sanction, la publication de la CNIL s’est visiblement construite autour des questions des industriels et institutions publiques**. Elle intègre la réflexion juridique dans une logique “terrain” et pas seulement théorique, à l’instar du référentiel des Entrepôts de Données de Santé en recherche qui liste des exigences techniques très précises.
* Caractère de ce qui est licite, qui est permis par la loi, par l’autorité établie.
** L’extrait sur le site de la CNIL : La CNIL a rencontré les principaux acteurs français de l’intelligence artificielle, qu’il s’agisse d’entreprises, de laboratoires ou encore des pouvoirs publics. Tous ont fait remonter un fort besoin de sécurité juridique.
Les grandes lignes
Précisons que selon la CNIL ces fiches ne s’appliquent que dans 2 cas de figure :
S’il est certain que des données personnelles sont présentes dans les jeux d’entraînement.
S’il est possible que des données personnelles soient présentes ET que des vérifications manuelles ou automatiques n’ont pas permis d’anonymiser les données.
Dans tous les autres cas, les fiches ne s’appliquent pas. On notera que les techniques de vérifications manuelles ou automatiques ont leur limite et que la CNIL précisera dans de prochaines fiches les risques qui y sont liés.
Par exemple, si on souhaite anonymiser des comptes-rendus médicaux, il faut que l’algorithme soit a minima en mesure de détecter le nom du médecin, du patient, son âge, sa date de naissance, son adresse, les dates des évènements clés… Autant de concepts qui peuvent être détectés automatiquement avec certain taux d’erreur (de faux positifs* ou de faux négatifs**)
*ici une entité détectée à tort comme étant une donnée sensible alors qu’elle ne l’est pas, par exemple, un nombre d’années exposition au tabac alors qu’il s’agit d’un âge : “[…] fume depuis 15 ans”
**ici une entité non détectée alors que c’est une donnée sensible, par exemple, un nom de famille à particule qui ressemble à un objet “DE LA PELLE”
Des finalités de traitement à l’AIPD*: la musique classique
*L’Analyse d’Impact relative à la Protection des Données est un outil permettant d’analyser et d’anticiper les risques liés à un traitement de données.
Les 5 premières fiches reprennent les concepts chers à la CNIL, en commençant par le cadre général et les finalités de traitement.
Les fiches étant plutôt didactiques, assez concises et dotées d’exemple, nous ne reprendrons ici que le éléments principaux, les notions et les points d’intérêts spécifiques à l’IA en santé.
La finalité de traitement toujours au cœur des exigences
Comme pour tous les traitements de données personnelles, la CNIL reprend le concept de finalité de traitement. Pas d’innovation majeure à relever : la définition reste la même, et la finalité doit être déterminée, explicite et légitime même si l’usage futur du système en développement n’est pas encore clairement défini.
Deux particularités à noter :
Dans le cas d’un usage futur du système encore incertain au moment de son développement, les notions de “type de système développé” et de “fonctionnalités et capacités techniques envisageables” sont exigées a minima.
La CNIL prévoit plus de souplesse dans le cas très particuliers de l’IA à des fins de recherche : soit lorsque l’organisme concerné ou le mode de financement présume d’un intérêt scientifique, soit lorsque des critères de l’OCDE sont réunis (fondés sur la définition de la R&D du Manuel de Frascati)
C’est donc une bonne nouvelle pour les équipes de recherche et on peut imaginer que des équipes d’intérêt privé feront des efforts pour au moins envisager une finalité de recherche plutôt qu’uniquement commerciale. L’aspect transférabilité/reproductibilité sera probablement le défi majeur pour ces acteurs puisqu’il implique une certaine transparence, et donc un avantage compétitif en moins.
Le statut juridique des acteurs précisé
Comme pour les finalités, rien de révolutionnaire dans les définitions. Les concepts de responsables de traitement (RT), co-responsables (Co-RT) et sous-traitants (ST) sont toujours existants, et restent assez explicites dans ces fiches.
Mais là encore, on relève 2 concepts spécifiques aux systèmes d’IA :
Deux RT particuliers : les diffuseurs de données* et les réutilisateurs de données**. En effet, certains acteurs se limitent à la mise à disposition des données (par exemple des databrokers ou producteurs de données, comme un hôpital) tandis que d’autres utilisent ces données à des fins d’entraînement d’un système d’IA.
Un prestataire qui réutilise plusieurs fois la même base de données pour des clients différents est qualifié de RT et non pas de ST pour ses clients.
*la personne physique ou morale, publique ou privée, qui met en ligne des données personnelles ou une base de données personnelles selon la CNIL
**la personne physique ou morale, publique ou privée, traitant ces données ou bases de données en vue d’une exploitation de celles-ci pour son propre compte selon la CNIL
La CNIL prend donc en compte les spécificités liées à la réutilisation des bases de données à visée d’entraînement. Ainsi, le simple fait de diffuser un jeu de données implique d’être RT pour cette finalité, tandis qu’un prestataire ne peut théoriquement pas se limiter au rôle de ST, moins contraignant que celui de RT, s’il réutilise la même base pour différents clients. Rappelons en effet que le RT a des obligations supplémentaires par rapport au ST, notamment puisqu’il doit réaliser une étude d’impact, et qu’il assume la plupart des responsabilités, comme son nom l’indique.
Licéité du traitement : le consentement toujours central et 2 bases légales non évoquées
Sur les 6 bases légales du traitement des données personnelles*, on retrouve les attendus : consentement, contrat, intérêt légitime, mission d’intérêt public. La CNIL reprend dans cette fiche ces 4 bases en les associant à des exemples concrets.
*Consentement, contrat, obligation légale, mission d’intérêt public, intérêt légitime, sauvegarde des intérêt vitaux. Définitions par la CNIL
Deux bases ne sont pas évoquées par la CNIL dans sa fiche : sauvegarde des intérêts vitaux et obligation légale. Cette absence semble logique pour la première, puisqu’à ce jour il semble difficile de montrer à priori que le développement d’un algorithme préservera les intérêts vitaux d’un individu donné. Certains algorithmes avec un intérêt clinique prouvé nécessitant un nouvel entraînement pourraient satisfaire cette base ? En revanche, on peut s’interroger sur le deuxième cas : l’obligation légale d’anonymiser les données via un traitement automatisé (cf. “les grandes lignes”) peut justement servir de base au développement d’un algorithme d’anonymisation de courrier médicaux, et donc entrer dans le cadre de l’obligation légale telle que définie par la CNIL. L’analyse des juristes sur ce point nous intéresse.
Comme pour les autres traitements, certains acteurs privilégieront le recueil du consentement. Par ailleurs la CNIL rappelle les traitements toujours interdits des données sensibles, sauf exceptions : consentement explicite, mise à disposition publique par la personne concernée, mission d’intérêt public important et traitements nécessaires à des fins de recherche.
Pour la base du contrat, la CNIL ne manque pas de rappeler avec l’exemple de Meta (facebook/whatsapp/instagram) que le traitement doit objectivement être nécessaire à son exécution. D’où l’importance de bien définir la finalité et d’aligner les traitements avec cette dernière.
L’Analyse d’Impact (AIPD)
La CNIL précise dans sa fiche les conditions rendant obligatoire la réalisation d’une AIPD. Rappelons ici qu’il s’agit d’un exercice certes parfois contraignant mais assez structurant. Les outils mis à disposition sur le site facilitent cette mise en œuvre.
On notera l’exemple de la CNIL sur le traitement automatique du langage pour des applications cliniques (on suppose, notamment l’extraction de concepts médicaux ?) qui relève de l’usage innovant et donc correspond à un critère sur deux rendant obligatoire l’AIPD.
Encore une spécificité des systèmes d’IA : les risques à prendre en compte dans le cadre du développement de ces systèmes sont listés par la CNIL.
On remarquera la présence de concepts intéressants qui relèvent directement de l’éthique en IA comme le risque de produire du contenu fictif erroné sur un individu pouvant nuire à sa réputation.
On imagine facilement les détournements possibles avec des données médicales fictives (comptes-rendus médicaux, imagerie médicale) générées par un algorithme. De même, la CNIL évoque le risque de biais de confirmation en cas d’algorithme servant à des décisions automatisées. En effet, les modèles ne peuvent prendre en compte que les variables d’ajustement sur lesquelles ils ont été entraînés, et si l’une d’entre elle a été ignorée pendant le développement, les conséquences peuvent être catastrophiques.
Deux AIPD pour le prix d’une
Dans sa fiche pratique, la CNIL intègre deux particularités concernant l’AIPD :
Il est nécessaire de réaliser 2 AIPD distinctes dans le cas où l’usage opérationnel n’est pas connu au moment du développement.
Une AIPD qui couvre le développement et le déploiement peut être modifiée de manière itérative, donc au fur et à mesure du déploiement.
Cette souplesse sur l’AIPD tient compte d’une des spécificités des systèmes d’IA : leurs usages peuvent rapidement changer. On peut par exemple imaginer un algorithme initialement utilisé pour coder automatiquement des dossiers médicaux en CIM10*, qui s’avère finalement utile pour générer des données de patients “synthétiques”.
*Classification Statistique Internationale des Maladies et des Problèmes de Santé Connexes est un référentiel de pathologies très utilisé dans le monde de la santé et sur lequel se base l’ensemble du système de données de l’hospitalisation en France. explorateur CIM10 de l’OMS
Des techniques avancées pour couvrir les risques levés par l’AIPD
La CNIL donne plusieurs pistes techniques pour limiter l’impact des risques révélés par l’AIPD : outre les classiques minimisation-chiffrement-cloisonnement on notera la présence de techniques assez avancées comme le désapprentissage machine, l’apprentissage fédéré ou l’introduction volontaire de bruit dans les modèles.
Ces méthodes peuvent être couteuses en ressources et en compétences. Tous les acteurs ne seront probablement pas en mesure de les mettre en œuvre tout en maitrisant les technologies et les coûts liés au développement des algorithmes et donc d’assurer un modèle économique viable… D’où l’intérêt de les éviter en s’assurant à l’avance de risques limités.
Deux fiches sur les aspects techniques et de conception des modèles
Les deux fiches rappellent plusieurs fois l’importance la notion de minimisation* à tous les stades de la conception et du recueil des données. La CNIL y propose une méthodologie, toujours axée autour de cette minimisation, puis elle précise les mesures qui permettent de collecter les données en respectant le règlement. Ces suggestions vont assez loin puisqu’elles détaillent des outils techniques et des librairies utilisables à cet escient.
*Restriction, limitation au strict nécessaire des données personnelles. Définition CNIL
La CNIL fournit également un très intéressant modèle de documentation des jeux de données qui couvre l’ensemble des exigences vues précédemment. A tester en condition réelle.
Deux éléments intéressants suggérés par la CNIL :
Outre la réalisation d’une étude pilote, la consultation d’un comité d’éthique fait partie des outils permettant de valider le choix de conceptions.
La notion de “privacy by design”, soit la protection des données dès la conception en français : des mesures permettant dès la conception des modèles de limiter les risques.
Dans ces deux dernières fiches, la CNIL fournit des pistes et outils concrets pour appliquer les exigences de protection de données personnelles. Cela rajoute au “coût” d’entrée d’un acteur dans l’IA : l’ensemble les directives de la CNIL, la réalisation cumulée d’une (ou deux) AIPD, de la documentation des jeux d’entraînement, de la consultation d’un comité d’éthique et d’une étude pilote +/- l’application de techniques assez avancées comme l’entraînement fédéré et le désapprentissage machine, en plus des exigences de sécurité (cryptographie, anonymisation) représente un travail important. Nul doute que de nombreux prestataires proposeront ces services et cette expertise aux acteurs pour en limiter les coûts.
La durée de conservation des données : un enjeu particulier dans l’IA
Comme pour l’usage des données, la durée de conservation doit faire l’objet selon la CNIL d’une rationalisation : exit donc les durées de conservations “à la louche de 10 ans” pour développer un algorithme.
La CNIL distingue une fois de plus la durée de conservation fixée pour le développement et celle fixée pour l’amélioration continue de l’algorithme. Là encore le principe de minimisation des données au strict nécessaire prévaut.
Synthèse en 10 points
La CNIL identifie la phase de développement du système d’IA comme un traitement de données personnelles à part entière, ce qui englobe la phase de collecte des données à visée d’entraînement.
La définition claire et précise des finalités de traitement, que l’usage réel de l’algorithme soit connu à l’avance ou non, reste un des éléments centraux dans le cas des systèmes d’IA.
Concernant la définition des finalités, une souplesse supplémentaire est prévue pour les traitements à visée de recherche, qui doivent cependant suivre certains critères.
La base légale du traitement reste également un des éléments centraux justifiant l’utilisation de ces données : sans que la base du contrat ne suffise en elle-même pour dépasser les finalités initialement prévues
Une série de critères rendent obligatoire la réalisation d’une Analyse d’Impact, et ce dans la majorité des situations. L’usage innovant dans le développement d’applications cliniques et médicales est retenu comme argument justifiant une AIPD.
Les acteurs pourraient être amenés à produire 2 AIPD distinctes ou modifier de manière itérative une AIPD existante pour satisfaire les exigences de la CNIL.
De nombreuses suggestions de techniques et d’outils sont proposés par la CNIL à chaque étape de la conception des systèmes pour garantir le respect des personnes.
Le principe de minimisation reste au cœur des préoccupations de la CNIL
La CNIL propose intégrer des éléments de “privacy by design” et d’éthique en IA au cours de la conception et du développement des systèmes
Le respect de l’ensemble des exigences de la CNIL élève le ticket d’entrée pour les acteurs qui souhaiteraient développer leurs systèmes d’IA, et même si de nombreuses pistes et outils sont proposées par la CNIL, leur implémentation implique une expertise et/ou des coûts significatifs.