Les « AI scribes », outils d’intelligence artificielle qui transcrivent et résument les consultations en temps réel, se diffusent très vite en pratique clinique : on estime qu’environ 30 % des cabinets médicaux y recourent déjà, dans l’espoir de réduire la charge de documentation et le burn-out. Mais cette adoption rapide dépasse largement le rythme des études, des standards de qualité et du cadre réglementaire, alertent des chercheurs dans un commentaire récent publié dans npj Digital Medicine.
Quatre grands types d’erreurs sont décrits :
- Hallucinations, lorsque l’IA crée de toutes pièces des éléments d’examen ou des diagnostics qui n’ont jamais été évoqués.
- Omissions de symptômes ou d’informations clés (par exemple une douleur thoracique non retranscrite).
- Mauvaise interprétation du contexte (un arrêt de traitement documenté comme une nouvelle prescription).
- Confusions d’interlocuteur, où les propos du patient sont attribués au médecin, ou l’inverse.
Même si les taux de « hallucinations » rapportés semblent faibles (1 à 3 %), appliqués à des millions de consultations, ils peuvent se traduire par des retards diagnostiques ou des erreurs de traitement.
Autre inquiétude majeure : l’iniquité de performance. Les systèmes de reconnaissance vocale sous-jacents se montrent moins précis chez les patients noirs, chez les personnes avec accent ou maîtrise limitée de l’anglais, au risque de produire des dossiers plus incomplets pour des groupes déjà vulnérables. Les auteurs plaident pour que les cliniciens exigent des données de performance ventilées par race, langue et accent, ainsi que des audits réguliers internes pour détecter des biais systématiques.
Enfin, la plupart de ces systèmes sont classés comme outils administratifs plutôt que comme dispositifs médicaux, ce qui leur permet d’échapper aux contrôles (p.ex. FDA). Dans ce contexte, la responsabilité médico-légale reste largement portée par le clinicien et l’institution, qui doivent relire chaque note générée, assurer la traçabilité des erreurs et informer clairement les patients de l’usage d’un scribe d’IA durant la consultation.
Pour les auteurs, l’enjeu réel est de définir des niveaux d’exigence clairs (taux de hallucinations quasi nuls pour les éléments critiques, absence de disparités, transparence des algorithmes…) avant un déploiement massif en toute sécurité.
Pour en savoir plus, cliquez ici.
L’équipe de rédaction Tempo Today