Des travaux récents montrent que les outils d’intelligence artificielle utilisés pour détecter des cancers peuvent être nettement moins fiables dans certains groupes de patients, même lorsque ces groupes sont aussi bien représentés que d’autres dans les jeux de données d’entraînement. Ces écarts de performance tiennent autant à la manière dont les modèles sont entraînés qu’à la nature même des données biologiques analysées.
Les chercheurs rappellent qu’il est classique de voir l’IA moins performante dans des groupes démographiques sous-représentés. Mais ici, les modèles diagnostiquaient moins bien certains patients malgré des tailles d’échantillon comparables. Une explication tient au fait que certains cancers sont plus fréquents dans certains groupes : le modèle « apprend » alors surtout les signaux de ces populations, et peine à généraliser à des groupes où la maladie est plus rare. Par ailleurs, des différences moléculaires subtiles dans les biopsies, propres à certains profils, peuvent être captées par l’IA et servir de raccourci indirect pour inférer le groupe démographique plutôt que la maladie elle-même, ce qui nuit à l’équité diagnostique.
L’équipe de Kun-Hsing Yu (Harvard Medical School) montre toutefois qu’il est possible de corriger une grande partie de ces biais en ajustant le cadre d’entraînement des modèles : leur nouvelle approche réduit ainsi d’environ 88 % les disparités de performance entre groupes. Ces résultats suggèrent que l’IA peut devenir plus robuste et plus « juste » sans nécessiter des jeux de données parfaitement équilibrés, à condition de mieux encadrer ce que les algorithmes sont autorisés à apprendre.
Dans un autre travail publié dans PLOS Biology, des chercheurs soulignent que des biais comparables, cette fois dans des bases de données bactériennes, limitent également le potentiel de l’IA pour prédire et combattre la résistance aux antibiotiques, rappelant l’urgence d’une conception plus rigoureuse et plus transparente des modèles en santé.
L’équipe de rédaction Tempo Today