Les biais de l’IA Générative sont nombreux, aux premiers rangs desquels les biais humains. Nos experts Data & IA vous apportent leur décryptage pour comprendre et maîtriser les biais de l’IA Générative.
Sommaire
Quels sont les risques des biais de l'IA Générative ?
Le lancement public de ChatGPT le 30 novembre 2022 a profondément bouleversé notre rapport à l’Intelligence Artificielle Générative (IAG) et son utilisation ou celle d’autres Large Language Models (LLM) s’est depuis largement répandue. En conséquence, de plus en plus d’entreprises les expérimentent afin d’accompagner leurs collaborateurs dans des tâches aussi diverses que la synthèse de documents, la capitalisation des connaissances, la génération de courriels, la relation client, la gestion et l’analyse de contrats, l’amélioration des processus RH, etc.
Si cette rapide montée en puissance de l’IA Générative représente pour elles l’opportunité d’accélérer leur transformation digitale, d’augmenter leur productivité ou d’accompagner leurs collaborateurs vers des activités à plus fortes valeurs ajoutée, Il est crucial de bien comprendre les conséquences du déploiement de solutions d’IA Génrative et de mettre en place les garde-fous qui permettront d’encadrer les usages.
A cet effet, notre article examine les risques associés aux biais humains de l’IAG.
Quels sont les risques pour l'IA Générative induits par les biais humains ?
Les biais sont un facteur majeur de risque de discrimination, de diffusion de préjugés ou de mauvaise interprétation des résultats et peuvent impacter les systèmes d’IA durant chacune des étapes de leur développement et déploiement. Les spécificités de l’IA Générative telles que son adoption massive, sa facilité d’utilisation, sa capacité à interagir de façon naturelle avec les humains ou encore l’impression d’omniscience qu’elle dégage exacerbent même leur impact négatif.
1. Biais présents lors de la collecte, la sélection et la préparation des données
- Biais de sélection : sélection de données, consciente ou inconsciente, qui confirment les croyances ou les hypothèses préexistantes.
- Biais d'omission : exclusion systématique, consciente ou inconsciente, de certaines informations.
- Biais de disponibilité : tendance à utiliser des données facilement accessibles ou immédiatement disponibles, qui peuvent ne pas être complètes.
- Biais de représentativité : les données ne reflètent pas correctement la diversité des personnes ou des cas d'utilisation. Peut découler d’une sélection trop drastique ou binaire.
- Biais d’étiquetage : Apparaît lorsque les étiquettes attribuées aux données d'apprentissage reflètent des opinions subjectives ou stéréotypées, influençant ainsi le processus d'apprentissage.
2. Biais présents lors de l’entrainement des modèles
- Biais d’ancrage : utilisation d’un ensemble initial d'hyperparamètres, par exemple, ceux utilisés dans des travaux ou des modèles antérieurs, ce qui peut limiter l'exploration de configurations qui pourraient être plus optimales ou moins biaisées.
- Effet Dunning-Kruger : une compréhension insuffisante des nuances et complexités des modèles mène à un entraînement inadéquat.
- Biais du survivant : utilisation d’hyperparamètres qui ont fonctionné dans des projets ou des expériences antérieurs, en ignorant ceux qui n'ont pas abouti mais qui pourraient être pertinents dans le contexte actuel.
- Biais de confirmation : sélection des modèles en fonction de l’adéquation de leurs résultats avec nos propres croyances.
3. Biais présents lors de l’utilisation des modèles
- Biais d’automatisation : confiance excessive dans les performances du modèle après son déploiement, négligeant la nécessité d'une surveillance et d'une évaluation continues.
- Illusion de connaissance : croyance en le fait que le modèle comprend les sujets ou répond aux questions de manière plus précise qu'il ne le fait réellement. Particulièrement préjudiciable dans le cas des hallucinations des IAG.
- Biais de confirmation : interprétation des résultats du modèle d'une manière qui confirme nos croyances préexistantes.
Nos convictions pour maîtriser les biais humains potentiels de l'IA Générative
Les risques qui résultent des biais inhérents à l’IA Générative doivent être anticipés par les entreprises. Les limiter est donc crucial et implique des actions au niveau des données, des algorithmes et de l’interprétation des résultats.
1. Agir sur les Données
Il est tout d’abord essentiel d’utiliser des ensembles de données représentatifs. Cela implique de collecter des données provenant de différentes sources afin de garantir une représentation équitable de toutes les sous-populations. Il est donc important d’inclure diverses caractéristiques démographiques, géographiques et socio-économiques dans les processus de collecte. A cet effet, l’échantillonnage aléatoire stratifié est une technique utile qui assure que toutes les sous-populations importantes sont adéquatement représentées dans les données d’entraînement.
L’analyse exploratoire des données est également cruciale car elle permet de détecter et de corriger les déséquilibres et les omissions. Des techniques de rééchantillonnage, comme le suréchantillonnage des classes minoritaires ou le sous-échantillonnage des classes majoritaires, peuvent être appliquées a posteriori pour équilibrer les données.
Enfin, nous recommandons de documenter les processus de collecte de données de manière transparente, ce qui permet des évaluations critiques. En impliquant des équipes représentatives dans la collecte et l’annotation des données, il est possible de minimiser les biais individuels et d’améliorer la qualité des données collectées.
2. Actions sur les Algorithmes
Afin de limiter les biais présents dans les algorithmes, il est important d’utiliser des métriques d’évaluation multiples et d’aller au-delà des métriques de performance classiques pour inclure des mesures d’équité et de justice. En effet, évaluer de manière critique les modèles selon des critères prenant en compte l’impact sur différents groupes permet de s’assurer qu’ils sont équitables.
L’ajustement des objectifs d’optimisation des algorithmes est une autre mesure importante. En y incorporant des contraintes d’équité, il est possible d’utiliser des techniques comme la régularisation pour éviter le surajustement et réduire les biais.
Enfin, tester les modèles sur des ensembles variés de données est essentiel pour identifier des comportements biaisés. Les techniques de débiaisement, telles que les algorithmes adversariaux, peuvent être appliquées pour neutraliser les biais appris pendant l’entraînement. Utiliser des méthodes de rééquilibrage des poids permet également d’accorder plus d’importance aux classes sous-représentées, contribuant ainsi à une meilleure équité des modèles.
3. Actions sur l'Interprétation des résultats
Pour minimiser les biais découlant de l’interprétation des résultats, la transparence et l’interprétabilité des modèles sont cruciales. En effet, développer des modèles explicables permet de comprendre comment les décisions sont prises, ce qui est essentiel pour détecter et corriger les biais.
La sensibilisation des utilisateurs aux potentiels biais des modèles d’IA et à leur impact sur l’interprétation des résultats est de même importante car elle leur apprendra à avoir une approche critique lors de l’analyse des résultats.
Impliquer des groupes représentatifs dans l’analyse et la revue des résultats minimise les biais de confirmation en permettant une évaluation impartiale et rigoureuse.
Enfin, il est important de présenter les résultats de manière équilibrée et neutre et d’inclure des informations sur leurs incertitudes et limitations afin de permettre aux utilisateurs de faire une évaluation critique et éclairée des conclusions fournies par les modélisations.
Conclusion
Limiter les biais de l’IAG nécessite une approche multidimensionnelle et multi-acteurs. L’organisation d’une telle démarche peut être très difficile à mettre en place, et c’est la raison pour laquelle nous recommandons d’implémenter un modèle opérationnel de la donnée qui permettra d’articuler les principes de la Gouvernance de la Donnée avec ceux de la Gouvernance des Usages.
Jérôme PRIOUZEAU
Associé iQo
son profil LinkedIn
Farid RAHOUI
Senior Manager Data Science
son profil LinkedIn
Quel impact environnemental pour l’intelligence artificielle (IA) ?
L’essor de l’intelligence artificielle ne se fait pas sans poser certains défis environnementaux majeurs. L’impact environnemental de l’IA est colossal et demeure probablement encore sous-évalué
Se former à l’IA : expliquer et démystifier avant de lancer ses démarches
Former ses collaborateurs à l’IA, ce n’est pas seulement répondre à une tendance actuelle mais bien accompagner la transformation des métiers. Tous les métiers sont
IA Readiness : votre DSI est-elle prête pour l’IA Générative ?
IA Readiness ou comment savoir si votre entreprise et les différents métiers sont prêts à tirer parti du potentiel de l’IA ? Nous avons défini