Quand les données d'entraînement créent des discriminations systémiques
Le biais de sélection survient lorsque les données utilisées pour entraîner un système d'IA ne sont pas représentatives de la population ou de la réalité qu'il est censé modéliser. C'est l'un des biais les plus courants et les plus dangereux car il est souvent invisible jusqu'à ce que le système soit déployé.
Une IA n'apprend que ce qui est présent dans ses données d'entraînement. Si les données sont biaisées, l'IA sera biaisée. Si certains groupes sont sous-représentés ou mal représentés, l'IA ne saura pas bien les traiter. C'est mathématiquement inévitable.
Discrimination systématique des candidatures féminines
En 2014, Amazon a développé un outil d'IA pour automatiser le tri des CV et identifier les meilleurs candidats pour des postes techniques. L'objectif était de gagner du temps et d'améliorer l'objectivité du recrutement.
10 ans de CV soumis à Amazon (2004-2014)
Majorité écrasante de CV masculins pour les postes techniques
Principalement des hommes embauchés dans le passé pour ces postes
Problème identifié : L'IA pénalisait systématiquement :
Le secteur tech était (et reste) majoritairement masculin. Les données reflétaient cette réalité historique discriminatoire.
L'IA a appris que "être un homme" était corrélé avec "être recruté". Elle a transformé cette corrélation en critère de sélection.
Au lieu de corriger le biais historique, l'IA l'a automatisé et amplifié en le rendant systématique.
Amazon a finalement abandonné le projet, reconnaissant l'impossibilité de garantir l'absence de biais avec ces données.
Question : Identifiez au moins 3 décisions différentes qui auraient pu être prises en amont pour éviter ce problème.
Biais racial dans l'évaluation du risque de récidive
COMPAS est un algorithme utilisé par les tribunaux américains pour évaluer le risque qu'un prévenu récidive. Il influence les décisions de libération conditionnelle et de détermination des peines.
| Groupe | Taux de faux positifs | Taux de faux négatifs | Impact |
|---|---|---|---|
| Prévenus noirs | 45% | 23% | Risque surévalué : personnes classées à haut risque alors qu'elles ne récidivaient pas |
| Prévenus blancs | 23% | 48% | Risque sous-évalué : personnes classées à faible risque mais qui récidivaient |
À niveau de risque réel équivalent, une personne noire avait 2 fois plus de chances d'être classée "haut risque" qu'une personne blanche, impactant directement la durée d'incarcération.
Entraîné sur des données d'arrestations et de condamnations passées, déjà biaisées par le profilage racial dans les forces de l'ordre.
L'algorithme utilisait des variables comme le code postal, le niveau d'éducation, qui sont des "proxies" (substituts) pour la race.
Plus de surveillance dans certains quartiers = plus d'arrestations = données encore plus biaisées.
Question : Pourquoi est-il particulièrement problématique d'utiliser l'IA dans le système judiciaire ? Quels principes fondamentaux sont en jeu ?
Taux d'erreur variables selon l'ethnie et le genre
| Groupe démographique | Taux d'erreur moyen | Différence |
|---|---|---|
| Hommes à peau claire | 0.8% | Référence |
| Femmes à peau claire | 7.1% | ×9 |
| Hommes à peau foncée | 12.0% | ×15 |
| Femmes à peau foncée | 34.7% | ×43 |
Les datasets d'entraînement (comme ImageNet, LFW) contenaient majoritairement des visages de personnes blanches et masculines, souvent issus de contextes occidentaux. Les femmes et les personnes de couleur étaient largement sous-représentées.
Question : Comment pourrait-on constituer un dataset d'entraînement réellement représentatif pour la reconnaissance faciale ? Quels défis anticipez-vous ?
| Type de biais | Description | Exemple |
|---|---|---|
| Sous-représentation | Certains groupes sont peu présents dans les données | Peu de femmes dans les données de recrutement tech |
| Données historiques biaisées | Les données reflètent des discriminations passées | Historique d'arrestations avec profilage racial |
| Biais de collecte | La méthode de collecte favorise certains groupes | Photos collectées principalement dans des pays occidentaux |
| Variables proxy | Utilisation de variables corrélées à des attributs protégés | Code postal comme proxy de l'origine ethnique |
| Biais de survie | Seuls les "succès" sont dans les données | Uniquement les CV de personnes embauchées par le passé |
| Biais temporel | Les données sont obsolètes | Modèles médicaux basés sur des études d'il y a 20 ans |
Votre entreprise souhaite développer un outil d'IA pour l'un des cas suivants (choisissez-en un) :
Quels types de biais de sélection pourraient affecter les données d'entraînement de ce système ?
D'où viendraient les données d'entraînement ? Quels groupes risquent d'être sous-représentés ou mal représentés ?
Si ces biais ne sont pas corrigés, quel impact concret pourrait-il y avoir sur les utilisateurs ?
Proposez au moins 3 mesures concrètes pour réduire les biais de sélection dans votre cas.
Analyser la composition démographique des données et identifier les déséquilibres.
Collecter intentionnellement des données de groupes sous-représentés.
Générer des données artificielles pour équilibrer les groupes minoritaires.
Tester les performances sur différents sous-groupes démographiques.
Documenter la composition des données et les limites connues.
Inclure des perspectives variées dans la collecte et l'analyse des données.