Pôle Formation UIMM CVDL

Activité 3 : Le Biais de Sélection des Données

Quand les données d'entraînement créent des discriminations systémiques

Durée : 60 minutes

Objectifs

Introduction : Le Principe "Garbage In, Garbage Out"

Le biais de sélection survient lorsque les données utilisées pour entraîner un système d'IA ne sont pas représentatives de la population ou de la réalité qu'il est censé modéliser. C'est l'un des biais les plus courants et les plus dangereux car il est souvent invisible jusqu'à ce que le système soit déployé.

Principe fondamental

Une IA n'apprend que ce qui est présent dans ses données d'entraînement. Si les données sont biaisées, l'IA sera biaisée. Si certains groupes sont sous-représentés ou mal représentés, l'IA ne saura pas bien les traiter. C'est mathématiquement inévitable.

Cas d'Étude 1 : Amazon et le Recrutement Automatisé

🏢

Amazon HR Tool (2014-2018)

Discrimination systématique des candidatures féminines

Contexte

En 2014, Amazon a développé un outil d'IA pour automatiser le tri des CV et identifier les meilleurs candidats pour des postes techniques. L'objectif était de gagner du temps et d'améliorer l'objectivité du recrutement.

Les Données d'Entraînement

Source des données

10 ans de CV soumis à Amazon (2004-2014)

Composition

Majorité écrasante de CV masculins pour les postes techniques

Historique de recrutement

Principalement des hommes embauchés dans le passé pour ces postes

Le Biais Découvert

Problème identifié : L'IA pénalisait systématiquement :

  • Les CV contenant le mot "femme" (ex: "capitaine de l'équipe de football féminine")
  • Les diplômées de deux universités exclusivement féminines
  • Subtilement, d'autres indicateurs corrélés au genre

Pourquoi est-ce arrivé ?

Données historiques biaisées

Le secteur tech était (et reste) majoritairement masculin. Les données reflétaient cette réalité historique discriminatoire.

Apprentissage de corrélations

L'IA a appris que "être un homme" était corrélé avec "être recruté". Elle a transformé cette corrélation en critère de sélection.

Amplification du biais

Au lieu de corriger le biais historique, l'IA l'a automatisé et amplifié en le rendant systématique.

Conséquence

2018
Projet abandonné après 4 ans de tentatives de correction

Amazon a finalement abandonné le projet, reconnaissant l'impossibilité de garantir l'absence de biais avec ces données.

Votre analyse - Groupe 1

Question : Identifiez au moins 3 décisions différentes qui auraient pu être prises en amont pour éviter ce problème.

Cas d'Étude 2 : COMPAS et la Justice Prédictive

⚖️

COMPAS (Correctional Offender Management Profiling)

Biais racial dans l'évaluation du risque de récidive

Contexte

COMPAS est un algorithme utilisé par les tribunaux américains pour évaluer le risque qu'un prévenu récidive. Il influence les décisions de libération conditionnelle et de détermination des peines.

Le Biais Découvert (ProPublica, 2016)

Groupe Taux de faux positifs Taux de faux négatifs Impact
Prévenus noirs 45% 23% Risque surévalué : personnes classées à haut risque alors qu'elles ne récidivaient pas
Prévenus blancs 23% 48% Risque sous-évalué : personnes classées à faible risque mais qui récidivaient

Conséquence concrète

À niveau de risque réel équivalent, une personne noire avait 2 fois plus de chances d'être classée "haut risque" qu'une personne blanche, impactant directement la durée d'incarcération.

Sources du Biais

Données historiques

Entraîné sur des données d'arrestations et de condamnations passées, déjà biaisées par le profilage racial dans les forces de l'ordre.

Variables proxy

L'algorithme utilisait des variables comme le code postal, le niveau d'éducation, qui sont des "proxies" (substituts) pour la race.

Boucle de rétroaction

Plus de surveillance dans certains quartiers = plus d'arrestations = données encore plus biaisées.

Votre analyse - Groupe 2

Question : Pourquoi est-il particulièrement problématique d'utiliser l'IA dans le système judiciaire ? Quels principes fondamentaux sont en jeu ?

Cas d'Étude 3 : Reconnaissance Faciale et Biais Ethnique

📸

Systèmes de Reconnaissance Faciale

Taux d'erreur variables selon l'ethnie et le genre

Résultats de l'Étude MIT (2018)

Groupe démographique Taux d'erreur moyen Différence
Hommes à peau claire 0.8% Référence
Femmes à peau claire 7.1% ×9
Hommes à peau foncée 12.0% ×15
Femmes à peau foncée 34.7% ×43
×43
Une femme noire a 43 fois plus de risques d'être mal identifiée qu'un homme blanc

Origine du Biais

Datasets déséquilibrés

Les datasets d'entraînement (comme ImageNet, LFW) contenaient majoritairement des visages de personnes blanches et masculines, souvent issus de contextes occidentaux. Les femmes et les personnes de couleur étaient largement sous-représentées.

Impacts Réels

  • Erreurs d'identification judiciaire : Plusieurs cas d'arrestations erronées de personnes noires
  • Accès refusé : Systèmes de sécurité qui ne reconnaissent pas certaines personnes
  • Surveillance disproportionnée : Plus de "faux positifs" dans certaines communautés

Votre analyse - Groupe 3

Question : Comment pourrait-on constituer un dataset d'entraînement réellement représentatif pour la reconnaissance faciale ? Quels défis anticipez-vous ?

Synthèse : Les Sources de Biais de Sélection

Type de biais Description Exemple
Sous-représentation Certains groupes sont peu présents dans les données Peu de femmes dans les données de recrutement tech
Données historiques biaisées Les données reflètent des discriminations passées Historique d'arrestations avec profilage racial
Biais de collecte La méthode de collecte favorise certains groupes Photos collectées principalement dans des pays occidentaux
Variables proxy Utilisation de variables corrélées à des attributs protégés Code postal comme proxy de l'origine ethnique
Biais de survie Seuls les "succès" sont dans les données Uniquement les CV de personnes embauchées par le passé
Biais temporel Les données sont obsolètes Modèles médicaux basés sur des études d'il y a 20 ans

Exercice de Groupe : Audit de Dataset

Scénario

Votre entreprise souhaite développer un outil d'IA pour l'un des cas suivants (choisissez-en un) :

  • A. Assistant IA pour le service client
  • B. Système de recommandation de formations pour les employés
  • C. Outil d'analyse de CV pour le recrutement
  • D. Chatbot de conseil en orientation de carrière

Cas choisi :

Question 1 : Identification des risques

Quels types de biais de sélection pourraient affecter les données d'entraînement de ce système ?

Question 2 : Sources de données

D'où viendraient les données d'entraînement ? Quels groupes risquent d'être sous-représentés ou mal représentés ?

Question 3 : Impact potentiel

Si ces biais ne sont pas corrigés, quel impact concret pourrait-il y avoir sur les utilisateurs ?

Question 4 : Stratégies de mitigation

Proposez au moins 3 mesures concrètes pour réduire les biais de sélection dans votre cas.

Bonnes Pratiques pour des Données Équitables

1. Audit de représentativité

Analyser la composition démographique des données et identifier les déséquilibres.

2. Diversification active

Collecter intentionnellement des données de groupes sous-représentés.

3. Données synthétiques

Générer des données artificielles pour équilibrer les groupes minoritaires.

4. Validation croisée

Tester les performances sur différents sous-groupes démographiques.

5. Transparence

Documenter la composition des données et les limites connues.

6. Équipes diverses

Inclure des perspectives variées dans la collecte et l'analyse des données.

Points Clés à Retenir

  • ✓ Les données biaisées créent inévitablement des IA biaisées
  • ✓ Le biais de sélection est souvent invisible jusqu'au déploiement
  • ✓ Les données historiques perpétuent les discriminations passées
  • ✓ La représentativité doit être intentionnellement recherchée
  • ✓ L'audit des données est une étape essentielle avant tout développement
  • ✓ Certains biais peuvent être impossibles à corriger complètement