Activité 3 - Le Biais de Sélection des Données

Introduction : Le Principe "Garbage In, Garbage Out"

Le biais de sélection survient lorsque les données utilisées pour entraîner un système d'IA ne sont pas représentatives de la population ou de la réalité qu'il est censé modéliser. C'est l'un des biais les plus courants et les plus dangereux car il est souvent invisible jusqu'à ce que le système soit déployé.

Principe fondamental

Une IA n'apprend que ce qui est présent dans ses données d'entraînement. Si les données sont biaisées, l'IA sera biaisée. Si certains groupes sont sous-représentés ou mal représentés, l'IA ne saura pas bien les traiter. C'est mathématiquement inévitable.

Cas d'Étude 1 : Amazon et le Recrutement Automatisé

🏢

Amazon HR Tool (2014-2018)

Discrimination systématique des candidatures féminines

Contexte

En 2014, Amazon a développé un outil d'IA pour automatiser le tri des CV et identifier les meilleurs candidats pour des postes techniques. L'objectif était de gagner du temps et d'améliorer l'objectivité du recrutement.

Les Données d'Entraînement

Source des données

10 ans de CV soumis à Amazon (2004-2014)

Composition

Majorité écrasante de CV masculins pour les postes techniques

Historique de recrutement

Principalement des hommes embauchés dans le passé pour ces postes

Le Biais Découvert

Problème identifié : L'IA pénalisait systématiquement :

Les CV contenant le mot "femme" (ex: "capitaine de l'équipe de football féminine")
Les diplômées de deux universités exclusivement féminines
Subtilement, d'autres indicateurs corrélés au genre

Pourquoi est-ce arrivé ?

Données historiques biaisées

Le secteur tech était (et reste) majoritairement masculin. Les données reflétaient cette réalité historique discriminatoire.

Apprentissage de corrélations

L'IA a appris que "être un homme" était corrélé avec "être recruté". Elle a transformé cette corrélation en critère de sélection.

Amplification du biais

Au lieu de corriger le biais historique, l'IA l'a automatisé et amplifié en le rendant systématique.

Conséquence

2018

Projet abandonné après 4 ans de tentatives de correction

Amazon a finalement abandonné le projet, reconnaissant l'impossibilité de garantir l'absence de biais avec ces données.

Votre analyse - Groupe 1

Question : Identifiez au moins 3 décisions différentes qui auraient pu être prises en amont pour éviter ce problème.

Cas d'Étude 2 : COMPAS et la Justice Prédictive

⚖️

COMPAS (Correctional Offender Management Profiling)

Biais racial dans l'évaluation du risque de récidive

Contexte

COMPAS est un algorithme utilisé par les tribunaux américains pour évaluer le risque qu'un prévenu récidive. Il influence les décisions de libération conditionnelle et de détermination des peines.

Le Biais Découvert (ProPublica, 2016)

Groupe	Taux de faux positifs	Taux de faux négatifs	Impact
Prévenus noirs	45%	23%	Risque surévalué : personnes classées à haut risque alors qu'elles ne récidivaient pas
Prévenus blancs	23%	48%	Risque sous-évalué : personnes classées à faible risque mais qui récidivaient

Conséquence concrète

À niveau de risque réel équivalent, une personne noire avait 2 fois plus de chances d'être classée "haut risque" qu'une personne blanche, impactant directement la durée d'incarcération.

Sources du Biais

Données historiques

Entraîné sur des données d'arrestations et de condamnations passées, déjà biaisées par le profilage racial dans les forces de l'ordre.

Variables proxy

L'algorithme utilisait des variables comme le code postal, le niveau d'éducation, qui sont des "proxies" (substituts) pour la race.

Boucle de rétroaction

Plus de surveillance dans certains quartiers = plus d'arrestations = données encore plus biaisées.

Votre analyse - Groupe 2

Question : Pourquoi est-il particulièrement problématique d'utiliser l'IA dans le système judiciaire ? Quels principes fondamentaux sont en jeu ?

Cas d'Étude 3 : Reconnaissance Faciale et Biais Ethnique

📸

Systèmes de Reconnaissance Faciale

Taux d'erreur variables selon l'ethnie et le genre

Résultats de l'Étude MIT (2018)

Groupe démographique	Taux d'erreur moyen	Différence
Hommes à peau claire	0.8%	Référence
Femmes à peau claire	7.1%	×9
Hommes à peau foncée	12.0%	×15
Femmes à peau foncée	34.7%	×43

×43

Une femme noire a 43 fois plus de risques d'être mal identifiée qu'un homme blanc

Origine du Biais

Datasets déséquilibrés

Les datasets d'entraînement (comme ImageNet, LFW) contenaient majoritairement des visages de personnes blanches et masculines, souvent issus de contextes occidentaux. Les femmes et les personnes de couleur étaient largement sous-représentées.

Impacts Réels

Erreurs d'identification judiciaire : Plusieurs cas d'arrestations erronées de personnes noires
Accès refusé : Systèmes de sécurité qui ne reconnaissent pas certaines personnes
Surveillance disproportionnée : Plus de "faux positifs" dans certaines communautés

Votre analyse - Groupe 3

Question : Comment pourrait-on constituer un dataset d'entraînement réellement représentatif pour la reconnaissance faciale ? Quels défis anticipez-vous ?

Synthèse : Les Sources de Biais de Sélection

Type de biais	Description	Exemple
Sous-représentation	Certains groupes sont peu présents dans les données	Peu de femmes dans les données de recrutement tech
Données historiques biaisées	Les données reflètent des discriminations passées	Historique d'arrestations avec profilage racial
Biais de collecte	La méthode de collecte favorise certains groupes	Photos collectées principalement dans des pays occidentaux
Variables proxy	Utilisation de variables corrélées à des attributs protégés	Code postal comme proxy de l'origine ethnique
Biais de survie	Seuls les "succès" sont dans les données	Uniquement les CV de personnes embauchées par le passé
Biais temporel	Les données sont obsolètes	Modèles médicaux basés sur des études d'il y a 20 ans

Exercice de Groupe : Audit de Dataset

Scénario

Votre entreprise souhaite développer un outil d'IA pour l'un des cas suivants (choisissez-en un) :

A. Assistant IA pour le service client
B. Système de recommandation de formations pour les employés
C. Outil d'analyse de CV pour le recrutement
D. Chatbot de conseil en orientation de carrière

Cas choisi :

Question 1 : Identification des risques

Quels types de biais de sélection pourraient affecter les données d'entraînement de ce système ?

Question 2 : Sources de données

D'où viendraient les données d'entraînement ? Quels groupes risquent d'être sous-représentés ou mal représentés ?

Question 3 : Impact potentiel

Si ces biais ne sont pas corrigés, quel impact concret pourrait-il y avoir sur les utilisateurs ?

Question 4 : Stratégies de mitigation

Proposez au moins 3 mesures concrètes pour réduire les biais de sélection dans votre cas.

Bonnes Pratiques pour des Données Équitables

1. Audit de représentativité

Analyser la composition démographique des données et identifier les déséquilibres.

2. Diversification active

Collecter intentionnellement des données de groupes sous-représentés.

3. Données synthétiques

Générer des données artificielles pour équilibrer les groupes minoritaires.

4. Validation croisée

Tester les performances sur différents sous-groupes démographiques.

5. Transparence

Documenter la composition des données et les limites connues.

6. Équipes diverses

Inclure des perspectives variées dans la collecte et l'analyse des données.

Points Clés à Retenir

✓ Les données biaisées créent inévitablement des IA biaisées
✓ Le biais de sélection est souvent invisible jusqu'au déploiement
✓ Les données historiques perpétuent les discriminations passées
✓ La représentativité doit être intentionnellement recherchée
✓ L'audit des données est une étape essentielle avant tout développement
✓ Certains biais peuvent être impossibles à corriger complètement

Activité 3 : Le Biais de Sélection des Données

Objectifs

Introduction : Le Principe "Garbage In, Garbage Out"

Principe fondamental

Cas d'Étude 1 : Amazon et le Recrutement Automatisé

Amazon HR Tool (2014-2018)

Contexte

Les Données d'Entraînement

Source des données

Composition

Historique de recrutement

Le Biais Découvert

Pourquoi est-ce arrivé ?

Données historiques biaisées

Apprentissage de corrélations

Amplification du biais

Conséquence

Votre analyse - Groupe 1

Cas d'Étude 2 : COMPAS et la Justice Prédictive

COMPAS (Correctional Offender Management Profiling)

Contexte

Le Biais Découvert (ProPublica, 2016)

Conséquence concrète

Sources du Biais

Données historiques

Variables proxy

Boucle de rétroaction

Votre analyse - Groupe 2

Cas d'Étude 3 : Reconnaissance Faciale et Biais Ethnique

Systèmes de Reconnaissance Faciale

Résultats de l'Étude MIT (2018)

Origine du Biais

Datasets déséquilibrés

Impacts Réels

Votre analyse - Groupe 3

Synthèse : Les Sources de Biais de Sélection

Exercice de Groupe : Audit de Dataset

Scénario

Cas choisi :

Question 1 : Identification des risques

Question 2 : Sources de données

Question 3 : Impact potentiel

Question 4 : Stratégies de mitigation

Bonnes Pratiques pour des Données Équitables

1. Audit de représentativité

2. Diversification active

3. Données synthétiques

4. Validation croisée

5. Transparence

6. Équipes diverses

Points Clés à Retenir