Les enjeux de l'éthique dans l'IA
Sélectionnez un chapitre
Vous avez sûrement entendu parler de la voiture autonome de Uber qui ont tué des personnes, mais encore des outils de recrutement d'Amazon qui semblaient avoir des critères de recrutement de genre. Tous les algorithmes qui se cachent derrière contiennent les fameux biais algorithmiques. Que sont ces biais ? Des résultats erronés causés par des erreurs de méthode et causées par des préconçus humains ou mathématiques. On en distingue trois types : les biais statistiques, systématiques et cognitifs. Quels sont les enjeux de l'éthique dans l'IA ? Virginie, spécialiste du sujet et responsable R&D et Data chez Teamwork, nous parle de son métier et des cas concrets concernant les enjeux des biais algorithmiques dans l'IA.
Hello Virginie, peux-tu te présenter ?
Je suis directrice de la R&D chez TeamWork et cheffe d'équipe au sein du département de Data. Nous travaillons principalement autour de l’IA, Machine Learning, Big Data ou Data Intégration. Je suis également docteure en IA depuis 2003 et passionnée par le sujet des biais algorithmiques.
Qu'est ce que couvre l'éthique et l'IA ?
Afin de répondre à cette question, parlons d'un article datant de 2018 : Amazon crée un système informatique triant les CV.
D'abord, l'entreprise reçoit une grande quantité de CVs que les RH n’ont pas le temps d’analyser individuellement. Chaque CV reçu obtient une note de 1 à 5 étoiles. Il se trouve que les candidats ne sont pas notés de manière égale, si ce sont des hommes ou des femmes. En effet, les femmes sont automatiquement sous notées par rapport aux hommes, à compétences et travail égal. Quelles en sont les raisons ? Majoritairement les personnes étant recrutées dans la tech ayant servi à l’apprentissage de ce modèle étaient des hommes. Ce modèle d'IA les a donc favorisé.
L’IA et le Machine Learning entrent en jeu à ce moment, mais plus particulièrement le Machine Learning. On remplace le programme par un modèle qui aura été fait en amont par une phase d'apprentissage utilisant deux choses:
- Elle utilise un algorithme d'apprentissage qui est basé sur des statistiques écrit par des chercheurs et les grands laboratoires de recherche publics ou privés.
- Elle va fournir des données d’exemples. Les données des personnes rentrent dans l’algorithme d’apprentissage, créant un modèle faisant exactement ce que le code écrit par l'homme demande.
En prenant le cas d’Amazon, les RH ont mis les CV des candidats qu’ils avaient embauchés en entrée et les ont passés dans un algorithme de classification basé sur du Natural Language Processing (du NLP, soit du traitement du texte) et ont obtenu le modèle de notation des CV donnant une note de 0 à 5. Le problème est dans les CV des candidats embauchés : nous avons une sur-représentativité des hommes par rapport aux femmes, donc statistiquement l'algorithme est complètement impartial. Pour cet algorithme, être une femme n’est pas un critère favorable pour être recruté. De la même manière que pour lui, il n’y a pas de différence entre homme et femmes, et entre quelqu’un qui maîtrise le Python ou le Java.
Quelle est la différence entre IA et Machine Learning ?
L'IA représente toute une branche scientifique remontant aux années 50, dont le but est de remplacer un programme qui a été écrit par un développeur, et qui va simuler les capacités cérébrales de l'homme pour répondre une problématique (plus ou moins complexe). Cela peut être la reconnaissance de personnes, différencier des animaux ou encore classer des produits. Comment donner vie à ce programme ? Aucune vraie définition ne dicte l’IA, et il existe plusieurs manières de faire de l’IA, un terme qui reste pour beaucoup utilisé à mauvais escient. Le Machine Learning est quant à lui une branche de l'IA ayant explosé, et consistant à réaliser cet apprentissage en faisant ingurgiter à notre algorithmes des données. En regardant les datasets, plusieurs failles peuvent s’immiscer et être problématiques. Aucune volonté néfaste du créateur de logiciel n'existe mais le problème survient au biais présent dans le dataset.
Exemple du cas : Google Photos
Encore une fois un exemple semblable à celui d’Amazon, celui de Google Photos. Lorsque vous prenez une photo, l’algorithme identifie ce qui est présent sur la photo. Un cas d'usage : un couple afro-américain s'est pris en photo et l’algorithme les a identifié comme étant des gorilles dû à leur couleur de photo. Un biais d’apprentissage sur cet algorithme de Google s’est produit car c’était des peaux blanches qui étaient représentées dans le test. Google a alors éliminé la catégorie gorille, ce qui induit que, si vous prenez des gorilles en photo, vous n'aurez pas de résultats. Cette question de sous représentativité est réellement importante. Il faut essayer d'être le plus égalitaire possible par rapport à sa cible.
Exemple du cas : La voiture Uber
La voiture autonome d'Uber est aussi un cas d'usage fréquent : une dame traversait avec son vélo de nuit, une voiture l'a alors écrasée. On a analysé pendant plus d'un an ce qui s'était passé. Ici, plusieurs raisons expliquent l’accident. D'abord, le piéton n'a pas été reconnu comme piéton au loin. Pourquoi l'algorithme ne l'a-t-il pas reconnu ? Tout simplement parce que dans le dataset d'origine, les piétons étaient toujours sur un passage piéton. Il s'agit dans dans ce cas d’un biais cognitifs. C'est-à-dire que les personnes n'ont pas pensé au fait qu'un piéton n'était pas forcément quelqu'un sur un passage piéton. Le but de l'algorithme est de reproduire la réalité des données après l'apprentissage. Comment est-ce que l'algorithme peut-il ne pas reproduire les différentes inégalités qui sont visibles dans la réalité ?
Si nous donnons à l’algorithme un dataset représentant la réalité, l’algorithme ne sera pas bon car il sera forcément biaisé. Il faudrait réfléchir à faire un dataset étant le plus juste et égalitaire possible. Sinon, il s'agirait de mettre en place le dataset uniquement dans un environnement où, effectivement, la représentativité par rapport à la réalité est présente.
Chez Google par exemple, et dans le cas de discriminations raciales dans les algorithmes, un modèle peut tout à fait être biaisée dans la reconnaissance de visage sur le campus Google, car les personne rencontrées sur le campus Google sont majoritairement des personnes blanches. Un tel algorithme déployé à l'échelle mondiale peut rapidement être assujettis à controverse. Plusieurs moyens pour éliminer ces biais dans les dataset existent.
L’Europe dans tout ça ?
L’Europe a publié un projet de réglementation pour encadrer l’usage de l’IA en Europe qui s’appliquerait en Europe et aux Européens. Le texte n’a toujours pas été validé par les commissions. Que dit ce projet de loi ? Il place les applications de l’IA sous trois catégories :
- Les bonnes catégories : sans risques. Il s’agit d’un guide de bonne conduite à suivre
- Le niveau à haut risque : Il s’agit d’applications concernant l’humain. Par exemple, les voitures autonomes sont des applications à haut risque, car elles comportent un risque pour les humains. Dans ce cas, il faudra obtenir un label CE sur l'algorithme qui certifiera le droit de commercialisation de l'application en question. Si la personne qui a créé le modèle n'a pas fait ce label CE, elle ne pourra pas le commercialiser et l'utiliser. Vous n'avez pas le droit de commercialiser, pas le droit d'utiliser
- Les applications sont interdites. Par exemple, la surveillance généralisée individuelle est interdite dans la réglementation. Ce qui se fait par exemple en Chine est formellement marqué comme étant interdit. Par ailleurs la surveillance généralisée individuelle n'est pas autorisée mais la surveillance individuelle localisée l'est, dans la cas de la criminalité par exemple.
La surveillance permanente pourrait cependant être utilisée pour des alertes d'enlèvement, auxquels cas seront mis en place des caméras de reconnaissance de la personne enlevée, afin de la reconnaître au plus vite possible.
Que penses-tu de l'idée de créer un commissaire sur la sincérité des données et des algorithmes?
Nous sommes tous biaisés car nous sommes humains, notre objectif est justement de débiaiser nos modèles pour qu'ils soient le plus neutre possible. L’idée serait d’avoir plusieurs personnes travaillant ensemble sur ces sujets. C’est ce que propose la Communauté européenne, c’est-à-dire avoir des sociétés d'audit qui aurait un certain cahier des charges à respecter avec un certain nombre de biais à surveiller ce genre de chose après. L'idée serait également de diversifier les équipes Data ! Une personne ayant grandit en ville, en campagne, étant une femme, une homme, à patrimoine ou niveau de richesse variable aura des biais extrêmement variables.
Le fond du problème du biais vient-il du dataset ou de la conception qu'il y a derrière les algorithmes?
L'algorithme est neutre. Il cherche statistiquement le plus parlant et le plus simple à détecter. Les Data sets ne sont pas neutres et c'est là que se trouvent les biais. La difficulté réside dans cette analyse des datasets. Pendant longtemps, il y a eu un gros effort qui a été fait sur les algorithmes d'apprentissage.
Si vous souhaitez vous former au Machine Learning, n'hésitez pas à vous renseigner sur nos formations Data Science. En complément, nous offrons désormais une formation spécialisée en Prompt Engineering avec ChatGPT, conçue pour vous équiper des compétences nécessaires à la création de prompts efficaces et à la gestion des interactions avec des modèles de langage avancés. Cette formation est idéale pour ceux qui cherchent à approfondir leur expertise en IA et à explorer les nouvelles frontières de la technologie conversationnelle.