Les modles d’IA restent racistes, mme avec une formation plus quilibres, selon un rapport du NIST

Les prjugs algorithmiques sont un problme que le gouvernement amricain tente de rsoudre. Le National Institute of Standards and Technology (NIST) a publi cette semaine un rapport qui aboutit des conclusions similaires. Selon le NIST, les algorithmes d’IA peuvent toujours tre entachs de prjugs raciaux, mme s’ils sont forms sur des donnes plus reprsentatives de diffrents groupes ethniques.

Une quipe internationale de chercheurs a analys la prcision des algorithmes prdire divers comportements cognitifs et mesures de sant partir de scanners IRMf du cerveau, tels que la mmoire, l’humeur et mme la force de prhension. Les ensembles de donnes mdicales sont souvent biaiss ils ne sont pas collects partir d’un chantillon suffisamment diversifi, et certains groupes de la population sont laisss de ct ou mal reprsents.

a

Il n’est pas surprenant que les modles prdictifs qui tentent de dtecter le cancer de la peau, par exemple, ne soient pas aussi efficaces lorsqu’ils analysent des teints foncs que des teints clairs. Les ensembles de donnes biaiss sont souvent l’origine du fait que les modles d’IA sont galement biaiss. Mais un article publi dans Science Advances a rvl que ces comportements indsirables des algorithmes peuvent persister mme s’ils sont forms sur des ensembles de donnes plus quitables et diversifis.

L’quipe a ralis une srie d’expriences avec deux ensembles de donnes contenant des dizaines de milliers de scans IRMf du cerveau de personnes y compris des donnes provenant du Human Connectome Project et de l’Adolescent Brain Cognitive Development. Afin de sonder l’impact des disparits raciales sur les performances des modles prdictifs, ils ont essay de minimiser l’impact que d’autres variables, comme l’ge ou le sexe, pourraient avoir sur la prcision.

Lorsque les modles prdictifs ont t forms sur des donnes domines par des Amricains blancs (WA), les erreurs de prdiction hors chantillon taient gnralement plus leves pour les Afro-Amricains (AA) que pour les WA , peut-on lire dans l’article. Cela ne devrait pas poser de problme, mais ce qui est intressant, c’est que ces erreurs n’ont pas disparu, mme lorsque les algorithmes ont t forms sur des ensembles de donnes contenant des chantillons provenant d’une reprsentation gale de WA et de AA, ou uniquement de AA.

Les algorithmes entrans uniquement sur des chantillons de donnes provenant de AA n’taient toujours pas aussi prcis pour prdire les comportements cognitifs du groupe de populations que ceux entrans sur les WA l’taient pour les WA, ce qui va l’encontre de la comprhension commune du fonctionnement normal de ces systmes. Lorsque les modles ont t forms uniquement sur les AA, par rapport la formation uniquement sur les WA ou sur un nombre gal de participants AA et WA, la prcision de la prdiction des AA s’est amliore, mais est reste infrieure celle des WA , poursuit le rsum. Pourquoi ?

Les chercheurs ne savent pas exactement pourquoi le modle se comporte ainsi, mais ils pensent que cela pourrait tre d la faon dont les donnes ont t collectes. Pour l’instant, il est difficile de dire d’o vient la diffrence de prcision de prdiction WA-AA qui subsiste lorsque le modle n’a t entran que sur AA , a dclar Li, chercheur postdoctoral l’Institut des neurosciences et de la mdecine, du cerveau et du comportement du Centre de recherche Jlich en Allemagne.

Plusieurs tapes du prtraitement de la neuro-imagerie pourraient avoir influenc le rsultat. Par exemple, pendant le prtraitement, une convention consiste aligner les cerveaux des individus sur un modle de cerveau standard afin que les cerveaux individuels puissent tre compars. Mais ces modles de cerveau ont gnralement t crs partir de la population blanche.

Idem pour les atlas fonctionnels prdfinis, o les voxels des images crbrales peuvent tre regroups en rgions sur la base de leur homognit fonctionnelle… Mais la dlimitation de ces atlas fonctionnels tait l encore souvent base sur des ensembles de donnes prdomins par la population blanche ou europenne en termes de taille d’chantillon.

Les modeles dIA restent racistes meme avec une formation plus

Composition ethnique/raciale dans nos ensembles de donnes et les atlas crbraux utiliss pour le calcul du RSFC.

Composition des sous-populations de (A) HCP et (B) ABCD et ROIs de connectivit fonctionnelle. Notons que la dnomination des catgories ethniques/raciales dans (B) a suivi la dfinition donne par le consortium ABCD, qui tait lgrement diffrente de la dfinition du National Institutes of Health. (C) La parcellation corticale 400 aires drive par Schaefer. Les couleurs des parcelles correspondent 17 rseaux grande chelle. (D) Dix-neuf ROIs sous-corticaux de l’atlas de Deskian/Killiany.

Une autre raison pourrait tre que les donnes recueillies auprs des patients ne sont pas tout fait exactes. On peut galement se demander si les tests psychomtriques que nous utilisons aujourd’hui saisissent effectivement le concept psychologique sous-jacent correct pour les groupes minoritaires , a-t-elle ajout.

Lorsque les algorithmes ont t appliqus l’ensemble de donnes du Human Connectome Project, ils se sont avrs plus prcis pour prdire si les AO taient plus susceptibles d’tre en colre ou agressifs ou s’ils avaient de meilleures capacits de lecture. La mme tentative de faire ces prdictions s’est avre moins fructueuse avec la cohorte AA.

Selon Li, cette tude ne confirme pas l’existence de mesures neurobiologiques ou psychomtriques qui diffrent selon les populations en raison de leur origine ethnique. Elle souhaite plutt souligner qu’il ne suffit pas de disposer d’un ensemble de donnes plus diversifi pour que les algorithmes d’IA soient moins biaiss et plus justes.

Je ferais trs attention ne pas faire de dclaration disant que WA et AA sont diffrents dans ces mesures neurobiologiques ou psychomtriques simplement en raison de leur ethnicit. Comme nous l’avons galement discut dans le document, l’ethnicit ou la race est un concept tellement complexe qui prend en compte tous les facteurs historiques, socitaux et ducatifs. Nous ne voulons pas renforcer les strotypes raciaux ou accrotre le racisme structurel. Au contraire, l’objectif de ce document est de plaider pour une plus grande quit entre les groupes ethniques dans le contexte spcifique de l’analyse par neuro-imagerie.

Les tentatives actuelles pour remdier aux effets nfastes du biais de l’IA restent axes sur des facteurs informatiques tels que la reprsentativit des ensembles de donnes et l’quit des algorithmes d’apprentissage automatique, peut-on lire dans le rapport. Ces remdes sont essentiels pour attnuer les prjugs, et il reste encore beaucoup faire. Pourtant, les facteurs institutionnels et socitaux humains et systmiques sont galement des sources importantes de biais de l’IA, et sont actuellement ngligs.

Pour l’ensemble de donnes HCP, les participants AA ont d’abord t rpartis alatoirement en 10 groupes. Dans chaque groupe de AA, un appariement hongrois a t effectu afin d’assigner un participant WA (sans rptition) chaque AA individuel de sorte que les diffrences entre les AA et WA apparis dans les scores comportementaux et les variables confusionnelles soient minimises.

Les modles prdictifs ont t entrans sur neuf plis et tests sur le pli restant de manire valide par croisement. Suivant l’approche dominante pour construire des modles prdictifs dans ce domaine, qui mlange habituellement tous les groupes ethniques/raciaux dans un ensemble de donnes, les AA et WA apparis des plis d’entranement ont t regroups avec 90 % des participants slectionns au hasard dans d’autres groupes ethniques/raciaux et les WA et AA non apparis.

L’ensemble de la procdure a t rpt alatoirement 40 fois afin de s’assurer que les rsultats n’taient pas influencs par la division initiale des dossiers. Pour 51 des 58 mesures comportementales totales, les AA et les WA ont pu tre apparis.

Matriels et mthodes

Rgression par la mthode Kernel Ridge

Chaque mesure comportementale des deux ensembles de donnes a t prdite sparment l’aide de la mthode Kernel Ridge. Les chercheurs ont utilis cette approche, car elle permet de prdire efficacement les mesures comportementales tout en ayant un faible cot de calcul. Supposons que ys et yi dsignent la mesure comportementale (par exemple, la mmoire pisodique) du participant au test s et du participant l’entranement i, respectivement. Que cs et ci dsignent le RSFC vectoris (entres triangulaires infrieures des matrices RSFC) du participant au test s et du participant l’entranement i, respectivement.

Ensuite, en gros, la rgression par noyau prdit ys comme la moyenne pondre des mesures comportementales de tous les participants l’entranement, c’est–dire ys≈∑i∈training setSimilarity(cs,ci)yi.

Ici, Similarity(cs, ci) tait dfini par la corrlation de Pearson entre le RSFC vectoris du participant au test et du ime participant la formation. Par consquent, une prdiction russie indiquerait que les participants ayant un RSFC plus similaire ont des scores comportementaux similaires. Pour rduire l’ajustement excessif, un terme de rgularisation l2 a t inclus. Plus de dtails sont disponibles dans les mthodes supplmentaires.

Pour l’ensemble de donnes HCP, les chercheurs ont effectu une validation croise embote 10 fois en prservant la structure de la famille. Pour chaque pli de test, les paramtres de rgression du noyau ont t estims partir de tous les groupes ethniques/raciaux dans les neuf plis de formation. Une validation croise 10 fois a ensuite t effectue sur les neuf dossiers d’apprentissage avec diffrents paramtres de rgularisation l2 λ pour slectionner de manire optimale la valeur de λ.

Les paramtres estims des dossiers d’apprentissage ont ensuite t utiliss pour prdire le comportement des participants dans le dossier de test. tant donn qu’une seule validation croise 10 fois peut tre sensible la division particulire des donnes en plis 30, la validation croise 10 fois ci-dessus a t rpte 40.

Les variables de confusion que sont l’ge, le sexe, la FD, le DVARS, le volume intracrnien, l’ducation et le revenu du mnage ont t limines par rgression partir des donnes comportementales et des donnes RSFC. Pour tudier les effets de la rgression des variables confusionnelles sur les biais du modle, les chercheurs ont galement rpt l’analyse principale sans rgression des variables confusionnelles.

Pour l’ensemble de donnes ABCD, tous les participants ont t rpartis en 10 plis. Les paramtres de rgression la mthode Kernel Ridge ont t estims partir de sept plis et appliqus aux trois plis restants pour les tests, ce qui a donn 120 combinaisons formation-test. La validation croise 10 fois a t effectue sur les 7 plis d’entranement pour slectionner le paramtre de rgulation optimal λ.

Les variables confusionnelles d’ge, de sexe, de FD, de DVARS, de volume intracrnien et d’ducation parentale ont t rgresses partir des donnes de comportement et de RSFC. Comme pour l’ensemble de donnes HCP, les chercheurs ont galement rpt l’analyse principale sans rgression des variables confusionnelles. Le revenu du mnage n’a pas t inclus en raison du grand nombre de valeurs manquantes (93 des 635 participants AA ont refus de rpondre ou avaient un revenu inconnu).

Pour sassurer que les rsultats ne sont pas spcifiques aux modles de rgression Kernel Ridge, les chercheurs ont galement utilis la rgression ridge linaire comme mthode auxiliaire pour les deux ensembles de donnes. Les procdures de formation et de test taient les mmes que celles utilises pour la rgression Kernel Ridge. Les hyperparamtres optimaux slectionns pour ces deux mthodes sont rpertoris dans le tableau S3 pour chaque mesure comportementale.

Deux mesures de prcision ont t considres : la COD prdictive et la corrlation de Pearson. Pour chaque pli de test, la COD prdictive de l’AA a t dfinie comme 1 – SSEAA/SST, o SSEAA=∑i∈test AA(yi-yi)2/Ntest AA (yi et yi sont le score comportemental original et le score prdit du ime participant au test AA, respectivement ; Ntest AA est le nombre d’AA dans l’ensemble de test), c’est–dire l’EQM. Le dnominateur SST = ∑j ∈ train AA&WA(yj – mean(ytrain AA&WA))2/Ntrain AA&WA reprsentait la variance comportementale totale apprise partir de l’ensemble de formation.

Le COD prdictif de WA a t dfini comme 1 – SSEWA/SST, o SSEWA=∑i∈test WA(yi-yi)2/Ntest WA et SST tait le mme que AA car la variance totale n’tait pas suppose ici tre spcifique au groupe. La corrlation de Pearson a galement t calcule sparment pour chaque pli de test. Pour l’ensemble de donnes HCP, la moyenne de la DCO prdictive ou de la corrlation de Pearson a t calcule sur 10 plis pour chaque division de donnes, ce qui a donn 40 valeurs de prcision. Pour l’ensemble de donnes ABCD, les 120 valeurs de prcision correspondant 120 fractionnements de donnes n’ont pas t moyennes, mais directement prsentes dans les boxplots de la section Rsultats.

Diffrence de prcision entre AA et WA

Pour chaque ensemble de donnes et chaque mesure de prcision, les chercheurs ont dtermin que les comportements taient prvisibles ou non en fonction de deux critres :

  • la prcision parmi tous les participants au test, y compris les AA, les WA et les autres ethnies/races, qui a survcu au test de permutation par blocs plusieurs niveaux (94) en mlangeant 1000 fois les scores comportementaux prdits (avec correction FDR pour tous les comportements) ;
  • les prcisions moyennes parmi les divisions de donnes taient positives pour les AA ou les WA.

Pour chaque comportement prvisible, la diffrence de prcision entre les AA et les WA apparis a t value par un test de permutation, o la distribution nulle a t construite en recalculant les prcisions en mlangeant 1000 fois les tiquettes des groupes. Les comparaisons multiples ont t contrles avec un FDR < 0,05.

Influence de la population d’entranement

Pour explorer les effets de la population statistique, les chercheurs ont entran le modle de rgression Kernel Ridge spcifiquement sur des sous-chantillons uniquement AA ou uniquement WA sparment. Concrtement, les chercheurs ont slectionn tous les AA dans les plis d’entranement.

Dans chaque site de formation slectionn pour les AA, ils ont slectionn alatoirement le mme nombre de WA. Notons que pour certains sites, le nombre total de WA tait infrieur celui des AA ; par consquent, des AA alatoires ont t exclus pour correspondre au nombre de WA. Le modle de prdiction a ensuite t entran sur les AA ou les WA slectionns, ou les deux, et test sur les AA et WA apparis, de la mme manire que lorsque le modle a t entran sur les ensembles de donnes complets.

Source : NIST

Et vous ?

GPT 3 peut executer du code rechercher une valeur dans une Que pensez-vous des prjugs algorithmiques dans les modles d’IA ? Quelles solutions selon vous ?

Voir aussi :

GPT 3 peut executer du code rechercher une valeur dans une Une nouvelle interface cerveau-ordinateur permet un homme de communiquer avec son fils et de lui demander une bire

GPT 3 peut executer du code rechercher une valeur dans une Le scandale nerlandais est un avertissement pour l’Europe sur les risques lis l’utilisation des algorithmes, l’administration fiscale a ruin des milliers de vies avec un algorithme

GPT 3 peut executer du code rechercher une valeur dans une Le gnrateur d’images de l’IA DALL-E d’OpenAI peut dsormais modifier des photos, les chercheurs peuvent s’inscrire pour le tester

GPT 3 peut executer du code rechercher une valeur dans une Une IA de nouvelle gnration, appele Nook, bat plusieurs champions du monde de bridge, le logiciel d’ IA est dvelopp par la startup franaise

We want to give thanks to the author of this post for this awesome web content

Les modles d’IA restent racistes, mme avec une formation plus quilibres, selon un rapport du NIST

Check out our social media profiles as well as other pages that are related to them.https://www.ai-magazine.com/related-pages/