Clara Jean, ingénieure R&D à Epitech, a soutenu sa thèse intitulée « Four Essays in Digital Economics: Algorithmic Bias and Personal Data » le 20 mai dernier, réalisée au sein d’Epitech et en partenariat avec l’Université Paris-Saclay. Les résultats de cette thèse souligne notamment la sensitivité des algorithmes à la personnalisation du texte dans la publicité, aux événements aléatoires et à la quantité d’information disponible dans les grands centres de population. Nous avions échangé il y a quelques semaines avec Clara, suite à son intervention sur l’impact des algorithmes dans le développement des stéréotypes de genre, lors d’une table ronde autour du thème « Désert féminin en industrie : les entreprises, seules engagées ? »
Parcours et domaine de recherche de Clara Jean
« Je suis actuellement doctorante en science économique à l’Université Paris-Saclay et ingénieure R&D à Epitech sous la direction de Grazia Cecere et Fabrice Le Guel. En 2019, j’étais chercheuse invitée au département d’économie de l’Université de Clemson, Caroline du Sud (États-Unis). »
« Mes recherches portent sur les biais algorithmiques et les stéréotypes en ligne. En 2019, j’ai reçu le prix Marie-Dominique Hagelsteen (recherche) pour une publicité responsable par l’Agence de Régulation Professionnelle de la Publicité (ARPP), et a reçu une bourse de l’Université Paris-Saclay pour organiser un atelier sur le ‘Natural Language Processing’ et les préjugés sexistes. Mes recherches actuelles portent sur les comportements d’algorithmes en ligne dans le contexte de la publicité dans les filières STEM. »
La problématique des stéréotypes de genre
« Les stéréotypes de genre, c’est tout d’abord une croyance qu’une personne peut avoir envers des caractéristiques des membres d’un groupe. En ce qui concerne plus particulièrement les stéréotypes de genre, on peut les définir comme des « caractéristiques arbitraires que l’on attribue à un groupe de personnes en fonction de leur sexe« . La table ronde était organisée par Polytech Grenoble dans le cadre des « Semaines de l’égalité » sur les stéréotypes de genre. J’ai participé à cette table ronde aux côtés d’autres intervenants de Capgemini et de Eaton pour apporter un point de vue ‘recherche’ sur cette problématique à travers la thèse que je fais à Epitech. »
« Le thème de la table ronde était : Désert féminin en industrie : les entreprises, seules engagées ? »
Une faible représentativité des femmes en école d’ingénieur
« Le constat est partagé par tous : peu de femmes s’orientent dans des filières scientifiques et techniques en poursuite d’études supérieures alors qu’elles représentent plus de 47% des effectifs de terminale S (41,9 % des élèves des terminales scientifiques (S, STI2D et STL)) et que leur taux de réussite au baccalauréat est supérieur à celui des garçons (93% contre 90% en 2018). Elles ne sont plus que 27,7 % à être présentes en écoles d’ingénieur. »
Les entreprises s’interrogent sur leur capacité à attirer ces potentiels féminins dans leur secteur.
« Mais comment expliquer ce désintérêt des femmes dans les domaines STEM (science, technologie, ingénierie et mathématiques) alors que la numérisation de notre économie, en marche depuis plusieurs années dans la plupart des secteurs économiques, met en avant la transformation des emplois et l’apparition de nouveaux profils professionnels dans ces domaines ? Les entreprises, bien conscientes de ces enjeux, s’interrogent sur leur capacité à attirer ces talents, ces potentiels féminins dans leur secteur. Depuis quelque années, les entreprises mettent en place des stratégies pour lutter contre les stéréotypes sur l’industrie, en travaillant d’une part sur une déconstruction d’une vision genrée des métiers et d’autre part sur la mise en place de politiques de ressources humaines garantissant aux femmes, une égalité de chance dans leur carrière. »
Les questions abordées lors de la table ronde
- Les entreprises sont-elles les seuls leviers envisageables pour faire bouger les représentations ?
- Quelle est la part de responsabilité, d’engagement du reste de la société ?
- Sommes-nous capables d’exploiter toutes les opportunités offertes par la numérisation de la société pour accélérer ce changement ?
- Comment pouvons-nous agir sur des aprioris déjà existants ?
Quelles solutions pour faire évoluer ces stéréotypes ?
« J’ai présenté mes travaux de recherche sur la reproduction des stéréotypes en ligne. A travers une première étude, nous avons mes co-auteurs et moi-même, cherché à savoir quels étaient les moyens de réduire les biais algorithmiques liés au genre. Les résultats montrent l’importance d’utiliser un message axé sur le genre pour toucher le public féminin et réduire l’écart d’affichage des publicités entre les hommes et les femmes lorsque les publicités concernent les filières scientifiques. »
Ce problème n’était pas uniquement cantonné au genre.
« A travers une seconde étude, nous avons cherché à savoir quelles sont les sources potentielles de distorsion dans l’affichage publicitaire. Les résultats montrent que les algorithmes sont dictés par les préférences d’individus situés dans les grands centres de population, ainsi que par la sensibilité des algorithmes aux événements aléatoires, en particulier en cas de rareté de données qui a une incidence sur la durée de la phase d’apprentissage de l’algorithme. »
« J’ai montré que ce problème n’était pas uniquement cantonné au genre avec la difficulté de réguler du contenu en ligne aux moyens des algorithmes via une troisième étude dans laquelle on examine une approche algorithmique pour réguler la publicité politique dans le contexte de la pandémie. Les résultats montrent que les publicités diffusées par des organisations gouvernementales pour informer la population sur le COVID-19 sont plus susceptibles d’être interdites par l’algorithme de Facebook que les publicités diffusées par des organisations non gouvernementales.
Quand des algorithmes reproduisent les stéréotypes en ligne
Il existe une reproduction des stéréotypes en ligne par les algorithmes dans le cadre de la publicité. Ce résultat peut s’expliquer par :
- Les femmes sont plus chères à cibler que les hommes (effet compétition) et l’algorithme cherche à maximiser le budget de l’annonceur en diffusant des publicités STEM davantage aux hommes (Lambrecht et Tucker, 2020)
- Entrainement sur des bases de données biaisés qui ne permet pas de contrebalancer ce biais (Kleinberg et al., 2019)
- Rôle des grands centres de population pour déterminer la diffusion pour les centres de population plus petits
- Effet d’apprentissage qui n’est pas aboutit
- Sensibilité des algorithmes aux évènements aléatoires
Quelles recommandations ?
« On peut déjà envisager deux types de recommandations :
- Importance de l’objectif que l’on souhaite atteindre dans le cadre de la publicité en ligne en particulier lorsqu’on cherche à cibler le genre
- Utilisation de message axé sur le genre pour atteindre les femmes dans les filières STEM »
Comprendre les causes pour faire évoluer les stéréotypes
« Epitech s’intéresse à cette problématique des stéréotypes de genre, premièrement car elle en est principalement touchée : il y a une faible représentation féminine parmi les effectifs d’étudiant.e.s à Epitech. Cette sous-représentation soulève des enjeux important liés à l’innovation des projets réalisés par les étudiant.e.s . L’école a donc cherché à comprendre, à travers une approche « recherche » qu’elle finance, les causes de la reproduction des stéréotypes notamment en ligne qui ne lui permettent pas d’atteindre une plus grande mixité de genre au sein de ses effectifs d’étudiant.e.s. »
La thèse soutenue par Clara Jean
La thèse est composée de 4 chapitres de thèse, dont chacun inclus une expérimentation de terrain différente afin de mieux comprendre les mécanismes de décision des algorithmes, mais aussi de souligner les inefficacités économiques et les défis inhérents à la régulation des algorithmes.
Les résultats de cette thèse soulignent notamment la sensitivité des algorithmes à la personnalisation du texte dans la publicité, aux événements aléatoires et à la quantité d’information disponible dans les grands centres de population. La thèse pointe également à travers ses résultats la difficulté des algorithmes à correctement réguler le contenu publicitaire, en particulier lorsqu’il est lié à des enjeux sanitaires. Enfin, le dernier chapitre montre les différences de comportements entre les sites Internet français et américains envers le partage de données personnelles et fournit des preuves d’échange de données personnelles entre sites Internet.
Les implications sont multiples :
- Pour les plateformes, avec des évidences d’inefficacités économiques qui sont générées à travers un objectif d’apprentissage accéléré de l’algorithme et de l’incapacité de l’algorithme à correctement classifier les contenus publicitaires.
- Pour les entreprises, où les résultats montrent une meilleure réalisation des objectifs grâce à une annonce adaptée, le recours au « A/A testing », ainsi qu’un processus d’apprentissage de la part des publicitaires peut être atteint.
- Pour les décideurs publics, où le rôle de l’apprentissage algorithmique peut être considéré dans un objectif de régulation ainsi qu’un plus grand contrôle humain sur les décisions prises par les algorithmes. De manière plus large, la thèse de Clara Jean souligne la question des normes de réglementation pour les contenus liés à la santé et les défis réglementaires quant au marché des données personnelle.