Marie est passionnée de chiffres depuis son enfance. Elle a travaillé comme data-scientist pour de grands groupes avant d’intégrer le monde des start-ups en tant que directrice technique. Elle nous explique comment la création d’un algorithme peut soulever des questions éthiques et les défis liés à l’intelligence artificielle qui nous attendent dans les prochaines années.

Vous êtes nouvellement installée en Auvergne. Parlez-nous un peu de ton parcours…

Les mathématiques ont toujours été ma matière favorite. Lorsque j’étais au collège, mon père me prêtait ses vieux livres de maths niveau lycée. Je me souviens les prendre sous le bras lorsque nous partions en vacances.

Même si j’avais cette passion, je ne savais pas forcément ce que je voulais faire de ma vie. J’ai un peu choisi mes études supérieures à pile ou face. Pile. École de commerce. Face. École d’ingénieur.

C’est comme cela que je me suis retrouvée en prépa commerce à Hoche à Versailles. Après, j’ai intégré HEC, mais j’ai été frustrée par le manque de disciplines scientifiques. On ne manipulait pas assez les chiffres à mon goût. C’est là que j’ai décidé de me réorienter.

En 2014, J’ai préparé les concours d’ingénieurs pour entrer à Télécom ParisTech. Là-bas, je me suis spécialisée en sciences des données et en calculs distribués.

Vous entrez ensuite dans la vie active comme data scientist ? Sur quels types de missions ?

Ma première mission était pour la RATP. Je devais notamment développer un algorithme pour gérer la recharge des bus électriques de l’entreprise.

Ensuite, j’ai travaillé chez SNCF Réseau pour concevoir un système de détection automatique des défauts sur les pantographes qui pourraient déclencher de gros incidents. A un moment donné, on m’a proposé une offre que je n’ai pas pu refuser : je suis devenue directrice technique pour la start-up StaffMe à Paris.

Je m’occupais du produit, de la tech et de la data. Avec mon équipe, nous devions définir et designer les fonctionnalités, puis prendre en charge le développement web et mobile. Nous devions aussi construire un algorithme permettant de faire matcher des personnes avec des offres d’emplois.

Quelles sont les étapes pour créer un algorithme comme celui-ci ?

StaffMe est une plateforme de mise en relation entre des clients proposant des missions et des personnes pouvant les réaliser. C’est un peu comme une agence d’interim digitalisée, sauf qu’elle cible spécifiquement les auto-entrepreneurs.

Pour créer l’algorithme, nous nous sommes en partie basés sur le machine learning (apprentissage automatique). Plutôt que d’écrire des règles de fonctionnement complexes, nous laissons l’algorithme trouver sa propre logique.

Pour que cela fonctionne, nous lui mettons à disposition un jeu de données basé sur l’historique de la plateforme : description de mission, satisfaction client, satisfaction entrepreneurs, etc…On lui demande de prédire quelle mission proposer à quel profil. Cela permet d’automatiser la mise en relation.

A quel moment, l’éthique entre-t-elle en jeu ?

Au départ, l’idée d’automatiser des process RH est très séduisante. On se dit que l’on va pouvoir éviter de reproduire les discriminations que l’on retrouve beaucoup dans le secteur du recrutement. La machine va décider de manière objective et impartiale, quelle mission, pour qui.

En fait, le problème ne vient pas de l’algorithme mais du jeu de données. Il peut y avoir des biais cachés qui entraînent des effets de bords. C’est-à-dire que le programme informatique produit des résultats inattendus ou indésirables.

Dans notre cas, lorsque nous avons travaillé sur le jeu de données à fournir à l’algorithme, nous avons notamment utilisé la position géographique car nous souhaitions pouvoir proposer des missions proches géographiquement de l’auto-entrepreneur.

L’algorithme est arrivé à ses propres conclusions. Il a par exemple fait le lien entre le taux de satisfaction des missions et l’origine géographique des auto-entrepreneurs. Et c’est comme ça que des auto-entrepreneurs issus de certains départements se sont vus écartés d’office des propositions de missions.

Finalement, il a trouvé un moyen de reproduire certaines discriminations.

En effet. Attention, ce n’est pas intentionnel. L’algorithme ne se nourrit que du jeu de données qu’on lui fournit. Pour autant, d’un point de vue éthique, c’est très problématique.

Pour grossir le trait, il est très injuste de dire “ton voisin ne s’est pas présenté à sa mission, ou a un taux de satisfaction peu élevé, donc on considère que ce sera la même chose avec toi.” On nie les individualités et on se retrouve avec une discrimination de classes sociales.

Il y a eu un cas très médiatisé aux Etats-Unis dans l’univers carcéral. L’algorithme avait tendance à surévaluer la probabilité de récidives des personnes noires et à sous-évaluer celles des personnes blanches.

Comment éviter ce genre de dérives avec l’intelligence artificielle ?

Aujourd’hui, il est courant d’avoir plusieurs versions d’algorithmes que l’on teste à petite échelle. Cependant, on ne considère en général que des critères de performance. Il est très rare de tester les algorithmes sur des critères éthiques. Faire tourner des algorithmes, ça a un coût, il faut de la main d’œuvre qualifiée pour le faire, il faut donc prioriser.

Par ailleurs, avec la philosophie open-source du monde l’informatique, il peut y avoir également certains risques.

C’est à dire, en quoi l’open source joue-t-il un rôle dans le développement du numérique éthique ?

En informatique, on utilise beaucoup de technologies ou projets open source. C’est ce qui permet de ne pratiquement jamais repartir de zéro. On s’appuie sur le travail d’autres développeurs pour créer de nouveaux programmes.

Il existe dans notre univers un cas très connu pour illustrer les limites de cette approche. Il y a une dizaine d’années, des développeurs chez Google ont créé un outil appelé word2vec. De manière très (très) vulgarisée, cela permettait de transformer des mots en chiffres. L’algorithme a été entraîné avec un corpus de textes pour parvenir à comprendre les relations entre les mots.

Finalement, on est arrivé à des interprétations de textes très biaisées. Par exemple, les professions liées à la technologie ont été plutôt associées aux hommes, et celles liées aux soins aux femmes.

Ce petit outil open source a été largement utilisé par des développeurs du monde entier. On s’en est servi pour faire de l’analyse automatique de CV, pour des propositions de matching, des recommandations de contenus, de films etc..

En exagérant un peu, on va te recommander un job ou un film en partant du principe qu’en tant que femme, tu aimes faire la cuisine, t’occuper des autres et que tu n’as pas fait beaucoup d’études.

Dernièrement, certains experts ont demandé un moratoire sur l’IA. Quel est votre sentiment à ce sujet ?

D’un point de vue technique, ça me paraît complètement irréaliste. C’est comme si on disait, on va arrêter de produire du pain pendant six mois. Qu’est-ce que vont faire toutes ces personnes en attendant. On ne peut pas geler un secteur tel que l’IA. L’IA ce n’est pas que chat GPT et Midjourney. L’IA est partout dans notre quotidien, et ce, depuis très longtemps. C’est juste que Chat GPT donne à voir la puissance de l’intelligence artificielle au grand public de manière tangible.

Pour moi, l’enjeu est avant tout éducatif. Il faut apprendre à tous les bases de l’intelligence artificielle.

On entend surtout parler de la nécessité d’une pause pour réglementer et légiférer autour de l’utilisation de l’IA ?

C’est vrai qu’aujourd’hui, il n’y a pas de garde-fous. Mais c’est souvent le cas avec l’innovation. Il existe forcément un décalage dans le temps entre l’innovation et la réglementation. C’est aussi le cas pour la formation d’ailleurs.

Mais en effet, il existe un fort enjeu au niveau juridique. Aujourd’hui, beaucoup d’entreprises se mettent à utiliser des technologies comme chatGPT. Si demain par exemple, la SNCF intègre chatGPT à son chatbot service client et que ce chatbot émet des propos racistes, qui est responsable ? L’entreprise qui utilise l’algo ou chat GPT ? Il faudra créer un cadre juridique. Néanmoins, il me semble illusoire de penser que l’on pourra faire cela au niveau mondial en six mois.

Vous avez quitté le monde des start-ups et aujourd’hui vous intervenez en entreprises et à l’ESC Clermont Business School. Comment formez-vous vos différents publics ?

Tout d’abord, il faut faire prendre conscience que les algorithmes sont partout dans notre quotidien et qu’ils nous orientent. Par exemple, avec les réseaux sociaux, si on ne comprend pas comment ils fonctionnent, on peut se retrouver dans des bulles de filtres, des impasses cognitives. Il y a un vrai risque éthique derrière cela.

On tourne en rond avec des contenus qui confirment notre propre vision et on n’est plus confronté à d’autres points de vue.

C’est l’instant carte blanche, quelque chose à ajouter ?

De manière très pragmatique, je reviens sur ce que j’ai dit auparavant : la formation est toujours en retard sur les besoins. Ces dernières années, on a formé beaucoup de data scientists, tout le monde s’y est mis, de l’école d’ingénieur à l’école de commerce. Malheureusement, maintenant, on n’a pratiquement plus besoin de data scientists, en tous cas pas autant. Aujourd’hui, tous les GAFAS ont investi massivement sur l’IA et proposent des suites de solutions IA clé en main, et les solutions open source font aussi une belle partie du travail.

Ce dont on a réellement besoin, ce sont des personnes qui comprennent ce qui se passe avant l’algorithme et après. Ce sont des compétences très difficiles à trouver sur le marché du travail en ce moment. On cherche des profils très techniques comme des Machine Learning (ML) engineers, des cloud engineers, des analytics engineers, des DevOps, des ML Ops, etc.