L'apprentissage automatique peut prédire avec précision le sexe d'un scientifique sur la seule base des données de citation de PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

L'apprentissage automatique peut prédire avec précision le sexe d'un scientifique en se basant uniquement sur les données de citation

Effet collectif : les différences entre les sexes dans les réseaux de citation peuvent être dues à un effet « les riches s’enrichissent » où les chercheurs les plus connus obtiennent plus de crédit. (Autorisation : Shutterstock/aelitta)

Les femmes et les hommes ont des modèles de citation si différents qu'il est possible de prédire avec précision le sexe d'un scientifique à partir de ces seules données. C'est le résultat d'une nouvelle étude qui étudie la manière dont les hommes et les femmes citent – ​​et sont cités par – leurs communautés (Proc. Natl. Acad. Sci 119 e2206070119).

Dirigé par un scientifique des réseaux Kristina Lerman de l'Université de Californie du Sud, les auteurs ont étudié 766 membres des États-Unis National Academy of Sciences (NAS), qui comprenait 120 femmes. Ils ont comparé les chercheurs à leurs profils sur Microsoft Academic Graph, qui contient des métadonnées sur plus de 150 millions de publications universitaires.

Après avoir identifié le sexe des scientifiques en vérifiant les pronoms dans les biographies des individus, les chercheurs ont créé un « réseau de citations de l'ego » pour chaque scientifique. Celui-ci contenait des « liens directionnels », indiquant quels autres scientifiques – représentés par des nœuds – l’individu avait cités, et quels scientifiques les avaient cités.

Il est bien connu que les femmes scientifiques reçoivent moins de citations que leurs homologues masculins, mais la nouvelle étude révèle que les femmes renvoient une fraction de citations significativement plus élevée que les hommes. Le réseau d'une femme est également plus « connecté », ce qui suggère que les femmes ont tendance à travailler dans des communautés de recherche plus étroitement liées.

L'étude a également révélé que les femmes ont moins de pairs – même si ceux-ci ont tendance à être des collègues très productifs – et que les femmes comptent une plus grande proportion de femmes scientifiques dans leurs réseaux.

Les riches deviennent plus riches

Les chercheurs ont ensuite entraîné un algorithme d’apprentissage automatique sur 75 % des données sélectionnées au hasard. En utilisant les 25 % restants pour tester le système, ils ont découvert que l'algorithme pouvait prédire avec précision le sexe d'un scientifique sur la base des réseaux de citations – et cela correctement dans environ 80 % des cas.

Les réseaux de citation ont montré peu de différences significatives en fonction du prestige de l'institution affiliée à l'auteur, bien que l'adhésion au NAS soit fortement orientée vers les instituts plus prestigieux. Les chercheurs ont également constaté que les femmes sont sous-représentées dans les sept domaines étudiés. Seulement 8 % des physiciens du NAS étaient des femmes – la proportion la plus faible de tous les domaines étudiés.

Lerman pense que les différences entre les sexes dans les réseaux de citations pourraient tenir à deux aspects. "Il existe une préférence des deux sexes pour citer les hommes, et l'attachement préférentiel - ou l'effet "les riches s'enrichissent" - est le mécanisme bien connu de récompense en science, où les chercheurs déjà les plus connus obtiennent plus de crédit", dit-elle. . « Nous travaillons actuellement sur un manuscrit qui montre comment une grande disparité entre les sexes peut émerger de ces composantes. »

Horodatage:

Plus de Monde de la physique