机器学习可以仅根据引文数据准确预测科学家的性别柏拉图区块链数据智能。垂直搜索。人工智能。

机器学习可以仅根据引文数据准确预测科学家的性别

集体效应:引文网络中的性别差异可能是由于“富者愈富”效应,即知名度更高的研究人员获得更多荣誉。 (礼貌:Shutterstock/aelitta)

女性和男性的引用模式如此不同,以至于仅根据这些数据就可以准确预测科学家的性别。 这是一项新研究的发现,该研究调查了男性和女性如何引用——以及被——他们的社区引用(过程。 国家队。 学院。 科学 119 e2206070119).

由网络科学家领导 克里斯蒂娜·勒曼(Kristina Lerman) 来自南加州大学,作者研究了 766 名美国成员 美国国家科学院 (NAS),其中包括 120 名女性。 他们将学者与他们在 Microsoft Academic Graph 上的个人资料进行匹配,其中包含超过 150 亿份学术出版物的元数据。

通过检查个人传记上的代词来确定科学家的性别后,研究人员为每位科学家创建了一个“自我引用网络”。 这包含“定向链接”,表明个人引用了哪些其他科学家(以节点表示),以及哪些科学家引用了他们。

众所周知,女性科学家获得的引用次数少于男性科学家,但这项新研究表明,女性获得的引用次数明显高于男性。 女性网络也有更多的“联系”,这表明女性倾向于在联系更紧密的研究社区工作。

该研究还发现,女性的同行较少——尽管这些同行往往是高效的同事——而且女性在她们的网络中拥有更大比例的女科学家。

越富越富

然后,研究人员在随机选择的 75% 数据上训练机器学习算法。 使用其他 25% 来测试系统,他们发现该算法可以根据引文网络准确预测科学家的性别——大约 80% 的准确率是正确的。

尽管 NAS 成员高度倾向于更有声望的机构,但引文网络几乎没有显示出基于作者附属机构声望的显着差异。 研究人员还发现,在他们研究的所有七个领域中,女性的代表性都不足。 只有 8% 的 NAS 物理学家是女性——在所有研究领域中比例最低。

Lerman 认为引文网络中的性别差异可以归结为两个方面。 “男女都喜欢引用男性,而优先依恋——或‘富者越富’效应——是科学界众所周知的奖励机制,已经广为人知的研究人员获得更多荣誉,”她说. “我们现在正在撰写一份手稿,展示这些组成部分如何产生巨大的性别差异。”

时间戳记:

更多来自 物理世界