论文引文里有多少性别偏见引用男性( 二 ) _论文引文里有多少性别偏见

【论文引文里有多少性别偏见引用男性】相对于总体性别比例，引文性别比例失衡
既然男性和女性发文章总量不相上下，那么这些文章中的引文作者性别比例是怎样的呢？研究者发现相对于总体作者比例，引文作者的性别比例严重失衡，引用男性为主导的文章远远多于女性为主导的文章。
具体来说，研究者量化了神经科学文章中的引用行为，专门研究了2009-2018年间发表的31,418篇论文中的303,886条引文。随后，他们计算了四个类别被引用论文的数量，即第一作者和最后作者，分别为男男，女男，男女，女女，并将每个类别中的引文数量，与假设从论文库中随机抽取参考文献，所期望的引文数量进行比较。在这30多万条引文中，不同性别作者引文较预期的比例如下：

图2 在随机抽取模型下，将引文不同性别群体作者的百分比与其预期比例进行比较，过度引用和不足引用的百分比（图源，参考文献[2]）
考虑文章的相关特征后，引用仍失衡
接下来，研究者考虑了论文的相关特征后，发现以男性为主导的文章仍然被过度引用，以女性为主导的文章引用量过低。
上述将引文与总体作者比例进行比较时，并未考虑已发表论文的其他属性，这可能会导致文章或多或少地被后来的学者引用。比如五年以内发表的文章，由于其研究结果较新颖，所以更有可能被引用。由于存在文章特征的潜在关系干扰，性别与引文率之间的联系就很难判定。
为了解决这个问题，研究者将性别和文章特征之间的可能存在的关系纳入分析，选择了与引用行为可能相关的五个文章特征：发表年份；发表的期刊；作者数量；文章性质（研究性文章还是综述）；第一作者和最后作者的论文发表总数。研究者建立了一个包含以上五个特征的数学模型，当给每篇文章套用这个模型时，就会得出这篇文章是属于男男，女男，男女，女女类别的一组的预期概率。接下来，将观察到的引文率，与预期引文率进行比较。在2009-2018年间的303,886次引用中，分析数据如下：

图3 相关特征模型下，将引文中的性别比例与与在各个领域引用的相似的文章的性别比例进行比较。与预期比例相比，显示了对不同性别群体作者的过度和不足引用。（图源，参考文献[2]）
失衡背后：男性更倾向引用男性文章？
那么这种巨大的引文失衡是由什么导致的？研究者提出假设：男性在引用文章时，更倾向于引用男性的文章。
为了验证假设，研究者将文章分为两组，即以男性为第一作者和最后作者的文章（又称为MM，即男男），和以女性作为第一作者或最后作者的文章（以下简称为W∪W, 包含女男，男女和女女的文章），比较这两组引用文章的类型。
在2009-2018年间，五种期刊上发表的31,418篇文章中，大约51％为MM，49％为W∪W 。两组引用文章较预期的比例如下图：

图4 MM和W∪W引文列表中不同性别作者的过度引用和不足引用的程度。与以女性为第一作者或最后一位作者的论文相比，以男性为第一作者和最后一位作者的论文对男性的引用程度更高（图源，参考文献[2]）
MM和W∪W两组，引用参考文献显示出非常大的差异。MM组更加倾向于引用以男性为主导的文章，而在W∪W组中，对女性主导文章的引用增加，这显然离不开女性在引用行为中的领导角色。这说明参考文献中的性别不平衡现象，主要是由男性作者的引用惯例所致。