讲座回顾|Text analysis can talk---when we use journal H-index to evaluate academic papers

发布者：朱竹青发布时间：2022-09-16浏览次数：476

本次报告主题为文本分析在科研论文价值方面的应用，以及对其价值的性别差异的探讨。卞咏老师首先介绍了论文中应用的文本分析方法，简述如何用自然语言处理的方法将文字转化成数值，为以后的模型分析做准备。接着，卞老师提出了本论文需要解决的核心问题：在评价科研论文方面H-indices是否会存在性别差异呢？然后，卞老师讲述从数据处理到模型分析，并给出了研究结论。

本篇论文的采用的数据是来自作者们自主搜集的创新数据集，搜集分为三大部分，科研论文文本数据的搜集，作者性别数据的搜集，以及论文所在期刊H-index的搜集。从文章到句到词，卞老师简述了如何对文本数据进行清洗和整理，最后如何选择可用的特征。之后经过进一步的特征工程处理进入到模型部分，模型分为预测模型和因果推断模型。最后，卞老师讲述了文章的结论，本文发现对于H-indices来说在控制文本的前提下，并未发现有显著的性别差异。

报告结束后，林老师等与卞老师进行学术探讨并提出文章改进意见。