本次报告主题为文本分析在科研论文价值方面的应用,以及对其价值的性别差异的探讨。卞咏老师首先介绍了论文中应用的文本分析方法,简述如何用自然语言处理的方法将文字转化成数值,为以后的模型分析做准备。接着,卞老师提出了本论文需要解决的核心问题:在评价科研论文方面H-indices是否会存在性别差异呢?然后,卞老师讲述从数据处理到模型分析,并给出了研究结论。
本篇论文的采用的数据是来自作者们自主搜集的创新数据集,搜集分为三大部分,科研论文文本数据的搜集,作者性别数据的搜集,以及论文所在期刊H-index的搜集。从文章到句到词,卞老师简述了如何对文本数据进行清洗和整理,最后如何选择可用的特征。之后经过进一步的特征工程处理进入到模型部分,模型分为预测模型和因果推断模型。最后,卞老师讲述了文章的结论,本文发现对于H-indices来说在控制文本的前提下,并未发现有显著的性别差异。
报告结束后,林老师等与卞老师进行学术探讨并提出文章改进意见。