Labbé和Cabanac估计,SCIgen论文极为罕见:在计算机科学文献中每百万篇论文仅有75篇为SCIgen论文。但是,这些论文的存在仍扰乱着科学界,并为出版界抹黑,这样无意义的论文竟然能进入会议论文集或期刊中,实在令人匪夷所思。
一项研究显示,由计算机程序生成的无意义的研究论文仍在科学文献中出现。这可能会导致200多篇论文被撤回。
这一问题始于2005年,当时3名博士生创建了名为SCIgen的论文生成软件,并表明一些会议会接收这些无意义的论文。该程序将单词拼凑在一起,生成带有随机标题、文本和图表的研究文章,很容易被读者视为胡言乱语。任何人都可以免费下载和使用。
到2012年,计算机科学家Cyril Labbé在电气和电子工程师学会(Institute of Electrical and Electronic Engineers,IEEE)出版的会议论文集中发现了85篇SCIgen伪造的论文;随后他还发现了超过120篇SCIgen伪论文被IEEE和Springer出版。目前尚不清楚是谁撰写了这些论文,也不清楚为什么写。这些文章随后被撤回或删除,同时Labbé发布了一个网站,允许任何人上传手稿,并检查它是否来自SCIgen。Springer还赞助了一个博士项目,以帮助发现SCIgen论文,从而产生了名为SciDetect的免费软件。
Labbé在法国格勒诺布尔-阿尔卑斯大学工作,最初搜索论文手稿中来自SCIgen的典型词汇。但是他和另一位计算机科学家,法国图卢兹大学的Guillaume Cabanac提出了一个新的想法:搜索SCIgen输出的关键短语。2020年5月,他和Cabanac在Dimensions数据库索引的数百万篇论文中搜索了这些短语。他们在一项研究报告中称,研究人员识别出243篇完全或部分由SCIgen创作的无意义文章。这些文章于2008年至2020年间,发表在各种期刊、会议论文集和预印本网站上,大多在计算机科学领域。其中46个已经从网站上撤销或删除。
最新一批来自SCIgen的论文,大多数由中国(64%)或印度(22%)的研究人员撰写,尽管Labbé指出这些手稿可能是在不知情的情况下以任意名字提交的。几篇论文的一位作者告诉Labbé和Cabanac,他把提交这种论文当作是恶作剧。但其他手稿似乎列出了真实的参考文献,这表明他们可能是为了增加论文的引用次数。
研究人员发现,只有两篇SCIgen论文在IEEE上没有被撤回,IEEE正在对这两篇论文进行评估。但其他出版社的处境更糟。IOP出版社表示,它撤回了10篇论文,“因为有明显证据表明它们是计算机生成的”,并正在调查为什么这些论文在会议上进行同行评审时没有被发现。
发布SCIgen文章最多的是瑞士Trans-Tech出版社,该出版社发表了57篇SCIgen论文;印度蓝眼睛智能工程和科学出版社(Blue Eyes Intelligence Engineering and Sciences Publication,BEIESP)有54篇;法国亚特兰蒂斯出版社(Atlantis Press)有39篇。Trans-Tech和Atlantis都表示,他们正在调查并正在撤回这些文章,但BEIESP的一位发言人表示,该公司只发表通过双盲同行评审和剽窃检查的原创文章。
研究发现,SSRN预印本服务器在同行评审前发布论文,已经发表了16篇SCIgen文章。SSRN的一位发言人说,他们正在调查这一问题,并指出SSRN为其预印本提供了“有限筛选”(对医疗手稿提供“高级筛选”)。
Labbé和Cabanac估计,SCIgen论文极为罕见:在计算机科学文献中每百万篇论文仅有75篇为SCIgen论文。但是,这些论文的存在仍扰乱着科学界,并为出版界抹黑,这样无意义的论文竟然能进入会议论文集或期刊中,实在令人匪夷所思。
参考文献:Richard Van Noorden. Hundreds of gibberish papers still lurk in the scientific literature[J]. Nature,2021,594:160-161.