导语:在最流行的在线百科网站上,引用数最多的有DOI号的文章主要以基因集和天文研究为主。

维基百科引用最多的期刊文章涉及月球坑的名字,以及人类和小鼠基因的DNA序列。许多最受欢迎的文章在维基百科上的引用数比其在科学文献中的引用数还要多。

维基百科是世界上访问量第五大的网站。来源:Chris Batson/Alamy

「令人难以置信的是,引用数最多的文章几乎全都是科学论文。」纽约的数据科学家、图书馆员Matt Miller说。Miller分析了负责运营维基百科的旧金山非营利组织维基媒体基金会在三月发布的引用数据,其中包含了约1570万条数据记录,显示了在维基百科近300个不同语言版本中,拥有正式编号(例如国际标准书号ISBN或数字对象识别码DOI)的各种来源被引用了多少次。

维基媒体基金会注意到,维基百科中通过正式编号引用的大部分都是书籍,但是Miller特别观察了英语维基百科通过DOI——这是期刊文章最常用的编号——引用的文章数目。他分析了120万条带有DOI的引用,其中包含了83.5万余篇不同的文章。

引用最多的论文在英语维基百科上总共被引用了4702次,是2002年一篇收集了超过15000个人类和小鼠基因序列的论文(参见「英语维基百科」)。引用该论文的维基页面几乎全是关於单个基因或蛋白质的页面。「是个意外的惊喜。」癌症研究人员Robert Strausberg说。他是原论文的项目负责人,目前任纽约市路德维希癌症研究所科学副主任。

英语维基百科:前十大被引学术文章

在英语维基百科上有DOI号的引用文章中,引用次数排名前十的分别是:4702次引用:《超过15000个人类和小鼠全长cDNA序列的生成和初步分析》(2002)(Generation and initial analysis of more than 15,000 full-length human and mouse cDNA sequences)3387次引用:《NIH全长cDNA计划的现状、质量和扩展:哺乳动物基因收集项目》(2004)

(The status, quality, and expansion of the NIH full-length cDNA project: The Mammalian Gene Collection (MGC) )

2895次引用:《依巴谷卫星新数据规约的验证》(2007)(Validation of the new Hipparcos reduction)2212次引用:《21243个全长人类cDNA的完整测序和表征》(2004)(Complete sequencing and characterization of 21,243 full-length human cDNAs)1452次引用:《国际天文联合会第17工作组关于月球体系命名法的报告》(1971)(Report on lunar nomenclature by the Working Group of Commission 17 of the IAU)1297次引用:《寡核苷酸帽法:用寡聚核糖核苷酸替代真核mRNA的末端的一种简单方法》(1994)(Oligo-capping: a simple method to replace the cap structure of eukaryotic mRNAs with oligoribonucleotides)

1294次引用:《构建人类蛋白质间交互网路的蛋白质组级图谱》(2005)

(1,294 citations: Towards a proteome-scale map of the human protein–protein interaction network)1251次引用:《侧重全长和侧重5』末端的cDNA库的构建与表征》(1997)(Construction and characterization of a full length-enriched and a 5-end-enriched cDNA library)931次引用:《Pan-STARRS PS1观测到的250000颗小行星的绝对星等和斜率参数——初步结果》(2015)(Absolute magnitudes and slope parameters for 250,000 asteroids observed by Pan-STARRS PS1 — preliminary results )878次引用:《关于分光光度法分类小行星的NEOWISE研究:初步结果》(2011)(NEOWISE studies of spectrophotometrically classified asteroids: preliminary results)

2004年发表的一篇扩展版的基因集文章是引用数第二多的,共引用了约3400次(相比之下,根据Google Scholar的数据显示,科学文献对它的引用数只有487次)。该论文的共同作者之一、美国国家癌症中心的癌症遗传学家Daniela Gerhard说,这篇文章被引用了这么多次可能是因为它提供了可获取的有关表达基因序列的信息。

总而言之,前十名中有五篇文章是关于DNA目录的,其中包括了一篇详细描述如何生成这种库的研究。2005年的一篇包含了将近3000种人类蛋白质互作的图谱也位居前列,排名第七。(维基媒体的原文说:「毫不意外,维基人可喜欢工具文章了。」)

其余四篇均为天文学文章。英语维基引用数第三多的有将近3000次引用,是2007年的一篇帮助研究者解读依巴谷卫星数据的文章。依巴谷卫星是第一个测量恒星位置、距离和亮度的太空计划。

另外几篇空间科学论文涉及小行星的尺寸和亮度,以及月球坑的名字(见于1971年的一篇文章,根据Google Scholar的数据显示,这篇文章在科学文献里只有16次引用)。依巴谷卫星一文的作者、英国剑桥大学的天文学家Floor van Leeuwen说,这些文章的引用次数多,是因为很多天体有著单独的维基页面,而这些论文是非常可靠的引用源。

爬虫的工作

2001年建立的维基百科每个月有160亿次访问量,目前是世界上访问量第五大的网站。所有人都可以新建文章或编辑已有的文章,但是网站的规章要求作者和编者必须为引用的文字和信息标注已发表的文章来源,例如书籍和学术论文。

伦敦慈善机构阿卡迪亚基金会的开放获取项目总监Ross Mounce对维基媒体的数据进行了独立分析,得到了全语种维基百科中引用次数最多的10篇带DOI号的文章(参见「全语种维基百科」)。其中6篇是一样的,但是排名第一的完全不同。引用数最多的是一篇2007年的论文,它更新了已有百年历史的全球气候分类法。这篇文章有280万引用数——但是英语维基中只有169次引用(全语种中引用数第二多的在英语维基只有21000多次引用)。

这篇气候研究被引用这么多次是因为有几百万次引用都来源于程序自动生成的页面。根据维基百科的数据显示,截至2014年7月,瑞典达拉纳大学的物理学家Sverker Johansson所写的这个爬虫软体生成了将近300万篇文章。其中三分之一是瑞典语,其余的则是两种菲律宾语言——宿务语和瓦瑞语。

Johansson表示,该爬虫生成了数百万篇关于城镇或岛屿的地理位置的文章,而大多数文章都包含当地的气候类别,因此会引用上述气候研究。他补充说,他不知道爬虫自动生成了多少次这篇论文的引用,「不过280万听起来差不多。」

全语种维基百科:前十大被引学术文章

在全语种维基百科上有DOI号的引用文章中,引用次数排名前十的分别是:2830341次引用:《柯本-盖革气候分类法下的更新版世界地图》(2007)( Updated world map of the K?ppen–Geiger climate classification)21350次引用:《使用碎片法预测有机小分子的疏水(亲脂)性:aLogP和cLogP法的分析》(1998) (Prediction of hydrophobic (lipophilic) properties of small organic molecules using fragmental methods:? an analysis of ALOGP and CLOGP methods)20247次引用:《NIH全长cDNA计划的现状、质量和扩展:哺乳动物基因收集项目》(2004)(The status, quality, and expansion of the NIH full-length cDNA project: The Mammalian Gene Collection (MGC))

5937次引用:《超过15000个人类和小鼠全长cDNA序列的生成和初步分析》(2002)

(Generation and initial analysis of more than 15,000 full-length human and mouse cDNA sequences)5854次引用:《Asiago超新星目录——10年之后》(1999)(The Asiago supernova catalogue — 10 years after )2895次引用:《依巴谷卫星新数据规约的验证》(2007)(Validation of the new Hipparcos reduction)4450次引用:《小行星带的太初激发和清除》(2001)(The primordial excitation and clearing of the asteroid belt)3062次引用:《国际天文联合会第17工作组关于月球体系命名法的报告》(1971)(Report on lunar nomenclature by the Working Group of Commission 17 of the IAU)

2587次引用:《21243个全长人类cDNA的完整测序和表征》(2004)

(Complete sequencing and characterization of 21,243 full-length human cDNAs)2525次引用:《固态行星级天体的分类》(Classifying solid planetary bodies)

Mounce补充说,其他文章可能在维基百科上有很多次引用,但没有正式标注DOI号,即通过其他手段引用,例如PubMed的ID码。

加州大学数据管理中心馆长John Chodacki说,为了让人们能够信任信息,引用非常重要。「不光对期刊文章如此,对维基百科页面也是如此。」他说。但是此前必须通过付费服务才能分析和比较学术文章的引用数据,「最有趣的是,现在这份数据所有人都能拿到。」?

Nature|doi:10.1038/d41586-018-05161-6

https://www.nature.com/articles/d41586-018-05161-6?

www.nature.com
图标

原文发布在2018年5月14日的《自然》新闻上,作者:Giorgia Guglielmi


版权声明:

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件[email protected]。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。

? 2018 Springer Nature Limited. All Rights Reserved

推荐阅读:

相关文章