導語:在最流行的在線百科網站上,引用數最多的有DOI號的文章主要以基因集和天文研究為主。

維基百科引用最多的期刊文章涉及月球坑的名字,以及人類和小鼠基因的DNA序列。許多最受歡迎的文章在維基百科上的引用數比其在科學文獻中的引用數還要多。

維基百科是世界上訪問量第五大的網站。來源:Chris Batson/Alamy

「令人難以置信的是,引用數最多的文章幾乎全都是科學論文。」紐約的數據科學家、圖書館員Matt Miller說。Miller分析了負責運營維基百科的舊金山非營利組織維基媒體基金會在三月發布的引用數據,其中包含了約1570萬條數據記錄,顯示了在維基百科近300個不同語言版本中,擁有正式編號(例如國際標準書號ISBN或數字對象識別碼DOI)的各種來源被引用了多少次。

維基媒體基金會注意到,維基百科中通過正式編號引用的大部分都是書籍,但是Miller特別觀察了英語維基百科通過DOI——這是期刊文章最常用的編號——引用的文章數目。他分析了120萬條帶有DOI的引用,其中包含了83.5萬餘篇不同的文章。

引用最多的論文在英語維基百科上總共被引用了4702次,是2002年一篇收集了超過15000個人類和小鼠基因序列的論文(參見「英語維基百科」)。引用該論文的維基頁面幾乎全是關於單個基因或蛋白質的頁面。「是個意外的驚喜。」癌症研究人員Robert Strausberg說。他是原論文的項目負責人,目前任紐約市路德維希癌症研究所科學副主任。

英語維基百科:前十大被引學術文章

在英語維基百科上有DOI號的引用文章中,引用次數排名前十的分別是:4702次引用:《超過15000個人類和小鼠全長cDNA序列的生成和初步分析》(2002)(Generation and initial analysis of more than 15,000 full-length human and mouse cDNA sequences)3387次引用:《NIH全長cDNA計劃的現狀、質量和擴展:哺乳動物基因收集項目》(2004)

(The status, quality, and expansion of the NIH full-length cDNA project: The Mammalian Gene Collection (MGC) )

2895次引用:《依巴谷衛星新數據規約的驗證》(2007)(Validation of the new Hipparcos reduction)2212次引用:《21243個全長人類cDNA的完整測序和表徵》(2004)(Complete sequencing and characterization of 21,243 full-length human cDNAs)1452次引用:《國際天文聯合會第17工作組關於月球體繫命名法的報告》(1971)(Report on lunar nomenclature by the Working Group of Commission 17 of the IAU)1297次引用:《寡核苷酸帽法:用寡聚核糖核苷酸替代真核mRNA的末端的一種簡單方法》(1994)(Oligo-capping: a simple method to replace the cap structure of eukaryotic mRNAs with oligoribonucleotides)

1294次引用:《構建人類蛋白質間交互網路的蛋白質組級圖譜》(2005)

(1,294 citations: Towards a proteome-scale map of the human protein–protein interaction network)1251次引用:《側重全長和側重5』末端的cDNA庫的構建與表徵》(1997)(Construction and characterization of a full length-enriched and a 5-end-enriched cDNA library)931次引用:《Pan-STARRS PS1觀測到的250000顆小行星的絕對星等和斜率參數——初步結果》(2015)(Absolute magnitudes and slope parameters for 250,000 asteroids observed by Pan-STARRS PS1 — preliminary results )878次引用:《關於分光光度法分類小行星的NEOWISE研究:初步結果》(2011)(NEOWISE studies of spectrophotometrically classified asteroids: preliminary results)

2004年發表的一篇擴展版的基因集文章是引用數第二多的,共引用了約3400次(相比之下,根據Google Scholar的數據顯示,科學文獻對它的引用數只有487次)。該論文的共同作者之一、美國國家癌症中心的癌症遺傳學家Daniela Gerhard說,這篇文章被引用了這麼多次可能是因為它提供了可獲取的有關表達基因序列的信息。

總而言之,前十名中有五篇文章是關於DNA目錄的,其中包括了一篇詳細描述如何生成這種庫的研究。2005年的一篇包含了將近3000種人類蛋白質互作的圖譜也位居前列,排名第七。(維基媒體的原文說:「毫不意外,維基人可喜歡工具文章了。」)

其餘四篇均為天文學文章。英語維基引用數第三多的有將近3000次引用,是2007年的一篇幫助研究者解讀依巴谷衛星數據的文章。依巴谷衛星是第一個測量恆星位置、距離和亮度的太空計劃。

另外幾篇空間科學論文涉及小行星的尺寸和亮度,以及月球坑的名字(見於1971年的一篇文章,根據Google Scholar的數據顯示,這篇文章在科學文獻裏只有16次引用)。依巴谷衛星一文的作者、英國劍橋大學的天文學家Floor van Leeuwen說,這些文章的引用次數多,是因為很多天體有著單獨的維基頁面,而這些論文是非常可靠的引用源。

爬蟲的工作

2001年建立的維基百科每個月有160億次訪問量,目前是世界上訪問量第五大的網站。所有人都可以新建文章或編輯已有的文章,但是網站的規章要求作者和編者必須為引用的文字和信息標註已發表的文章來源,例如書籍和學術論文。

倫敦慈善機構阿卡迪亞基金會的開放獲取項目總監Ross Mounce對維基媒體的數據進行了獨立分析,得到了全語種維基百科中引用次數最多的10篇帶DOI號的文章(參見「全語種維基百科」)。其中6篇是一樣的,但是排名第一的完全不同。引用數最多的是一篇2007年的論文,它更新了已有百年歷史的全球氣候分類法。這篇文章有280萬引用數——但是英語維基中只有169次引用(全語種中引用數第二多的在英語維基只有21000多次引用)。

這篇氣候研究被引用這麼多次是因為有幾百萬次引用都來源於程序自動生成的頁面。根據維基百科的數據顯示,截至2014年7月,瑞典達拉納大學的物理學家Sverker Johansson所寫的這個爬蟲軟體生成了將近300萬篇文章。其中三分之一是瑞典語,其餘的則是兩種菲律賓語言——宿務語和瓦瑞語。

Johansson表示,該爬蟲生成了數百萬篇關於城鎮或島嶼的地理位置的文章,而大多數文章都包含當地的氣候類別,因此會引用上述氣候研究。他補充說,他不知道爬蟲自動生成了多少次這篇論文的引用,「不過280萬聽起來差不多。」

全語種維基百科:前十大被引學術文章

在全語種維基百科上有DOI號的引用文章中,引用次數排名前十的分別是:2830341次引用:《柯本-蓋革氣候分類法下的更新版世界地圖》(2007)( Updated world map of the K?ppen–Geiger climate classification)21350次引用:《使用碎片法預測有機小分子的疏水(親脂)性:aLogP和cLogP法的分析》(1998) (Prediction of hydrophobic (lipophilic) properties of small organic molecules using fragmental methods:? an analysis of ALOGP and CLOGP methods)20247次引用:《NIH全長cDNA計劃的現狀、質量和擴展:哺乳動物基因收集項目》(2004)(The status, quality, and expansion of the NIH full-length cDNA project: The Mammalian Gene Collection (MGC))

5937次引用:《超過15000個人類和小鼠全長cDNA序列的生成和初步分析》(2002)

(Generation and initial analysis of more than 15,000 full-length human and mouse cDNA sequences)5854次引用:《Asiago超新星目錄——10年之後》(1999)(The Asiago supernova catalogue — 10 years after )2895次引用:《依巴谷衛星新數據規約的驗證》(2007)(Validation of the new Hipparcos reduction)4450次引用:《小行星帶的太初激發和清除》(2001)(The primordial excitation and clearing of the asteroid belt)3062次引用:《國際天文聯合會第17工作組關於月球體繫命名法的報告》(1971)(Report on lunar nomenclature by the Working Group of Commission 17 of the IAU)

2587次引用:《21243個全長人類cDNA的完整測序和表徵》(2004)

(Complete sequencing and characterization of 21,243 full-length human cDNAs)2525次引用:《固態行星級天體的分類》(Classifying solid planetary bodies)

Mounce補充說,其他文章可能在維基百科上有很多次引用,但沒有正式標註DOI號,即通過其他手段引用,例如PubMed的ID碼。

加州大學數據管理中心館長John Chodacki說,為了讓人們能夠信任信息,引用非常重要。「不光對期刊文章如此,對維基百科頁面也是如此。」他說。但是此前必須通過付費服務才能分析和比較學術文章的引用數據,「最有趣的是,現在這份數據所有人都能拿到。」?

Nature|doi:10.1038/d41586-018-05161-6

https://www.nature.com/articles/d41586-018-05161-6?

www.nature.com
圖標

原文發布在2018年5月14日的《自然》新聞上,作者:Giorgia Guglielmi


版權聲明:

本文由施普林格·自然上海辦公室負責翻譯。中文內容僅供參考,一切內容以英文原版為準。歡迎轉發至朋友圈,如需轉載,請郵件[email protected]。未經授權的翻譯是侵權行為,版權方將保留追究法律責任的權利。

? 2018 Springer Nature Limited. All Rights Reserved

推薦閱讀:

相關文章