來源 |Nature自然科研(Nature-Research)

  作者 | Debora Weber-Wulff

  Debora Weber-Wulff表示,學者和編輯不要再假定軟件總能發現 “剽竊”文本,而應更加仔細地閱讀論文。

  在談及抄襲時,許多學者似乎都對所謂的“魔力數字”深信不疑。上個月,一家提供剽竊檢測軟件的公司宣佈,公司將於今年晚些時候被收購,作價17億美元。這家公司提供基於“黑匣子”算法的軟件系統,這種系統會生成一個分數,據稱可以顯示被檢測文本與其他文本的相似程度。這樣的公司不止一家。因爲這些系統的確發現了一些剽竊案例,所以人們誤以爲它們能夠將所有剽竊情況一網打盡。

  圖 | Pixabay

  這用我祖母的話說,簡直是“癡人說夢”。在過去的15年裏,我一直在測試剽竊檢測軟件。檢測結果經常令人費解,有時乾脆就是錯的。許多系統會誤報常見短語,機構的長名稱,甚至參考文獻的信息。軟件同時也會漏報。如果被剽竊文本的來源未被數字化,有拼寫錯誤,或因其他原因無法被軟件系統所用,則系統可能無法檢測到剽竊痕跡。許多剽竊案例都由於材料是翻譯自外文或獲取自多個來源,而未被發現。系統的評估同時基於使用的算法和可供對照的文本語料庫。對於檢測隨機樣本的系統而言,相隔僅僅幾分鐘再重複檢測同個文檔也可能得出不同的結果。我還曾見過不同的系統將同一個文本評估爲全文抄襲、部分抄襲或沒有抄襲。

  然而這些系統生成的數字——常被冠以不同的名稱,如“原創性得分”、“非唯一內容”或“剽竊等級”(PlagLevel)——通常會被人不假思索地接受。儘管可用的系統有很多,但極少有人會費勁去做二次檢驗。事實上,仔細閱讀軟件生成的報告能夠發現,有些正確引用的材料,如已經恰當標明出處的“方法”部分,被標記爲剽竊。

  但是,編輯、教授和管理人員往往因爲時間緊迫,而只依據一個簡單的數字便做出對學者和學術至關重要的決策。如果軟件報告的數字較小,評估論文的人可能會忽略明顯能看出是抄襲的痕跡,如文風變化、拼寫錯誤、字體更改或帶下劃線的字詞——下劃線往往意味着文本複製粘貼自維基百科。沒錯,我在數十篇博士論文和科學出版物中看到了這些。

  如果軟件報告的數字較大,編輯或教授可能會偏頗地認爲提交的文章是赤裸裸的剽竊。高校針對不同學位等級正式定義了“可接受的”由軟件評估的剽竊水平。教師希望軟件可以標記出“爛”論文,省得他們再去費時間看。但害怕不慎被算作剽竊的學生會使用同一個系統來改寫論文,用同義詞替換並重新排列句子,直到檢測數字看起來很好,這種行爲大大損害了論文的可讀性。

  期刊編輯將這些數字當作“柺杖”,用以幫助他們快速過濾出那些能夠直接拒絕,或在評審表示贊成之後能夠毫無顧慮地發表的論文。一些期刊和會議甚至直接在網上公佈他們的檢測閾值。

  重複和剽竊的文本會造成有害影響:它們會扭曲學者的真實學術成果,使文獻更加難以理解。這一點不能容忍,而那些不可靠的數字並非解決之道。我多年來一直就有問題的出版物與期刊編輯保持通信。重複出版物是那些文本(甚至數據)基本相同,並至少有一名相同作者的。在某些案例中,這些論文的標題和摘要不一樣,並且添加、刪除或重新排列了作者。剽竊的論文沒有相同的作者。

  我聯繫的一些編輯對此深表驚訝。他們使用剽竊檢測軟件,證明他們希望能看得更清楚。但由於種種原因,重複論文能夠逃開檢測。重複文本的潛在來源,如博士論文,可能存儲在某知識庫中或只有付費才能查看,從而無法進行對比。巧妙改寫(甚至通過算法改寫)的文本也會低於檢測閾值。

  今年提交給世界研究誠信會議(World Conference on Research Integrity)的摘要都經過了軟件分析,文本重疊閾值設定爲30%。事實上,在提交的449篇摘要中,38篇超過了這個閾值。經調查,15篇被認定爲剽竊,23篇包含了作者之前已發表的研究中的文本。絕大多數摘要都被拒絕了;對於某些作者重複利用自己文本的情況,其摘要被降級爲海報。剽竊和重複達到這種程度,真是令人震驚,特別是在一場關於學術誠信的會議上;這種情況還有可能被低估了。

  軟件無法判定剽竊;它只能發現一些文本相似的情況。這些系統可用於標記問題,但無法用於區分原創和剽竊。這種決定必須由人做出。定位剽竊最重要的方法是閱讀文本,研究參考文獻,從中尋找不一致之處。用一段話中的三五個詞,或一個特別漂亮的措辭轉變,通過互聯網搜索引擎進行抽查,便能夠揪出抄襲者。搜索一條看起來奇怪的參考文獻可能會返回一篇以相同方式弄錯了的源文獻。只有當文本不在線,在線搜索毫無幫助時,才應求助於軟件系統。在這些情況下,最好使用兩到三個系統,並閱讀檢測報告,而不要不加辨別地採納其生成的數字。

  學術誠信是一個社會問題;盡職調查不能完全依賴於未知的算法。維持科研誠信取決於那些願意努力保護文獻的科學家們。

  原文以Plagiarism detectors are a crutch, and a problem爲標題

  發佈在2019年3月27日《自然》World View上

相關文章