關注後你就是我的人了

前言

馬蜂窩陷抄襲點評醜聞

2018年10月20日,一篇《獨家|估值175億的旅遊獨角獸,是一座殭屍和水軍構成的鬼城?》的文章一出世便走紅網路。文中稱百億體量的馬蜂窩,其中2100萬條「真實點評」中有1800萬條是通過機器人從大眾點評和攜程等競爭對手抄襲而來。通過語義分析、數據挖掘

,發現了7454個抄襲賬號,平均每個賬號抄襲搬運了數千條點評,合計抄襲572萬條餐飲點評和1221萬條酒店點評,占官網聲稱點評數85%。

馬蜂窩回應稱,點評內容在馬蜂窩整體數據量中僅佔比2.91%,涉嫌虛假點評的賬號數量更是微乎其微,並已經進行清理。但恐怕已無法洗脫自己存在爬蟲

行為的嫌疑。

頭條爬蟲案件

2017年11月24日,被告單位上海晟品網路科技有限公司系有限責任公司,於2016年至2017年間採用技術手段抓取被害單位北京位元組跳動網路技術有限公司伺服器中存儲的視頻數據,並由侯某某指使被告人郭某破解北京位元組跳動網路技術有限公司的防抓取措施,使用「tt_spider」文件實施視頻數據抓取行為,造成被害單位北京位元組跳動網路技術有限公司損失技術服務費人民幣2萬元。最終法院判決被告人張某某、宋某、侯某某有期徒刑各十個月並處罰金人民幣四萬元。

百度訴360違反爬蟲協議案

2014年8月7日,圍繞360搜索引擎是否違反Robots協議(也稱爬蟲協議、機器人協議等)引發的不正當競爭糾紛案,北京市第一中級人民法院今日作出一審判決,認為被告北京奇虎科技有限公司的行為違反了《反不正當競爭法》相關規定,應賠償北京百度網訊科技有限公司、百度在線網路技術(北京)有限公司經濟損失及合理支出共計70萬元,同時駁回百度公司其他訴訟請求。

惡意爬蟲是什麼?

在回答這個問題之前,首先應當明確網路爬蟲是什麼?

網路爬蟲就如同一隻小螞蟻,它的作用是搜集網頁上的信息或數據,然後把搜集到的信息或數據搬運到小窩(資料庫)里。所以爬蟲不生產數據,它只是搬運數據。

而網路爬蟲又分為善意爬蟲和惡意爬蟲,搜索引擎的爬蟲就屬於善意爬蟲,比如百度搜索引擎的爬蟲叫做百度蜘蛛(Baiduspider)。善意爬蟲嚴格遵守Robots協議規範爬取網頁數據(如URL),它的存在能夠增加網站的曝光度,給網站帶來流量。

與之相對的是惡意爬蟲,它無視Robots協議,對網站中某些深層次的、不願意公開的數據肆意爬取,其中不乏個人隱私或者商業秘密等重要信息。並且惡意爬蟲的使用方希望從網站多次、大量的獲取信息,所以其通常會向目標網站投放大量的爬蟲。如果大量的爬蟲在同一時間對網站進行訪問,很容易導致網站伺服器過載或崩潰,造成網站經營者的損失。

註:Robots協議屬於典型的「君子協議」,它的目的是告知網路爬蟲的編寫者,哪些數據是可以被收集的,哪些數據是不能被收集的,但是如果網路爬蟲程序的編寫者不遵守Robots協議,想要強行爬去網站的數據時,Robots協議從技術上是無法阻止程序對越過協定爬取協議中不允許爬取的數據的。

惡意爬蟲的現狀

據統計,我國2017年互聯網流量有42.2%是由網路機器人創造的,其中惡意機器(主要為惡意爬蟲)流量佔到了21.80%。

(數據來源:騰訊安全雲鼎實驗室)

在出行領域,惡意爬蟲的主要目標是12306網站。我們日常使用的很多搶票軟體上的票務信息就是由惡意爬蟲不斷的爬取12306網站的信息而來的。它們對12306網站的票務信息進行暴力爬取,不斷的對網站提出刷新請求,於是12306網站時常因負載過大而崩潰,對我們的網路購票造成了嚴重的影響。

在社交領域,惡意爬蟲的主要目標是在各類點評App及網站,前文所述的「馬蜂窩抄襲點評」就是惡意爬蟲應用在點評方面最好的例證。

而在電商領域,我們熟知的價格比對平台就是通過爬蟲爬取諸如淘寶、京東等大型電商的商品價格數據,之後將數據整合,放在比對網站上供用戶對比。

(數據來源:騰訊安全雲鼎實驗室)

惡意爬蟲帶來的法律問題

1.侵犯著作權

惡意爬蟲會爬取某些網站(尤其是小說網站)上的文章、圖片等信息,並將爬取到的文章或圖片發布在自己的網站上以此獲利,此種方式可能侵犯著作權中的信息網路傳播權。例如我們在各類盜版網站中搜索到的小說或文章,就是盜版網站的運營方通過惡意爬蟲從版權方網站所爬取的內容。

除開公司使用的爬蟲之外,還有很多個人使用的爬蟲,例如畢業年級的大學生為了搜集論文所需的各類數據,但是依靠人工搜集的方法費時費力,此時他們可能會使用爬蟲幫助他們進行搜集。相對於公司的爬蟲來說,個人對於爬蟲的使用更為隨意,他們中的大多數都不會遵守網站的Robots協議,而是根據自己的需求進行暴力爬取,這同樣會引起著作權侵權問題。

2.侵犯商業秘密

如果惡意爬蟲在爬取信息的過程中,無視網站經營者設置的Robots協議及各類保護措施,接觸、保存甚至披露了一般用戶無法訪問的信息,而該信息又構成商業秘密,則惡意爬蟲的行為存在侵犯他人商業秘密的可能。

3.侵犯個人隱私或個人信息

同樣如果網路爬蟲突破了網站經營者設置的保護措施,不僅可能接觸到商業秘密,還可能接觸到存儲於後台伺服器中的用戶個人隱私或個人信息。

例如2017年3月24日,58同城簡曆數據泄露事件。某些淘寶電商在淘寶按照0.2到0.3元一條的價格售賣「58同城簡曆數據」,並且700元可以購買一套採集58數據的軟體。而這些被泄露資料的求職者均在58同城上投遞了簡歷。多家安全機構表示,該採集軟體是一個惡意爬蟲工具,爬蟲軟體可利用漏洞爬取個人信息。

如果網站或軟體對我們的個人信息沒有採取專門的安全保護措施或者採取的安全保護措施不夠,那麼我們的個人信息將容易被惡意爬蟲所爬取並利用。

4.構成不正當競爭

惡意爬蟲對網站數據的爬取很可能會觸犯《反不正當競爭法》第二條、第十二條等條文的規定,構成不正當競爭。例如在2016年12月30日,北京知識產權法院作出的判決中((2016)京73民終588號),非法抓取使用「新浪微博」用戶信息的「脈脈」被判賠200萬元。

而在2016年5月26日上海知識產權法院宣判的「大眾點評訴百度案」((2016)滬73民終242號)中,法官認為「百度」通過技術手段,從「大眾點評」獲取點評信息,並大量、全文使用用於充實自己的經營內容。此種使用方式,實質上是替代其他經營者向用戶提供信息,其使用行為具有明顯的「搭便車」、「不勞而獲」的特點,給「大眾點評」造成損害。故「百度」的上述行為,具有不正當性,構成不正當競爭。

5.侵入計算機系統,構成刑事犯罪

如果惡意爬蟲強行突破某些特定被爬方的技術措施,則可能構成刑事犯罪行為。

刑法

》第二百八十五條規定,違反規定侵入國家事務、國防建設、尖端科學技術領域的計算機信息系統的,不論情節嚴重與否,構成非法侵入計算機信息系統罪。違反國家規定,侵入前款規定以外的計算機信息系統或者採用其他技術手段,獲取該計算機信息系統中存儲、處理或者傳輸的數據,或者對該計算機信息系統實施非法控制,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。提供專門用於侵入、非法控制計算機信息系統的程序、工具,或者明知他人實施侵入、非法控制計算機信息系統的違法犯罪行為而為其提供程序、工具,情節嚴重的,依照前款的規定處罰。

《刑法》第二百八十六條還規定,違反國家規定,對計算機信息系統功能進行刪除、修改、增加、干擾,造成計算機信息系統不能正常運行,後果嚴重的,構成犯罪,處五年以下有期徒刑或者拘役;後果特別嚴重的,處五年以上有期徒刑。而違反國家規定,對計算機信息系統中存儲、處理或者傳輸的數據和應用程序進行刪除、修改、增加的操作,後果嚴重的,也構成犯罪,依照前款的規定處罰。

《刑法》第二百五十三條之一規定,違反國家有關規定,向他人出售或者提供公民個人信息,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。違反國家有關規定,將在履行職責或者提供服務過程中獲得的公民個人信息,出售或者提供給他人的,依照前款的規定從重處罰。竊取或者以其他方法非法獲取公民個人信息的,依照第一款的規定處罰。單位犯前三款罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員,依照各該款的規定處罰,即構成「侵犯公民個人信息罪」。

網路爬蟲法

2019年5月28日,國家互聯網信息辦公室就《數據安全管理辦法(徵求意見稿)》(以下簡稱「徵求意見稿」)公開徵求意見,這是我國數據安全立法領域的里程碑事件。以法律的形式規範數據收集、存儲、處理、共享、利用以及銷毀等行為,強化對個人信息和重要數據的保護,可維護網路空間主權和國家安全、社會公共利益,保護自然人、法人和其他組織在網路空間的合法權益。以網路爬蟲為主要代表的自動化數據收集技術,在提升數據收集效率的同時,如果被不當使用,可能影響網路運營者正常開展業務,為回應上述問題,徵求意見稿第十六條確立了利用自動化手段(網路爬蟲)收集數據不得妨礙他人網站正常運行的原則,並明確了嚴重影響網站運行的具體判斷標準,這將對規範數據收集行為,保障網路運營者的經營自由和網站安全起到積極的作用。

本文觀點

我國目前對於網路爬蟲的規制集中在《刑法》有關計算機信息系統犯罪的法律條文之中,對於《刑法》之外的網路爬蟲行政規制或民事侵權救濟,我國並未作出針對性的規定。大部分時候對於惡意爬蟲侵權問題,法院適用的是《反不正當競爭法》來對被侵權人進行救濟。但是正如筆者在《體育賽事直播的著作權問題》一文中所說的,《反不正當競爭法》屬於事後追責的法律,對於網路爬蟲問題更應該在事前予以規制。而我國目前對於網路爬蟲規制的現狀是等到網路爬蟲造成了損失,再想辦法去彌補。但是很多損害是沒有辦法彌補的,比如個人隱私或商業秘密的泄露,所以總是寄希望於《反不正當競爭法》能夠幫助我們挽回損失是不現實的。

所以,筆者認為我國應當制定針對網路爬蟲的相關標準,將Robots協議中的要求吸納進標準之中,完善相關的數據安全法律法規,將網路爬蟲引向合法軌道。明確網路爬蟲應當按照何種規則行動,何種行為可為,何種行為不可為,從而抑制目前我國網路爬蟲野蠻生長的態勢。

以上就是小編為大家分享的所有內容,有想了解更多資訊或相關知識,可以關注公眾號;程序員大咖(CodePush)

技術文章原創,最新視頻分享等等,一大批乾貨正在路上,想看的朋友記得點關注哦!

推薦閱讀:

相关文章