前 言

最近這段時間,小編注意到一腦門子官司的Facebook似乎在不遺餘力的打造一個保護隱私爲導向的“新人設”。比如三月六日,Facebook的CEO扎克伯格在Facebook網站上寫了萬字長文,表示Facebook和Instragram從此要聚焦社交媒體的隱私保護。

老大都發話了,Facebook手底下各路大將哪敢怠慢。這不三月八日,Facebook就在洛杉磯把幾個通過“瀏覽器拓展”爬取用戶數據,並在用戶的新聞流中植入廣告的烏克蘭老哥給告了。

起訴狀大概長這樣雖然都是公開信息還是遮一下姓氏

工作原因小編前段時間正好也調研了一些國內的情況。正好藉着Facebook的這波操作,小編今天就跟各位大佬簡單彙報一下以下內容。

  • 兩個老哥幹了什麼?

  • 到底什麼是“數據爬取”?

  • Facebook怎麼

  • 不好歸責的“爬取”?

# 1 兩個老哥幹了什麼

根據Facebook在起訴狀裏面的說法,2016年起,在距離美國5600英里的烏克蘭,格列布認識了安德烈。

老格和老安管理運營了至少四個網頁應用(大多數都是很常見的那種性格測試、社交指數測試、受歡迎程度等等)。提供這些應用的網站大部分是面向俄語和烏克蘭語用戶的網站。如果把老格和老安乾的事情想象成一家在線騙子公司的話,這些個網頁應用就好比騙子公司的門臉。

用戶登錄了以後,老格和老安會通過應用敦促用戶許可這些應用通過瀏覽器推送通知。一旦允許了,雖然Facebook沒有細說,但小編猜測通知中可能會將用戶引導到瀏覽器拓展商店,然後用戶就這樣被引導着安裝了他倆悉心開發的瀏覽器拓展(browser extensions)。

安裝完這些瀏覽器拓展,用戶也就正式上鉤啦。Facebook認爲這些瀏覽器拓展有兩個很不好的功能,一個是對用戶Facebook不公開的好友列表進行數據爬取,另一個就是在未經用戶授權的情況下在用戶的新聞流中植入廣告。

# 2 到底什麼是“數據爬取”

小編不是技術出身。起訴狀看到這裏,小編感到最陌生的就是“數據爬取”這個術語了。而且這個屬於看起來也很關鍵。

Facebook可能也怕收訴狀的法官不清楚這個詞的外延和內涵,在訴狀中給“數據爬取”加了下面的這個定義。

“本起訴狀中,數據爬取指的是一種從網站自動收集和提取數據的方式。數據爬取有時候也被稱爲“網頁爬取”、“網頁發掘”(web harvesting)或者“數據挖掘”(data harvesting)。

說實話,小編還是沒有懂。再說的具體一點,小編總覺着“數據爬取”看起來不像是什麼壞事。

爲此,小編特意找了坐在小編對面的RD大牛。威逼利誘下,大牛哥給小編掰碎了拼回去的講了好多遍,小編纔好像隱約有了個概念。

According to 大牛哥,如果要了解什麼是“數據爬取”,一定要對互聯網的架構有一個基本的理解。互聯網,那就不是一張網,而是一個洋蔥。

是的一個洋蔥,以及我知道上圖是一個洋蔥

大牛哥說,像小編這種啥也不懂的成天瀏覽的,是用HTML(Hypertext Markup Language)寫成的網頁。這些網頁,是洋蔥的表層。小編爲了敘事方便,先給這層起個名字叫“網頁層”。

再往下一層呢,是HTTP(Hypertext Transfer Protocol)協議,如果不是和大牛哥聊過,小編這種小白可能這輩子都不知道還有這麼個東西存在。俗話說的好,咬人的狗不叫,往往就是這種看不見,摸不着的東西才厲害。用大牛哥的話說,萬維網上的一切東西格式和溝通方式,如何在被創建、存儲以及如何再從網頁服務器中調取出來,都是由這一層決定的,就叫這一層“協議層”吧。

比方說,用戶看網頁,在網頁層來看,就是用戶在瀏覽器上點擊了一個鏈接,然後網頁就出現在了用戶面前。

但是在協議層上,其實是一個用戶和網頁服務器使用協議語言進行溝通的過程。在這個過程中,網頁瀏覽器一方面幫助用戶告訴網頁服務器用戶想看什麼,另一方面幫網頁服務器把存儲的HTML文件、代碼和資源搭建成用戶看得懂的網頁。

在協議層上,網頁瀏覽器這種“中間人”有一個比較牛逼的名稱,叫用戶代理(user agent)。

而進行數據爬取的爬蟲軟件,其實也是一種用戶代理。從網頁上爬取數據的過程,也是用戶和網頁瀏覽器的溝通,甚至使用的語言都是一樣的(HTTP協議),只不過網頁瀏覽器最終要向用戶展示網頁,而數據爬取最終幫用戶獲得是一類或幾類數據罷了。

有些爬蟲軟件如果設計的不好,可能會導致被請求的崩潰,但是大牛哥最後還是向小編強調,實際上爬蟲軟件,透過現象看本質的話,和網頁瀏覽器是“一類人”。

# 3 Facebook 憑啥告?

工作需要,大牛哥有的時候也會進行數據爬取。其實,因爲其高效和針對性強,數據爬取實際上是一種在商界和學界是被廣泛使用的一種技術手段。很多世界五百強企業設置了數據科學家崗位,十個有九個的崗位描述中提到需要精通數據爬取技術。

那Facebook爲什麼會因爲爬取他們的數據就把兩個烏克蘭老哥給告了?

要注意的是,Facebook援引的法律(CFAA,即“Computer Fraud and Abuse Act”,以及其州立法層面的體現)禁止的不是“數據爬取”,而是“對於受保護的計算機系統未經授權的訪問”(unauthorized access to computer system)。

上面也提到了,老格和老安先千方百計的讓用戶在自己的瀏覽器上安裝上他們開發的包含爬蟲軟件的瀏覽器拓展。用戶安裝了以後,在用戶訪問Facebook網站的時候,拓展會在用戶不知情的情況下,假裝自己是用戶,給Facebook的網頁服務器發送請求,調取用戶設置爲隱私的好友列表,再把這些用戶的隱私信息存儲到一個荷蘭的服務器中。

所以問題沒有出在老格和老安使用爬蟲軟件這個地方,而是出在老格和老安假裝其他用戶訪問Facebook服務請求隱私信息構成了對Facebook服務器未經授權的訪問。

# 4:不好歸責的“數據爬取”

不過小編想說的是,其實在更多的“數據爬取”案件中,這個“未經授權”並非都如同這次講得案件一樣相對是clear cut。

很常見的情況是,當事人爬取的本來就是網站展示出來給所有人看的信息。上面大牛哥已經給大家講很多了,從原理上來說,用瀏覽器和用爬取軟件其實沒有那麼大差別。再舉個不恰當的例子,就好像說你想弄清楚對面樹上有幾隻鳥,你拿望遠鏡看也行,你打電話問一下在樹下站着的人讓他幫你數一下也行。只要數鳥這個事情本身沒問題,拿望遠鏡看就沒事,打電話找人幫忙就犯法這個邏輯本也受到了一些學者的質疑。

根據保護的法益,有學界觀點是,這種情況下,應該看網站本身有沒有采取明確的技術措施制止數據爬取。繼續拿數鳥舉例子,假如說爲了防止有人打電話弄清楚到底有多少隻鳥,管事情的人把樹周圍多少裏地的電話信號都屏蔽了,然後你的手機有一種特殊的功能可以突破信號屏蔽,那對不起,你這個是不行。

但是小編認爲,這種觀點實務中最大的問題在於,並非所有的司法工作者都具備能開展突破技術措施是否構成突破授權的技術背景。美國司法系統曾經短暫的嘗試過這個方向,但目前有學界觀點認爲,自Craigslist, Inc, v. 3 Taps Inc. 一案之後,美國目前的CFAA判例中更多關注的是網站運營者有沒有以任何形式表示撤回對於爬取者的授權,這種撤回既可以是很簡單的技術措施,比如屏蔽掉爬取者的IP地址,也甚至可以和技術完全無關,比如一封Cease and Desist Letter。

我國刑法第二百八十五條第二款規定了非法獲取計算機信息系統數據罪。後續公佈的兩高相應司法解釋中,可以看出是否突破計算機信息系統安全保護措施也是認定該罪需考慮的一個因素。主要應爲實施數據爬取行爲而適用這一條款的案件不太多,但也都激起了輿論和互聯網行業的關注,其中一個關注點就在於對於計算機信息系統安全保護措施的認定上。從目前的判例來看,一般的反爬取措施即構成上述安全保護措施。

# 尾 聲

其實技術本身是中立的,關鍵在於如何使用他。讀完本文小編建議各位大佬無需談“爬”色變,但也不要對於公司中的爬取業務完全放任自流。這種不是非黑即白的事情,可能需要在具體的業務場景,結合一切相關因素來進行深入的分析和判斷,也需要考慮到相關的風險大小和相應的合規成本問題。如果涉及到核心業務的合規性,或者確實非常拿不準的話,當然可以留言和小編進行討論,同時,小編也建議可以請外部中介或者諮詢機構介入。

雖然本期看起來和GDPR並非直接聯繫,但還是那句老話罷,GDPR合規無小事,各位大佬我們下期再見!

(本文謹代表APUS研究院觀點,並非正式法律意見。如有問題歡迎隨時溝通。)

APUS研究院

APUS旗下專注於全球互聯網發展研究的智庫平臺,是面向未來移動互聯網創新變革的孵化器及加速器。

相關文章