原標題:互聯網惡意爬蟲案件頻發 專家呼籲規制非法爬蟲保護數據資源

21世紀經濟報道王峯北京報道 近年來,網絡爬蟲“爬取數據”成爲熱詞,相關司法案例不斷出現。

在近日舉行的長三角數據合規論壇(第三期)暨數據爬蟲的法律規制研討會上,法律專家、司法工作者、企業代表研討了爬蟲技術及其對數字產業的影響,惡意爬蟲的民事責任和刑事合規等話題。

(來源:公開信息)

爬蟲糾紛與數據成爲科技創新必備要素密不可分。在大數據時代,爬蟲爬取他人數據的法律邊界在哪裏?如何規制惡意爬蟲肆意爬取的行爲?

爬蟲技術中立,但爬蟲技術應用侵權嚴重

從技術角度看,爬蟲是通過程序去模擬人類上網或者瀏覽網頁、APP行爲,讓其高效的在網上抓取爬蟲製造者所需要的信息。

歐萊雅中國數字化負責人劉煜晨表示,大多數網站拒絕爬蟲訪問,其中的原因既包括商業利益考量,也包括自身網站運營安全的考量。除了可能爬到網站的上不願被爬取的數據以外,網站經營者往往還會擔心爬蟲干擾網站正常運營。

爬蟲自動持續且高頻地對被爬取方進行訪問,服務器負載飆升,這會給服務器帶來“難以承受”之重。應對高併發經驗不足的網站,尤其是中小網站可能會面臨網站打不開,網頁加載極其緩慢,有時甚至直接癱瘓。網站經營者面對“兇猛”的網絡爬蟲時往往苦不堪言。

小紅書法務負責人曾翔表示,惡意爬蟲案例經常發生在內容平臺和電商平臺。在內容上更多被爬取視頻、圖片、文字、網紅互動數據、用戶行爲數據,在電商領域更多被爬取商家信息和商品信息。

“內容平臺一般而言會約定相關內容知識產權應當是歸發佈者或者發佈者和平臺共同所有,這些爬蟲沒有簽訂協議獲得用戶授權,如何獲得知識產權,涉嫌對知識產權的破壞。平臺通過投入激發很多創作者的創造力,如果爬蟲很輕易獲得再去抄襲、改編,損害很大。”曾翔說。

新浪集團訴訟總監張喆表示,無論是爬蟲還是實現其他目的的技術,本身都是中立的,但爬蟲技術的應用不是中立,技術應用都帶有應用者的目的。發生糾紛時,這個時候不應該只評價技術原理,而是需要評價技術用來幹什麼,這個行爲手段到底是不是具有正當性。

現實中,惡意爬蟲爬取數據的目標清晰,通過爬蟲爬取數據建立數據增值服務,從而獲益。然而,所建立的這類數據增值服務往往與被爬取方形成直接的競爭關係,甚至可以形成某種替代關係。

上海浦東法院知識產權庭法官徐弘韜表示,數據是內容產業的核心競爭資源,內容平臺經過彙總分析處理後的數據往往具有極高的經濟價值。如果要求內容平臺經營者將其核心競爭資源向競爭對手無限開放,不僅有違“互聯互通”的精神實質,也不利於優質內容的不斷更迭和互聯網產業的持續發展。

無視robots協議“君子協定”,惡意爬蟲“破門而入”

提及網絡爬蟲,robots協議是繞不開的話題。robots協議(也稱爬蟲協議)的全稱是“網絡爬蟲排除標準”,網站通過robots協議明確警示搜索引擎哪些頁面可以爬取,哪些頁面不能爬取。該協議也被行業稱爲搜索領域的“君子協定”。

劉煜晨表示,當網絡爬蟲訪問一個網站,通常有一個robots協議,它像一個牌子立在自己房間門口,告訴外來人誰可以過來,誰不可以過來。如果你過來,哪些房間可以進,哪些房間不可以進,也就是哪些頁面可以爬,哪些頁面不可以爬。但是,這只是一個君子協議,只能起到告示作用,起不到技術防範作用。

實踐中,惡意爬蟲爬取時不遵守網站的robots協議,並可能爬取到不該爬的數據,這種情形並非孤例。

雖然網站可以開發相應策略或技術手段,防止爬蟲抓取數據,但爬蟲也有更多技術手段,來反制這種反爬策略,即反反爬策略。

劉煜晨表示,反爬和爬取的技術一直在迭代,在技術領域,沒有爬不了的網站,所有對外公開的網站、APP,只要人能訪問,絕對能爬得了,只有他願不願意爬和多難爬的問題。越大廠的APP或者網站越難爬,反爬機制多。

徐弘韜認爲,應當尊重網站預設的robots協議,如果違反robots協議強行抓取數據,可能導致在行爲正當性上給予負面評價。

數據價值凸顯,惡意爬蟲爬取數據問題突出

惡意爬蟲爬取數據案件頻發的背後,與數據的價值極具增加併成爲市場競爭重要的資源,以數據爲核心的市場競爭愈發激烈密不可分。

杭州長三角大數據研究院副院長郭兵表示,數據爬蟲作爲一箇中立性的技術,已經在互聯網產業領域廣泛應用,但是如果爬蟲技術不當應用,對於其他競爭者的合法權益造成損害,甚至涉嫌違法或者犯罪,對於產業的健康發展也會產生非常大的負面影響。

上海市人民檢察院研究室副主任陳超然表示,檢察機關正在積極推動企業合規改革試點工作,數據合規是關注熱點。當一個網絡平臺或者個人通過技術手段抓取別的平臺數據的時候,這種行爲是否合法,平臺數據主體是誰,歸誰使用,值得深入研討。

華東政法大學教授高富平認爲,如果網站合法積累數據資源,都應該屬於網站生產端可以控制的數據資源,是它的資產。對於數據財產權,他提出數據的控制者權,數據的控制者是基於自身控制,可以自己用,也可以給別人用,只要法律上承認合法的數據生產者能夠實際控制,只能通過他的許可使用方式來開放數據的使用。

高富平認爲,更重要的是承認數據的生產者、控制者可以基於他的商業目的來開放數據,讓他積極通過許可使用、交換交易等方式,讓更多人享用數據服務。

徐弘韜認爲,對於非搜索引擎爬蟲的正當性判別,還要考慮是否足以保障用戶數據的安全性。包括身份數據、行爲數據等在內的用戶數據,從屬性來講不僅僅是經營者的競爭資源,同樣具有用戶的個人隱私屬性,而此類數據的集合更涉及社會公共利益。如果以危害用戶數據安全性爲代價抓取數據,將在行爲正當性上被給予負面評價。

相關文章