5 億份簡歷資料被爬取後出售,領英訴爬取者為何陷入困局?

5 億份簡歷資料被爬取後出售,領英訴爬取者為何陷入困局?

6月14日,美國最高法院要求下級法院重審領英訴訟競爭對手抓取使用者公開資料一案。此前的裁決認為,領英不應禁止競爭對手hiQLabs從領英使用者公開的個人資料中收集使用者資訊。

領英認為,運用“機器人”對使用者資料進行大規模抓取會嚴重威脅使用者隱私。而對手hiQLabs則辯稱,自己並未出售使用者資訊,領英的訴訟目的是壟斷公共資料,會傷害網際網路的開放和創新。

儘管hiQLabs未出售抓取的使用者資訊,但對領英來說,資料被各種爬蟲工具抓取導致的“使用者隱私風險”確實存在。今年4月,有媒體報道,從5 億份領英簡歷中抓取的資料存檔在一個駭客論壇上被出售。

對手抓取使用者公開資料,領英認為威脅隱私

領英是微軟旗下擁有7億多使用者的職場社交平臺,大量使用者在該平臺上公開自己的教育背景、從業經歷等個人資訊。hiQLabs是一家資料分析公司,該公司官網介紹“運用機器學習技術向企業提供員工離職風險和技能分析,幫助HR更好地做決策”。

hiQLabs 辯稱,公共資料必須保持公開,大公司不應以壟斷的方式囤積公共資料,領英的訴求會影響網際網路的開放和創新。而且,hiQLabs只將抓取的資訊用於宏觀分析,並未售賣使用者的個人資料。

2019年,法院做出判決,領英敗訴。判決理由是,CFAA法案不禁止公司抓取可在網際網路上公開訪問的資料。

值得一提的是,該法案於1996年頒佈,在近幾年引發越來越多的爭議,被很多人批評“已跟不上時代發展”。

隨後,領英訴至最高法院,認為hiQLabs的自動抓取軟體“機器人”可以大規模收集資料,遠遠超出任何個人檢視公共資料可帶來的後果,不能等同於網際網路的一般訪問。

最高法院要求上訴法院重審此案,這或許將給領英一個機會保有對使用者資料的控制權。

事實上,不論領英訴訟的真正動機是壟斷還是保護使用者隱私,其主張的資料抓取風險已被證實。今年4月,微軟釋出公告稱,領英的一些資料已被抓取併發布出售,包括可公開檢視的使用者個人資料。儘管微軟沒有說明多少使用者的資料被售賣,但有媒體報道,從5 億份領英簡歷中抓取的資料存檔在一個駭客論壇上被出售。

四年訴訟無果,資料爬蟲是否違法難界定

從2017年至今,領英的反資料抓取訴訟已經過了4年,至今未有結論。有律師認為,如果法律禁止“機器人”對網際網路上的公開資料進行抓取,那麼所有的搜尋引擎都將不復存在。

領英曾在2019年起訴100個未具名的資料抓取者,請求法院揭露這100個IP地址背後的爬蟲者身份。這份訴訟書中介紹,領英透過攔截工具來防止資料抓取行為,這些工具可以監控使用者的網路流量,並限制使用者檢視的個人資料的數量以及使用者檢視這些個人資料的速度。因此,當爬蟲軟體訪問網站時,會被識別為異常流量而被攔截。

但領英會將谷歌這樣的搜尋引擎網站設定到“白名單”中,這些受信任網站在訪問領英時,可以抓取公開資料,不會受爬蟲攔截工具影響。2019年,在面對媒體詢問“好的抓取”和“壞的抓取”的區分標準時,領英沒有給出明確答案。

一方面,搜尋引擎作為網際網路非常重要的一部分,其對網頁的抓取正是利用爬蟲工具。如果禁止爬取資料,搜尋引擎將不能使用。另一方面,進入大資料時代,非法的資料爬取帶來的負面影響正不斷顯現。

2019年,南都曾報道大資料爬蟲黑產,揭秘非法抓取使用者資料的黑色產業鏈——“專業老手”編寫爬蟲軟體、提供軟體定製服務、黑產團伙購買軟體批次生成“大資料”資訊再轉手出售。

2020年,美國的人臉識別公司Clearview AI聲稱其從公開的社交網路上收集了超過30億張人臉照片,引發外界強烈批評,Facebook、LinkedIn和 Twitter 均要求該公司停止收集行為。今年2月,加拿大隱私監管機構裁定,Clearview AI的行為違反了加拿大隱私法。此前,Clearview AI已經因違反美國伊利諾伊州的生物識別保護法而面臨集體訴訟。

綜合/編譯:南都見習記者李婭寧

TAG: 領英抓取使用者資料爬蟲