Google Data Collection

1998年創立,從網路搜尋引擎起家的 Google,今天已是跨足各式數位科技産業的跨國超級大企業。近一個月來,它最為華人社會與國際人權組織所關切的事件仍是 Intercept 報導了 Google 內部員工吹哨,揭露其為了全面重回中國市場,遂配合其網路審查干預政策,私下偷偷進行了過濾敏感辭等具中國特色的搜尋引擎計畫(Dragonfly)。國際人權組織或許從企業與人權、公司創業之初的信條:不作惡….等等軸線來發揮其公開信的內容。不過本文想要談的,倒不是這啟看似正義與侵害壓迫對立性與「正當性」如此分明的事件,而是 Google 在過去十年廿年以來,其開發、併購、提供的各式網路服務軟體或硬體設備,如何廣泛深入又默默無聲地搜集了用戶資料。Google 搜尋引擎說,他們的宗旨是: “To organize the world’s information and make it universally accessible and useful”,而在這個數據為黑金的時代裏,數十億 Google 服務使用者的個人資料,也早已是 Google 眼中全球資訊的一部份,雖然不見得可為「外部」平等使用(universally accessible),但這片用戶黑金卻是 Google 繼續收取網路廣告利益與鞏固其運算科技優勢的燃料。

Digital Content Next,其前身為一群網路線上出版業者所組成的協會,他們最近資助了美國 Vanderbilt University 電腦科學教授 Douglas C. Schmidt,針對 Google 的用戶數據蒐集進行調查研究Google Data Collection Research。如同其介紹網頁上所言,不只是學術界對此領域的研究尚待開發(難道是因 Google 捐助了許多大學/研究中心,所以學者奠奠…?),大多數的網路使用者無法深切察覺 Google 作為日常數位生活不可或缺的服務提供者,使用者不只主動地申請、使用 Google 各式網路服務或線上工具時(如 Gmail、Youtube、Google Maps、GCP、Android 手機….),提供給 Google 相關使用資料(電子郵件、通訊錄、日程安排、瀏覽蒐集記錄、觀影訂閱偏好、行踪路線…..),是否還有其它你我在無明確意識下,”不知不覺”(passive 消極)提供給 Google 的資料。

以下為該研究摘要與重要結論的簡單中譯

此份研究的資料來源為:

  1. 對 Google 提供給用戶可下載、外帶的數據包: My Activities/ takeout 進行分析

  2. 透過用戶使用 Google 相關服務時,截取傳回 Google 伺服器的數據

  3. Google 各類服務的隱私權條款內容研究

  4. 其它已進行的 Google 數據搜集狀況相關研究進展/成果。

Google Data Collection 7點關鍵結論:

  1. 只消一天普通的網路使用,Google 就可掌握了解用戶的個人興趣。本研究中摸擬了“日常一天”的情節,一名用戶以新申請的 Google 帳戶和全新(回復原廠設定) Android 手機(新SIM卡),其日常生活工作當中,就會和 Google 産生許多活動接觸點,如用戶位置、交通路線、購買的物品和聽過的音樂。令人驚訝的是,超過三分之二數據是透過消極被動方法收集,Google 可用僅僅一天中所搜集資訊,準確地推斷用戶興趣。

  2. Android 是 Google 數據收集的主要推手,全球每月活躍用戶超過20億。Android 作業系統被世界各地的原生設備製造商(OEM)使用,其通過 Google Play 服務與 Google 生態系統緊密相連。 Android 協助 Google 收集個人用戶資訊(例如姓名、手機號碼、生日、郵政編碼、在很多情況下還包括信用卡號),手機上的活動(例如使用的應用程式、訪問的網站)和位置坐標。 除此之外,Android 還會在後台發送 Google 用戶位置和設備相關資訊,例如應用使用情況、崩潰報告、設備配置、備份和各種與設備相關的標別符號。

  3. Chrome 瀏覽器幫助 Google 從移動設備和桌面設備收集用戶數據,它在全球超過 20 億的安裝使用。Chrome 瀏覽器收集個人資料(例如用戶填寫線上線表單)並將其作為數據同步過程的一部分發送給 Google。它還會跟踪用戶網頁訪問次數並將用戶位置傳回給 Google。

  4. 即使用戶未進行任何互動操作,Android 和 Chrome 也會向 Google 發送數據。 實驗表明,一部休眠靜態的 Android 手機(Chrome 處於後台活動狀態)24 小時內向 Google 傳送340次位置資訊(平均每小時14次數據通訊)。地理位置資訊佔發送給 Google 的全部數據樣本的35%。 相較之下,使用 Safari的iOS Apple設備(既不使用 Android 和 Chrome),在用戶未使用設備的情況下,Google 無法收集任何辨識個資的數據(如位置等)。

  5. 用戶開始操作 Android 手機後(例如,滑動螢幕、訪問網頁、使用應用),即使用戶未使用任何重要的Google應用程序(如Google搜索、YouTube、Gmail、Google地圖),但與Google 伺服器之間的被動通信依然會顯著增加。此增長主要受到Google發布商和廣告客戶產品(例如Google Analytics,DoubleClick,AdWords)的數據活動影響。此類數據佔了46% Android 手機向 Google 伺服器所發出請求。與前述無用戶互動的靜態手話實驗相比, Google 收集的位置高出1.4倍。從數量來看,Google 伺服器每天通過 Android 設備接收了 11.6 MB數據量(0.35 GB /月)。實驗表明,即使用戶未啟動主要的 Google 應用程序,Google 仍然可以通過其廣告客戶和發布商產品收集大量數據。

  6. 如使用 iOS 設備,用戶不安裝使用任何 Google產品(即非Android、亦無Chrome 等其它 Google 提供的應用程式),也不訪問 Google 網頁,但數據傳輸到 Google 機器的次數仍然令人驚訝。此類通訊純粹由廣告商/發布商服務發動。 iOS 設備向 Google 服務的請求次數與Android 設備類似。實驗發現從iOS設備傳送到 Google 機器的數據量約是Android 設備的一半。

  7. 廣告識別標符(據稱為“用戶匿名”但收集有關應用程式和第三方網頁訪問的活動數據)可以與用戶的 Google身份相聯結。這發生在廣告商透過 Android 設備向 Google 服務器提供設備級別的識別信息。 同樣,DoubleClick Cookie ID(跟踪用戶在第三方網頁上的活動)是另一種“用戶匿名”識別標符,如果用戶使用的瀏覽器已連接 Google 帳戶,再訪問過三方網頁,則 Google 可以將此識別標符連接用戶的 Google 帳戶。 總而言之此研究結果表明, Google 通過消極方式大量收集的匿名數據與相關聯的用戶個資。

Share Comments
comments powered by Disqus