第三部分大數(shù)據(jù)時(shí)代的管理變革07風(fēng)險(xiǎn):讓數(shù)據(jù)主宰一切的隱憂
我們的隱私被二次利用了
我們傾向于從數(shù)字?jǐn)?shù)據(jù)的增長和奧威爾寫《1984》時(shí)所處“監(jiān)視煉獄”的角度去理解大數(shù)據(jù)給個(gè)人隱私帶來的威脅。但是事實(shí)上,不是所有的數(shù)據(jù)都包含了個(gè)人信息。其實(shí),不管是傳感器從煉油廠采集的數(shù)據(jù)、來自工廠的機(jī)器數(shù)據(jù)、機(jī)場的氣象數(shù)據(jù),還是沙井蓋爆炸數(shù)據(jù)都不包含個(gè)人信息。英國石油公司和紐約愛迪生聯(lián)合電力公司不需要(也不想要)個(gè)人信息,就能分析挖掘出他們所需要的數(shù)據(jù)價(jià)值。事實(shí)上,這方面的數(shù)據(jù)分析并不威脅個(gè)人隱私。
當(dāng)然,目前所采集的大部分?jǐn)?shù)據(jù)都包含有個(gè)人信息,而且存在著各種各樣的誘因,讓我們想盡辦法去采集更多、存儲更久、利用更徹底,甚至有的數(shù)據(jù)表面上并不是個(gè)人數(shù)據(jù),但是經(jīng)由大數(shù)據(jù)處理之后就可以追溯到個(gè)人了。
比方說,如今在美國和歐洲部署的一些智能電表每6秒鐘采集一個(gè)實(shí)時(shí)讀數(shù),這樣一天所得到的數(shù)據(jù)比過去傳統(tǒng)電表收集到的所有數(shù)據(jù)還要多。因?yàn)槊總€(gè)電子設(shè)備通電時(shí)都會有自己獨(dú)特的“負(fù)荷特征”,比如熱水器不同于電腦,而它們與led大麻生長燈又不一樣,所以能源使用情況就能暴『露』諸如一個(gè)人的日常習(xí)慣、醫(yī)療條件和非法行為這樣的個(gè)人信息。(led大麻生長燈,是一種植物補(bǔ)光燈,也是植物生長燈的一種,依照植物生長需要太陽光的規(guī)律,代替陽光給植物提供更好的生長發(fā)育環(huán)境——編者注)
然而,我們要探討的主要是大數(shù)據(jù)是否改變了這種威脅的『性』質(zhì),而不是是否加劇了這種威脅。如果僅僅是加劇了這種威脅,那么我們現(xiàn)在采用的保護(hù)隱私的法律法規(guī)依然是有效的,我們只需要付出加倍的努力來確保有效『性』就可以。然而,倘若威脅的『性』質(zhì)已經(jīng)改變了,我們就需要尋求新的解決方案。
不幸的是,我們的擔(dān)憂一語中的。大數(shù)據(jù)的價(jià)值不再單純來源于它的基本用途,而更多源于它的二次利用。這就顛覆了當(dāng)下隱私保護(hù)法以個(gè)人為中心的思想:數(shù)據(jù)收集者必須告知個(gè)人,他們收集了哪些數(shù)據(jù)、作何用途,也必須在收集工作開始之前征得個(gè)人的同意。雖然這不是進(jìn)行合法數(shù)據(jù)收集的唯一方式,“告知與許可”已經(jīng)是世界各地執(zhí)行隱私政策的共識『性』基礎(chǔ)(雖然實(shí)際上很多的隱私聲明都沒有達(dá)到效果,但那是另一回事)。
更重要的是,大數(shù)據(jù)時(shí)代,很多數(shù)據(jù)在收集的時(shí)候并無意用作其他用途,而最終卻產(chǎn)生了很多創(chuàng)新『性』的用途。所以,公司無法告知個(gè)人尚未想到的用途,而個(gè)人亦無法同意這種尚是未知的用途。但是只要沒有得到許可,任何包含個(gè)人信息的大數(shù)據(jù)分析都需要向個(gè)人征得同意。因此,如果谷歌要使用檢索詞預(yù)測流感的話,必須征得數(shù)億用戶的同意,這簡直無法想象。就算沒有技術(shù)障礙,又有哪個(gè)公司能負(fù)擔(dān)得起這樣的人力物力支出呢?
同樣,一開始的時(shí)候就要用戶同意所有可能的用途,也是不可行的。因?yàn)檫@樣一來,“告知與許可”就完全沒有意義了。大數(shù)據(jù)時(shí)代,告知與許可這個(gè)經(jīng)過了考驗(yàn)并且可信賴的基石,要么太狹隘,限制了大數(shù)據(jù)潛在價(jià)值的挖掘,要么就太空泛而無法真正地保護(hù)個(gè)人隱私。
同時(shí),想在大數(shù)據(jù)時(shí)代中用技術(shù)方法來保護(hù)隱私也是天方夜譚。如果所有人的信息本來都已經(jīng)在數(shù)據(jù)庫里,那么有意識地避免某些信息就是此地?zé)o銀三百兩。我們把谷歌街景作為一個(gè)例子來看,谷歌的圖像采集車在很多國家采集了道路和房屋的圖像(以及很多備受爭議的數(shù)據(jù))。但是,德國媒體和民眾強(qiáng)烈地抗議了谷歌的行為,因?yàn)槊癖娬J(rèn)為這些圖片會幫助黑幫竊賊選擇有利可圖的目標(biāo)。有的業(yè)主不希望他的房屋或花園出現(xiàn)在這些圖片上,頂著巨大的壓力,谷歌同意將他們的房屋或花園的影像模糊化。但是這種模糊化卻起到了反作用,因?yàn)槟憧梢栽诮志吧峡吹竭@種有意識的模糊化,對盜賊來說,這又是一個(gè)此地?zé)o銀三百兩的例子。
另一條技術(shù)途徑在大部分情況下也不可行,那就是匿名化。匿名化指的是讓所有能揭示個(gè)人情況的信息都不出現(xiàn)在數(shù)據(jù)集里,比方說名字、生日、住址、信用卡號或者社會保險(xiǎn)號等。這樣一來,這些數(shù)據(jù)就可以在被分析和共享的同時(shí),不會威脅到任何人的隱私。在小數(shù)據(jù)時(shí)代這樣確實(shí)可行,但是隨著數(shù)據(jù)量和種類的增多,大數(shù)據(jù)促進(jìn)了數(shù)據(jù)內(nèi)容的交 叉檢驗(yàn)。
2006年8月,美國在線(aol)公布了大量的舊搜索查詢數(shù)據(jù),本意是希望研究人員能夠從中得出有趣的見解。這個(gè)數(shù)據(jù)庫是由從3月1日到5月31日之間的65.7萬用戶的2000萬搜索查詢記錄組成的,整個(gè)數(shù)據(jù)庫進(jìn)行過精心的匿名化——用戶名稱和地址等個(gè)人信息都使用特殊的數(shù)字符號進(jìn)行了代替。這樣,研究人員可以把同一個(gè)人的所有搜索查詢記錄聯(lián)系在一起來分析,而并不包含任何個(gè)人信息。
盡管如此,《紐約時(shí)報(bào)》還是在幾天之內(nèi)通過把“60歲的單身男『性』”、“有益健康的茶葉”、“利爾本的園丁”等搜索記錄綜合分析考慮后,發(fā)現(xiàn)數(shù)據(jù)庫中的4417749號代表的是佐治亞州利爾本的一個(gè)62歲寡『婦』塞爾瑪·阿諾德(thelmaarnold)。當(dāng)記者找到她家的時(shí)候,這個(gè)老人驚嘆道:“天吶!我真沒想到一直有人在監(jiān)視我的私人生活?!边@引起了公憤,最終美國在線的首席技術(shù)官和另外兩名員工都被開除了。
事隔僅僅兩個(gè)月之后,也就是2006年10月,dvd租賃商奈飛公司做了一件差不多的事,就是宣布啟動“netflixprize”算法競賽。該公司公布了大約來自50萬用戶的一億條租賃記錄,并且公開懸賞100萬美金,舉辦一個(gè)軟件設(shè)計(jì)大賽來提高他們的電影 推薦系統(tǒng)的準(zhǔn)確度,勝利的條件是把準(zhǔn)確度提高10%。同樣,奈飛公司也對數(shù)據(jù)進(jìn)行了精心的匿名化處理。然而還是被一個(gè)用戶認(rèn)出來了,一個(gè)化名“無名氏”的未出柜的同『性』戀母親起訴了奈飛公司,她來自保守的美國中西部。
通過把奈飛公司的數(shù)據(jù)與其他公共數(shù)據(jù)信息對比分析,得克薩斯大學(xué)的研究人員很快發(fā)現(xiàn),匿名用戶進(jìn)行的收視率排名與互聯(lián)網(wǎng)電影 數(shù)據(jù)庫(imdb)上實(shí)名用戶所排的是匹配的。
在美國在線的案例中,我們被我們所搜索的內(nèi)容出賣了。而奈飛公司的情況則是因?yàn)椴煌瑏碓磾?shù)據(jù)的結(jié)合暴『露』了我們的身份。這兩種情況的出現(xiàn),都是因?yàn)楣緵]有意識到匿名化對大數(shù)據(jù)的無效『性』。而出現(xiàn)這種無效『性』則是由兩個(gè)因素引起的,一是我們收集到的數(shù)據(jù)越來越多,二是我們會結(jié)合越來越多不同來源的數(shù)據(jù)。
科羅拉多大學(xué)的法學(xué)教授保羅·歐姆(paulohm),同時(shí)也是研究反匿名化危害的專家,認(rèn)為針對大數(shù)據(jù)的反匿名化,現(xiàn)在還沒有很好的辦法。畢竟,只要有足夠的數(shù)據(jù),那么無論如何都做不到完全的匿名化。更糟的是,最近的研究表明,不只是傳統(tǒng)數(shù)據(jù)容易受到反匿名化的影響,人們的社交 關(guān)系圖,也就是人們的相互聯(lián)系也將同受其害。
與25年之前的民主 德國相比,現(xiàn)在我們所受的監(jiān)控沒有減少,反而變得越來越容易、嚴(yán)密以及低成本。采集個(gè)人數(shù)據(jù)的工具就隱藏在我們?nèi)粘I钏貍涞墓ぞ弋?dāng)中,比如網(wǎng)頁和智能手機(jī)應(yīng)用程序。我們知道大多數(shù)的汽車中都裝了一個(gè)“黑盒子”——用來監(jiān)測安全氣囊激活的情況,而如今,一旦出現(xiàn)具有爭議的交 通案件,這個(gè)黑盒子所采集的數(shù)據(jù)就可以在法庭上充當(dāng)證據(jù)。當(dāng)然,如果企業(yè)采集數(shù)據(jù)只是來提高績效,我們就不用像被stasi竊聽 那樣而感到那么害怕。畢竟企業(yè)再強(qiáng)大,也不如國家強(qiáng)制力。
不過,即使它們不具備國家強(qiáng)制力,想到各種各樣的公司在我們不知情的情況下采集了我們?nèi)粘I罘椒矫婷娴臄?shù)據(jù),并且進(jìn)行了數(shù)據(jù)共享以及一些我們未知的運(yùn)用,這還是很恐怖的。對大數(shù)據(jù)大加利用的不只是私營企業(yè),『政府』也不甘落后。
據(jù)《華盛頓郵報(bào)》2010年的研究表明,美國國家安全局每天攔截并存儲的電子郵件、電話和其他通信記錄多達(dá)17億條。前美國安全局官員威廉·賓尼(williambinney)估計(jì)『政府』采集的美國及他國公民的通信互動記錄有20萬億次之多,其中包括誰和誰通過話、發(fā)過電子郵件、進(jìn)行過電匯等信息。為了弄明白這所有的數(shù)據(jù),美國建立了龐大的數(shù)據(jù)中心,其中美國國家安全局就耗資12億美元在猶他州的威廉姆斯堡建立了一個(gè)。
如今,不再只是負(fù)責(zé)反恐的秘密機(jī)關(guān)需要采集更多的數(shù)據(jù),所有的『政府』部門都需要,所以,數(shù)據(jù)采集擴(kuò)展到了金融交 易、醫(yī)療記錄和facebook狀態(tài)更新等各個(gè)領(lǐng)域,數(shù)據(jù)量之巨可想而知?!赫黄鋵?shí)處理不了這么多數(shù)據(jù),那為什么要費(fèi)力采集呢?
這是因?yàn)樵诖髷?shù)據(jù)時(shí)代,監(jiān)控的方式已經(jīng)改變了。過去,調(diào)查員為了盡可能多地知道嫌疑人的信息,需要把鱷魚夾夾到電話線上。當(dāng)時(shí)最重要的是能深入調(diào)查某個(gè)人,而現(xiàn)在情況不一樣了,比如谷歌和facebook的理念則是人就是社會關(guān)系、網(wǎng)上互動和內(nèi)容搜索的加和。所以,為了全面調(diào)查一個(gè)人,調(diào)查員需要得到關(guān)于這個(gè)人的最廣泛的信息,不僅是他們認(rèn)識的人,還包括這些人又認(rèn)識哪些人等。過去的技術(shù)條件沒法做到這樣的分析,但是今非昔比了。
不過,雖然企業(yè)和『政府』擁有的這種采集個(gè)人信息的能力,讓我們感到很困擾,但也還是沒有大數(shù)據(jù)所引起的另一個(gè)新問題讓我們更恐慌,那就是用預(yù)測來判斷我們。
掙脫大數(shù)據(jù)的困境
大數(shù)據(jù)為監(jiān)測我們的生活提供了便利,同時(shí)也讓保護(hù)隱私的法律手段失去了應(yīng)有的效力。面對大數(shù)據(jù),保護(hù)隱私的核心技術(shù)不再適用了。同樣,通過大數(shù)據(jù)的預(yù)測,對我們的未來想法而非實(shí)際行為采取懲罰措施,也讓我們惶恐不安,因?yàn)檫@否認(rèn)了自由 意志并傷害了人類尊嚴(yán)。
同時(shí),那些嘗到大數(shù)據(jù)益處的人,可能會把大數(shù)據(jù)運(yùn)用到它不適用的領(lǐng)域,而且可能會過分膨脹對大數(shù)據(jù)分析結(jié)果的信賴。隨著大數(shù)據(jù)預(yù)測的改進(jìn),我們會越來越想從大數(shù)據(jù)中掘金,最終導(dǎo)致一種盲目崇拜,畢竟它是如此的無所不能。這就是我們必須從麥克納馬拉的故事中引以為戒的。
必須杜絕對數(shù)據(jù)的過分依賴,以防我們重蹈伊卡洛斯的覆轍。他就是因?yàn)檫^分相信自己的飛行技術(shù),最終誤用了數(shù)據(jù)而落入了海中。下一章,我們將探討如何讓數(shù)據(jù)為我們所用,而不讓我們成為數(shù)據(jù)的奴隸。