第一部分大數(shù)據(jù)時代的思維變革03更好:不是因果關系,而是相互關系
“是什么”,而不是“為什么”
在小數(shù)據(jù)時代,相關關系分析和因果分析都不容易,都耗費巨大,都要從建立假設開始。然后我們會進行實驗——這個假設要么被證實要么被推翻。但由于兩者都始于假設,這些分析就都有受偏見影響的可能,而且極易導致錯誤。與此同時,用來做相關關系分析的數(shù)據(jù)很難得到,收集這些數(shù)據(jù)時也耗資巨大?,F(xiàn)今,可用的數(shù)據(jù)如此之多,也就不存在這些難題了。
當然,還有一種不同的情況也逐漸受到了人們的重視。在小數(shù)據(jù)時代,由于計算機能力的不足,大部分相關關系分析僅限于尋求線『性』關系。這個情況隨著數(shù)據(jù)的增加肯定會發(fā)生改變。事實上,實際情況遠比我們所想象的要復雜。經(jīng)過復雜的分析,我們能夠發(fā)現(xiàn)數(shù)據(jù)的“非線『性』關系”。
當相關關系變得更復雜時,一切就更混『亂』了。比如,各地麻疹疫苗接種率的差別與人們在醫(yī)療保健上的花費似乎有關聯(lián)。但是,最近哈佛與麻省理工的聯(lián)合研究小組發(fā)現(xiàn),這種關聯(lián)不是簡單的線『性』關系,而是一個復雜的曲線圖。和預期相同的是,隨著人們在醫(yī)療上花費的增多,麻疹疫苗接種率的差別會變??;但令人驚訝的是,當增加到一定程度時,這種差別又會變大。發(fā)現(xiàn)這種關系對公共衛(wèi)生官員來說非常重要,但是普通的線『性』關系分析師是無法捕捉到這個重要信息的。
如今,專家們正在研發(fā)能發(fā)現(xiàn)并對比分析非線『性』關系的必要技術工具。一系列飛速發(fā)展的新技術和新軟件也從多方面提高了相關關系分析工具發(fā)現(xiàn)非因果關系的能力,這就好比立體派畫家同時從多個角度來表現(xiàn)女『性』臉龐的手法。
網(wǎng)絡分析行業(yè)的出現(xiàn)就是一個最明顯的例子。多虧了它,讓描繪、測量、計算各節(jié)點之間的關系變成了可能,我們可以從facebook上認識更多的朋友,還可以知道法庭上的一些判決的先例,以及誰給誰打了電話。總之,這些工具為回答非因果關系及經(jīng)驗『性』的問題提供了新的途徑。
在大數(shù)據(jù)時代,這些新的分析工具和思路為我們提供了一系列新的視野和有用的預測,我們看到了很多以前不曾注意到的聯(lián)系,還掌握了以前無法理解的復雜技術和社會動態(tài) 。但最重要的是,通過去探求“是什么”而不是“為什么”,相關關系幫助我們更好地了解了這個世界。
這聽起來似乎有點違背常理。畢竟,人們都希望通過因果關系來了解這個世界。我們也相信,只要仔細觀察,就會發(fā)現(xiàn)萬事萬物皆有因緣。了解事情的起因難道不是我們最大的愿望嗎?
在哲學界,關于因果關系是否存在的爭論已經(jīng)持續(xù)了幾個世紀。畢竟,如果凡事皆有因果的話,那么我們就沒有決定任何事的自由 了。如果說我們做的每一個決定或者每一個想法都是其他事情的結果,而這個結果又是由其他原因導致的,以此循環(huán)往復,那么就不存在人的自由 意志這一說了——所有的生命軌跡都只是受因果關系的控制了。因此,對于因果關系在世間所扮演的角『色』,哲學家們爭論不休,有時他們認為,這是與自由 意志相對立的。當然,關于理論的爭辯并不是我們要研究的重點。
首先,我們的直接愿望就是了解因果關系。即使無因果關系存在,我們也還是會假定其存在。研究證明,這只是我們的認知方式,與每個人的文化背景、生長環(huán)境與教育水平是無關的。當我們看到兩件事情接連發(fā)生的時候,我們會習慣『性』地從因果關系的角度來看待它們??纯聪旅娴娜湓挘骸案ダ椎碌母改高t到了;供應商快到了;弗雷德生氣了?!?/p>
我們讀到這里時,可能立馬就會想到弗雷德生氣并不是因為供應商快到了,而是他父母遲到的緣故。實際上,我們也不知道到底是什么情況。即便如此,我們還是不禁認為這些假設的因果關系是成立的。
普林斯頓大學心理學專家,同時也是2002年諾貝爾經(jīng)濟學獎得主丹尼爾·卡尼曼(danielkahneman)就是用這個例子證明了人有兩種思維模式。第一種是不費力的快速思維,通過這種思維方式幾秒鐘就能得到出結果;另一種是比較費力的慢『性』思維,對于特定的問題,就是需要考慮到位。
快速思維模式使人們用因果聯(lián)系來看待周圍的一切,即使這種關系并不存在。這是我們對已有的知識和信仰的執(zhí)著。在古代,這種快速思維模式是很有用的,它能幫助我們在信息量缺乏卻必須快速做出決定的危險情況下化險為夷。但是,通常這種因果關系都是并不存在的。
卡尼曼指出,平時生活中,由于惰『性』,我們很少慢條斯理地思考問題。所以快速思維模式就占據(jù)了上風。因此,我們會經(jīng)常臆想出一些因果關系,最終導致了對世界的錯誤理解。
父母經(jīng)常告訴孩子,天冷時不戴帽子和手套就會感冒。然而,事實上,感冒和穿戴之間卻沒有直接的聯(lián)系。有時,我們在某個餐館用餐生病了的話,我們就會自然而然地覺得這是餐館食物的問題,以后可能就不再去這家餐館了。事實上,我們肚子痛也許是因為其他的傳染途徑,比如和患者握過手之類的。然而,我們的快速思維模式使我們直接將其歸于任何我們能在第一時間想起來的因果關系,因此,這經(jīng)常導致我們做出錯誤的決定。
與常識相反,經(jīng)常憑借直覺而來的因果關系并沒有幫助我們加深對這個世界的理解。很多時候,這種認知捷徑只是給了我們一種自己已經(jīng)理解的錯覺,但實際上,我們因此完全陷入了理解誤區(qū)之中。就像采樣是我們無法處理數(shù)據(jù)時的捷徑一樣,這種找因果關系的方法也是我們大腦用來避免辛苦思考的捷徑。
在小數(shù)據(jù)時代,很難證明由直覺而來的因果聯(lián)系是錯誤的?,F(xiàn)在,情況不一樣了。將來,大數(shù)據(jù)之間的相關關系,將經(jīng)常會用來證明直覺的因果聯(lián)系是錯誤的。最終也能表明,統(tǒng)計關系也不蘊含多少真實的因果關系。總之,我們的快速思維模式將會遭受各種各樣的現(xiàn)實考驗。
令人欣喜的是,為了更好地了解世界,我們會因此更加努力地思考。但是,即使是我們用來發(fā)現(xiàn)因果關系的第二種思維方式——慢『性』思維,也將因為大數(shù)據(jù)之間的相關關系迎來大的改變。
日常生活中,我們習慣『性』地用因果關系來考慮事情,所以會認為,因果聯(lián)系是淺顯易尋的。但事實卻并非如此。與相關關系不一樣,即使用數(shù)學這種比較直接的方式,因果聯(lián)系也很難被輕易證明。我們也不能用標準的等式將因果關系表達清楚。因此,即使我們慢慢思考,想要發(fā)現(xiàn)因果關系也是很困難的。因為我們已經(jīng)習慣了信息的匱乏,故此亦習慣了在少量數(shù)據(jù)的基礎上進行推理思考,即使大部分時候很多因素都會削弱特定的因果關系。
就拿狂犬疫苗這個例子來說,1885年7月6日,法國化學家路易·巴斯德(louispasteur)接診了一個9歲的小孩約瑟夫·梅斯特(josephmeister),他被帶有狂犬病毒的狗咬了。那時,巴斯德剛剛研發(fā)出狂犬疫苗,也實驗驗證過效果了。梅斯特的父母懇求巴斯德給他們的兒子注『射』一針。巴斯德做了,梅斯特活了下來。發(fā)布會上,巴斯德因為把一個小男孩從死神手中救出而大受褒獎。
但真的是因為他嗎?事實證明,人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效,這也只適用于七分之一的案例中。無論如何,就算沒有狂犬疫苗,這個小男孩活下來的概率還是有85%。
在這個例子中,大家都認為是注『射』疫苗救了梅斯特一命。但這里卻有兩個因果關系值得商榷。第一個是疫苗和狂犬病毒之間的因果關系,第二個就是被帶有狂犬病毒的狗咬和患狂犬病之間的因果關系。即便是說疫苗能夠醫(yī)好狂犬病,第二個因果關系也只適用于極少數(shù)情況。
不過,科學家已經(jīng)克服了用實驗來證明因果關系的難題。實驗是通過是否有誘因這兩種情況,分別來觀察所產(chǎn)生的結果是不是和真實情況相符,如果相符就說明確實存在因果關系。這個衡量假說的驗證情況控制得越嚴格,你就會發(fā)現(xiàn)因果關系越有可能是真實存在的。
因此,與相關關系一樣,因果關系被完全證實的可能『性』幾乎是沒有的,我們只能說,某兩者之間很有可能存在因果關系。但兩者之間又有不同,證明因果關系的實驗要么不切實際,要么違背社會倫理道德。比方說,我們怎么從5億詞條中找出和流感傳播最相關的呢?我們難道真能為了找出被咬和患病之間的因果關系而置成百上千的病人的生命于不顧嗎?因為實驗會要求把部分病人當成未被咬的“控制組”成員來對待,但是就算給這些病人打了疫苗,我們又能保證萬無一失嗎?而且就算這些實驗可以『操』作,『操』作成本也非常的昂貴。
不像因果關系,證明相關關系的實驗耗資少,費時也少。與之相比,分析相關關系,我們既有數(shù)學方法,也有統(tǒng)計學方法,同時,數(shù)學工具也能幫助我們準確地找出相關關系。
相關關系分析本身意義重大,同時它也為研究因果關系奠定了基礎。通過找出可能相關的事物,我們可以在此基礎上進行進一步的因果關系分析,如果存在因果關系的話,我們再進一步找出原因。這種便捷的機制通過嚴格的實驗降低了因果分析的成本。我們也可以從相互聯(lián)系中找出一些重要的變量,這些變量可以用到驗證因果關系的實驗中去。
可是,我們必須非常認真。相關關系很有用,不僅僅是因為它能為我們提供新的視角,而且提供的視角都很清晰。而我們一旦把因果關系考慮進來,這些視角就有可能被蒙蔽掉。
例如,kaggle,一家為所有人提供數(shù)據(jù)挖掘競賽平臺的公司,舉辦了關于二手車的質(zhì)量競賽。二手車經(jīng)銷商將二手車數(shù)據(jù)提供給參加比賽的統(tǒng)計學家,統(tǒng)計學家們用這些數(shù)據(jù)建立一個算法系統(tǒng)來預測經(jīng)銷商拍賣的哪些車有可能出現(xiàn)問題。相關關系分析表明,橙『色』的車有質(zhì)量問題的可能『性』只有其他車的一半。
當我們讀到這里的時候,不禁也會思考其中的原因。難道是因為橙『色』車的車主更愛車,所以車被保護得更好嗎?或是這種顏『色』的車子在制造方面更精良些嗎?還是因為橙『色』車更顯眼、出車禍的概率更小,所以轉手的時候,各方面的『性』能保持得更好?
馬上,我們就陷入了各種各樣謎一樣的假設中。若要找出相關關系,我們可以用數(shù)學方法,但如果是因果關系的話,這卻是行不通的。所以,我們沒必要一定要找出相關關系背后的原因,當我們知道了“是什么”的時候,“為什么”其實沒那么重要了,否則就會催生一些滑稽的想法。比如說上面提到的例子里,我們是不是應該建議車主把車漆成橙『色』呢?畢竟,這樣就說明車子的質(zhì)量更過硬啊!
考慮到這些,如果把以確鑿數(shù)據(jù)為基礎的相關關系和通過快速思維構想出的因果關系相比的話,前者就更具有說服力。但在越來越多的情況下,快速清晰的相關關系分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中體現(xiàn)為通過嚴格控制的實驗來驗證的因果關系,而這必然是非常耗時耗力的。
近年來,科學家一直在試圖減少這些實驗的花費,比如說,通過巧妙地結合相似的調(diào)查,做成“類似實驗”。這樣一來,因果關系的調(diào)查成本就降低了,但還是很難與相關關系體現(xiàn)的優(yōu)越『性』相抗衡。還有,正如我們之前提到的,在專家進行因果關系的調(diào)查時,相關關系分析本來就會起到幫助的作用。
因果關系還是有用的,但是它將不再被看成是意義來源的基礎。在大數(shù)據(jù)時代,即使很多情況下,我們依然指望用因果關系來說明我們所發(fā)現(xiàn)的相互關系,但是,我們知道因果關系只是一種特殊的相關關系。相反,大數(shù)據(jù)推動了相關關系分析。相關關系分析通常情況下能取代因果關系起作用,即使不可取代的情況下,它也能知道因果關系起作用。曼哈頓沙井蓋(即下水道的修檢口)的爆炸就是一個很好的例子。
大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒?/p>
在小數(shù)據(jù)時代,我們會假想世界是怎樣運作的,然后通過收集和分析數(shù)據(jù)來驗證這種假想。在不久的將來,我們會在大數(shù)據(jù)的指導下探索世界,不再受限于各種假想。我們的研究始于數(shù)據(jù),也因為數(shù)據(jù)我們發(fā)現(xiàn)了以前不曾發(fā)現(xiàn)的聯(lián)系。
假想通常來自自然理論或社會科學,它們也是幫助我們解釋和預測周遭世界的基礎。隨著由假想時代到數(shù)據(jù)時代的過渡,我們也很可能認為我們不再需要理論了。
2008年,《連線》雜志主編克里斯·安德森(chrisanderson)就指出:“數(shù)據(jù)爆炸使得科學的研究方法都落伍了?!焙髞?,他又在《拍字節(jié)時代》(thepetabuteage)的封面故事中講到,大量的數(shù)據(jù)從某種程度上意味著“理論的終結”。安德森也表示,用一系列的因果關系來驗證各種猜想的傳統(tǒng)研究范式已經(jīng)不實用了,如今它已經(jīng)被無需理論指導的純粹的相關關系研究所取代。
為了支撐自己的觀點,安德森闡述了量子物理學已變成一門純理論學科的原因,就是因為實驗服裝、耗費多且不可行。他潛在的觀點就是,量子物理學的理論已經(jīng)脫離實際。他提到了谷歌的搜索引擎和基因排序工程,指出:“現(xiàn)在已經(jīng)是一個有海量數(shù)據(jù)的時代,應用數(shù)學已經(jīng)取代了其他的所有學科工具。而且只要數(shù)據(jù)足夠,就能說明問題。如果你有一拍字節(jié)的數(shù)據(jù),只要掌握了這些數(shù)據(jù)之間的相關關系,一切就都迎刃而解了?!?/p>
這篇文章引發(fā)了激烈的爭論,雖然安德森本人很快就意識到自己的言辭過于激烈了,但是他的觀點確實值得深思。安德森的核心思想是,直到目前為止,我們一直都是把理論應用到實踐中來分析和理解世界,而如今處在大數(shù)據(jù)時代,我們不再需要理論了,只要關注數(shù)據(jù)就足夠了。這就意味著所有的普遍規(guī)則都不重要了,比方說世界的運作,人類的行為,顧客買什么,東西什么時候會壞等。如今,重要的就是數(shù)據(jù)分析,它可以揭示一切問題。
大數(shù)據(jù)是在理論的基礎上形成的。比方說,大數(shù)據(jù)分析就用到了統(tǒng)計和數(shù)學理論,有時候也會用到計算機科學理論。是的,這不是關于像地心引力這樣特定現(xiàn)象的產(chǎn)生原因的理論,但是無論如果這依然是理論。而且如我們所見,建立在這些理論上的大數(shù)據(jù)分析模式是實現(xiàn)大數(shù)據(jù)預測能力的重要因素。事實上,就是因為不受限于傳統(tǒng)的思維模式和特定領域里隱含的固有偏見,大數(shù)據(jù)才能為我們提供如此多新的深刻洞見。
首先就是關于我們怎么收集數(shù)據(jù)。我們會不會僅僅看數(shù)據(jù)收集的方便程度來決定呢?或者看數(shù)據(jù)收集的成本?我們做這些決定的時候就被理論所影響著,而就如達納·博尹德(danahboyd)和凱特·克勞福德(katecrawford)說的,我們的選擇一定程度上決定了結果。畢竟,谷歌是用檢索詞來預測流感而不是鞋碼。同樣,我們在分析數(shù)據(jù)的時候,也依賴于理論來選擇我們使用的工具。最后,我們解讀研究結果的時候同樣會使用理論。大數(shù)據(jù)時代絕對不是一個理論消亡的時代,相反地,理論貫穿于大數(shù)據(jù)分析的方方面面。
作為第一提出問題的人,安德森應該獲得掌聲——盡管他的答案不怎么樣!大數(shù)據(jù)絕不會叫囂“理論已死”,但它毫無疑問會從根本上改變我們理解世界的方式。很多舊有的習慣將被顛覆,很多舊有的制度將面臨挑戰(zhàn)。
大數(shù)據(jù)時代將要釋放出的巨大價值使得我們選擇大數(shù)據(jù)的理念和方法不再是一種權衡,而是通往未來的必然改變。但是在我們到達目的地之前,我們有必要了解怎樣才能到達。高科技行業(yè)里的很多人認為是依靠新的工具,從高速芯片到高效軟件等。當然,這可以理解為因為他們自己是工具創(chuàng)造者。這些問題固然重要,但不是我們需要考慮的問題。大數(shù)據(jù)趁勢的深層原因,就是海量數(shù)據(jù)的存在以及越來越多的事物是以數(shù)據(jù)形式存在的,這也是我們下一章要談論的內(nèi)容。