第一部分大數(shù)據(jù)時代的思維變革02更雜:不是精確性,而是混雜性
允許不精確
在越來越多的情況下,使用所有可獲取的數(shù)據(jù)變得更為可能,但為此也要付出一定的代價。數(shù)據(jù)量的大幅增加會造成結(jié)果的不準(zhǔn)確,與此同時,一些錯誤的數(shù)據(jù)也會混進數(shù)據(jù)庫。然而,重點是我們能夠努力避免這些問題。我們從不認(rèn)為這些問題是無法避免的,而且也正在學(xué)會接受它們。這就是由“小數(shù)據(jù)”到“大數(shù)據(jù)”的重要轉(zhuǎn)變之一。
對“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯誤,保證質(zhì)量。因為收集的信息量比較少,所以我們必須確保記錄下來的數(shù)據(jù)盡量精確。無論是觀察天體的位置還是觀測顯微鏡下物體的大小,為了使結(jié)果更加準(zhǔn)確,很多科學(xué)家都致力于優(yōu)化測量的工具。在采樣的時候,對精確度的要求就更高更苛刻了。因為收集信息的有限意味著細(xì)微的錯誤會被放大,甚至有可能影響整個結(jié)果的準(zhǔn)確『性』。
歷史上很多時候,人們會把通過測量世界來征服世界視為最大的成就。事實上,對精確度的高要求始于13世紀(jì)中期的歐洲。那時候,天文學(xué)家和學(xué)者對時間、空間的研究采取了比以往更為精確的量化方式,用歷史學(xué)家阿爾弗雷德·克羅斯比(alfredcrosby)的話來說就是“測量現(xiàn)實”。
我們研究一個現(xiàn)象,是因為我們相信我們能夠理解它。后來,測量方法逐漸被運用到科學(xué)觀察、解釋方法中,體現(xiàn)為一種進行量化研究、記錄,并呈現(xiàn)可重復(fù)結(jié)果的能力。羅德·凱文(lordkelvin)曾說過:“測量就是認(rèn)知。”這已成為一條至理名言。培根也曾說過:“知識就是力量?!蓖瑫r,很多數(shù)學(xué)家以及后來的精算師和會計師都發(fā)展了可以準(zhǔn)確收集、記錄和管理數(shù)據(jù)的方法。
19世紀(jì),科技率先發(fā)展起來的法國開發(fā)了一套能準(zhǔn)確計量時間、空間單位的系統(tǒng),并逐漸成為其他國家普遍采用的標(biāo)準(zhǔn),這套系統(tǒng)還為后來國際公認(rèn)的測量條約奠定了基礎(chǔ),成為測量時代的巔峰。僅半個世紀(jì)之后,20世紀(jì)20年代,量子力學(xué)的發(fā)現(xiàn)永遠(yuǎn)粉碎了“測量臻于至善”的幻夢。然而,在物理學(xué)這個小圈子以外的一些測量工程師和科學(xué)家仍沉湎在完美測量的夢中。隨著理『性』學(xué)科,如數(shù)學(xué)和統(tǒng)計學(xué)逐漸影響到商業(yè)領(lǐng)域,商業(yè)界更加崇尚這種思想。
然而,在不斷涌現(xiàn)的新情況里,允許不精確的出現(xiàn)已經(jīng)成為一個新的亮點,而非缺點。因為放松了容錯的標(biāo)準(zhǔn),人們掌握的數(shù)據(jù)也多了起來,還可以利用這些數(shù)據(jù)做更多新的事情。這樣就不是大量數(shù)據(jù)優(yōu)于少量數(shù)據(jù)那么簡單了,而是大量數(shù)據(jù)創(chuàng)造了更好的結(jié)果。
同時,我們需要與各種各樣的混『亂』做斗爭。混『亂』,簡單地說就是隨著數(shù)據(jù)的增加,錯誤率也會相應(yīng)增加。所以,如果橋梁的壓力數(shù)據(jù)量增加1000倍的話,其中的部分讀數(shù)就可能是錯誤的,而且隨著讀數(shù)量的增加,錯誤率可能也會繼續(xù)增加。在整合來源不同的各類信息的時候,因為它們通常不完全一致,所以也會加大混『亂』程度。例如,與服務(wù)器處理投訴時的數(shù)據(jù)進行比較,用語音識別系統(tǒng)識別某個呼叫中心接到的投訴會產(chǎn)生一個不太準(zhǔn)確的結(jié)果,但也是有助于我們把握整個事情的大致情況的。
混『亂』還可以指格式的不一致『性』,因為要達(dá)到格式一致,就需要在進行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到?!按髷?shù)據(jù)”專家帕堤爾(d.j.patil)指出,i.b.m.、t.j.watsonlabs、internationalbusinessmachines都可以用來指代ibm,甚至可能有成千上萬種方法稱呼ibm。當(dāng)然,在萃取或處理數(shù)據(jù)的時候,混『亂』也會發(fā)生。因為在進行數(shù)據(jù)轉(zhuǎn)化的時候,我們是在把它變成另外的事物。比如,我們在對twitter的信息進行情感分析來預(yù)測好萊塢票房的時候,就會出現(xiàn)一定的混『亂』。其實,混『亂』的起源和類型本來就是一團 『亂』麻。
假設(shè)你要測量一個葡萄園的溫 度,但是整個葡萄園只有一個溫 度測量儀,那你就必須確保這個測試儀是精確的而且能夠一直工作。反過來,如果每100棵葡萄樹就有一個測量儀,有些測試的數(shù)據(jù)可能會是錯誤的,也可能會更加混『亂』,但眾多的讀數(shù)合起來就可以提供一個更加準(zhǔn)確的結(jié)果。因為這里面包含了更多的數(shù)據(jù),而它提供的價值不僅能抵消掉錯誤數(shù)據(jù)造成的影響,還能提供更多的額外價值。
現(xiàn)在想想增加讀數(shù)頻率的這個事情。如果每隔一分鐘就測量一下溫 度,我們至少還能夠保證測量結(jié)果是按照時間有序排列的。如果變成每分鐘測量十次甚至百次的話,不僅讀數(shù)可能出錯,連時間先后都可能搞混掉。試想,如果信息在網(wǎng)絡(luò)中流動,那么一條記錄很可能在傳輸過程中被延遲,在其到達(dá)的時候已經(jīng)沒有意義了,甚至干脆在奔涌的信息洪流中徹底『迷』失。雖然我們得到的信息不再那么準(zhǔn)確,但收集到的數(shù)量龐大的信息讓我們放棄嚴(yán)格精確的選擇變得更為劃算。
在第一個例子里,我們?yōu)榱双@得更廣泛的數(shù)據(jù)而犧牲了精確『性』,也因此看到了很多如若不然無法被關(guān)注到的細(xì)節(jié)。在第二個例子里,我們?yōu)榱烁哳l率而放棄了精確『性』,結(jié)果觀察到了一些本可能被錯過的變化。雖然如果我們能夠下足夠多的工夫,這些錯誤是可以避免的,但在很多情況下,與致力于避免錯誤相比,對錯誤的包容會帶給我們更多好處。
為了擴大規(guī)模,我們接受適量錯誤的存在。正如技術(shù)咨詢公司forrester所認(rèn)為的,有時得到2加2約等于3.9的結(jié)果,也很不錯了。當(dāng)然,數(shù)據(jù)不可能完全錯誤,但為了了解大致的發(fā)展趨勢,我們愿意對精確『性』做出一些讓步。
我們可以在大量數(shù)據(jù)對計算機其他領(lǐng)域進步的重要『性』上看到類似的變化。我們都知道,如摩爾定律所預(yù)測的,過去一段時間里計算機的數(shù)據(jù)處理能力得到了很大的提高。摩爾定律認(rèn)為,每塊芯片上晶體管的數(shù)量每兩年就會翻一倍。這使得電腦運行更快速了,存儲空間更大了。大家沒有意識到的是,驅(qū)動各類系統(tǒng)的算法也進步了——美國總統(tǒng)科技顧問委員會的報告顯示,在很多領(lǐng)域這些算法帶來的進步還要勝過芯片的進步。然而,社會從“大數(shù)據(jù)”中所能得到的,并非來自運行更快的芯片或更好的算法,而是更多的數(shù)據(jù)。
由于象棋的規(guī)則家喻戶曉,且走子限制良多,在過去的幾十年里,象棋算法的變化很小。計算機象棋程序總是步步為贏是由于對殘局掌握得更好了,而之所以能做到這一點也只是因為往系統(tǒng)里加入了更多的數(shù)據(jù)。實際上,當(dāng)棋盤上只剩下六枚棋子或更少的時候,這個殘局得到了全面地分析,并且接下來所有可能的走法(樣本=總體)都被制入了一個龐大的數(shù)據(jù)表格。這個數(shù)據(jù)表格如果不壓縮的話,會有一太字節(jié)那么多。所以,計算機在這些重要的象棋殘局中表現(xiàn)得完美無缺和不可戰(zhàn)勝。
大數(shù)據(jù)在多大程度上優(yōu)于算法這個問題在自然語言處理上表現(xiàn)得很明顯(這是關(guān)于計算機如何學(xué)習(xí) 和領(lǐng)悟我們在日常生活中使用語言的學(xué)科方向)。在2000年的時候,微軟研究中心的米歇爾·班科(michelebanko)和埃里克·布里爾(ericbill)一直在尋求改進word程序中語法檢查的方法。但是他們不能確定是努力改進現(xiàn)有的算法、研發(fā)新的方法,還是添加更加細(xì)膩精致的特點更有效。所以,在實施這些措施之前,他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù),看看會有什么不同的變化。很多對計算機學(xué)習(xí) 算法的研究都建立在百萬字左右的語料庫基礎(chǔ)上。最后,他們決定往4種常見的算法中逐漸添加數(shù)據(jù),先是一千萬字,再到一億字,最后到十億。
結(jié)果有點令人吃驚。他們發(fā)現(xiàn),隨著數(shù)據(jù)的增多,4種算法的表現(xiàn)都大幅提高了。
當(dāng)數(shù)據(jù)只有500萬的時候,有一種簡單的算法表現(xiàn)得很差,但數(shù)據(jù)達(dá)10億的時候,它變成了表現(xiàn)最好的,準(zhǔn)確率從原來的75%提高到了95%以上。與之相反地,在少量數(shù)據(jù)情況下運行得最好的算法,當(dāng)加入更多的數(shù)據(jù)時,也會像其他的算法一樣有所提高,但是卻變成了在大量數(shù)據(jù)條件下運行得最不好的。它的準(zhǔn)確率會從86%提高到94%。
后來,班科和布里爾在他們發(fā)表的研究論文中寫到,“如此一來,我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語料庫發(fā)展上?!?/p>
大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效
所以,數(shù)據(jù)多比少好,更多數(shù)據(jù)比算法系統(tǒng)更智能還要重要。那么,混『亂』呢?在班科和布里爾開始研究數(shù)據(jù)幾年后,微軟的最大競爭對手,谷歌,也開始更大規(guī)模地對這些問題進行探討。谷歌用的是上萬億的語料庫,而不是十億的。谷歌做這類研究不是因為語法檢查,而是為了解決翻譯這個更棘手的難題。
20世紀(jì)40年代,電腦由真空管制成,要占據(jù)整個房間這么大的空間。而機器翻譯也只是計算機開發(fā)人員的一個想法。在冷戰(zhàn)時期,美國掌握了大量關(guān)于蘇聯(lián)的各種資料,但缺少翻譯這些資料的人手。所以,計算機翻譯也成了亟須解決的問題。
最初,計算機研發(fā)人員打算將語法規(guī)則和雙語詞典結(jié)合在一起。1954年,ibm以計算機中的250個詞語和六條語法規(guī)則為基礎(chǔ),將60個俄語詞組翻譯成了英語,結(jié)果振奮人心。ibm701通過穿孔卡片讀取了“mipyeryedayemmislyiposryedstvomryechyi”這句話,并且將其譯成了“我們通過語言來交 流思想”。在慶祝這個成就的發(fā)布會上,一篇報道就有提到,這60句話翻譯得很流暢。這個程序的指揮官利昂·多斯特爾特(leondostert)表示,他相信“在三五年后,機器翻譯將會變得很成熟”。
事實證明,計算機翻譯最初的成功誤導(dǎo)了人們。1966年,一群機器翻譯的研究人員意識到,翻譯比他們想象的更困難,他們不得不承認(rèn)他們的失敗。機器翻譯不能只是讓電腦熟悉常用規(guī)則,還必須教會電腦處理特殊的語言情況。畢竟,翻譯不僅僅只是記憶和復(fù)述,也涉及選詞,而明確地教會電腦這些非常不現(xiàn)實。法語中的“bonjour”就一定是“早上好”嗎?有沒有可能是“日安”、“你好”或者“喂”?事實上都有可能——這需要視情況而定。
在20世紀(jì)80年代后期,ibm的研發(fā)人員提出了一個新的想法。與單純教給計算機語言規(guī)則和詞匯相比,他們試圖讓計算機自己估算一個詞或一個詞組適合于用來翻譯另一種語言中的一個詞和詞組的可能『性』,然后再決定某個詞和詞組在另一種語言中的對等詞和詞組。
20世紀(jì)90年代,ibm的這個candide項目花費了大概十年的時間,將大約有300萬句之多的加拿大議會資料譯成了英語和法語并出版。由于是官方文件,翻譯的標(biāo)準(zhǔn)就非常高。用那個時候的標(biāo)準(zhǔn)來看,數(shù)據(jù)量非常之龐大。統(tǒng)計機器學(xué)習(xí) 從誕生之日起,就聰明地把翻譯的挑戰(zhàn)變成了一個數(shù)學(xué)問題,而這似乎很有效!計算機翻譯在短時間內(nèi)就提高了很多。然而,在這次飛躍之后,ibm公司盡管投入了很多資金,但取得的成效不大。最終,ibm公司停止了這個項目。
無所不包的谷歌翻譯系統(tǒng)
2006年,谷歌公司也開始涉足機器翻譯。這被當(dāng)作實現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”這個目標(biāo)的一個步驟。谷歌翻譯開始利用一個更大更繁雜的數(shù)據(jù)庫,也就是全球的互聯(lián)網(wǎng),而不再只利用兩種語言之間的文本翻譯。
谷歌翻譯系統(tǒng)為了訓(xùn)練計算機,會吸收它能找到的所有翻譯。它會從各種各樣語言的公司網(wǎng)站上去尋找聯(lián)合國和歐洲委員會這些國際組織發(fā)布的官方文件和報告的譯本。它甚至?xí)账僮x項目中的書籍翻譯。谷歌翻譯部的負(fù)責(zé)人弗朗茲·奧齊(franzoch)是機器翻譯界的權(quán)威,他指出,“谷歌的翻譯系統(tǒng)不會像candide一樣只是仔細(xì)地翻譯300萬句話,它會掌握用不同語言翻譯的質(zhì)量參差不齊的數(shù)十億頁的文檔?!辈豢紤]翻譯質(zhì)量的話,上萬億的語料庫就相當(dāng)于950億句英語。
盡管其輸入源很混『亂』,但較其他翻譯系統(tǒng)而言,谷歌的翻譯質(zhì)量相對而言還是最好的,而且可翻譯的內(nèi)容更多。到2012年年中,谷歌數(shù)據(jù)庫涵蓋了60多種語言,甚至能夠接受14種語言的語音輸入,并有很流利的對等翻譯。之所以能做到這些,是因為它將語言視為能夠判別可能『性』的數(shù)據(jù),而不是語言本身。如果要將印度語譯成加泰羅尼亞語,谷歌就會把英語作為中介語言。因為在翻譯的時候它能適當(dāng)增減詞匯,所以谷歌的翻譯比其他系統(tǒng)的翻譯靈活很多。
谷歌的翻譯之所以更好并不是因為它擁有一個更好的算法機制。和微軟的班科和布里爾一樣,這是因為谷歌翻譯增加了很多各種各樣的數(shù)據(jù)。從谷歌的例子來看,它之所以能比ibm的candide系統(tǒng)多利用成千上萬的數(shù)據(jù),是因為它接受了有錯誤的數(shù)據(jù)。2006年,谷歌發(fā)布的上萬億的語料庫,就是來自于互聯(lián)網(wǎng)的一些廢棄內(nèi)容。這就是“訓(xùn)練集”,可以正確地推算出英語詞匯搭配在一起的可能『性』。
20世紀(jì)60年代,擁有百萬英語單詞的語料庫——布朗語料庫算得上這個領(lǐng)域的開創(chuàng)者,而如今谷歌的這個語料庫則是一個質(zhì)的突破,后者使用龐大的數(shù)據(jù)庫使得自然語言處理這一方向取得了飛躍式的發(fā)展。自然語言處理能力是語音識別系統(tǒng)和計算機翻譯的基礎(chǔ)。彼得·諾維格(peternorvig),谷歌公司人工智能方面的專家,和他的同事在一篇題為《數(shù)據(jù)的非理『性』效果》(theunreasonableeffectivenessofdata)的文章中寫道,“大數(shù)據(jù)基礎(chǔ)上的簡單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效。”諾維格和他同事就指出,混雜是關(guān)鍵。
“從某種意義上,谷歌的語料庫是布朗語料庫的一個退步。因為谷歌語料庫的內(nèi)容來自于未經(jīng)過濾的網(wǎng)頁內(nèi)容,所以會包含一些不完整的句子、拼寫錯誤、語法錯誤以及其他各種錯誤。況且,它也沒有詳細(xì)的人工糾錯后的注解。但是,谷歌語料庫是布朗語料庫的好幾百萬倍大,這樣的優(yōu)勢完全壓倒了缺點。”
紛繁的數(shù)據(jù)越多越好
傳統(tǒng)的樣本分析師們很難容忍錯誤數(shù)據(jù)的存在,因為他們一生都在研究如何防止和避免錯誤的出現(xiàn)。在收集樣本的時候,統(tǒng)計學(xué)家會用一整套的策略來減少錯誤發(fā)生的概率。在結(jié)果公布之前,他們也會測試樣本是否存在潛在的系統(tǒng)『性』偏差。這些策略包括根據(jù)協(xié)議或通過受過專門訓(xùn)練的專家來采集樣本。但是,即使只是少量的數(shù)據(jù),這些規(guī)避錯誤的策略實施起來還是耗費巨大。尤其是當(dāng)我們收集所有數(shù)據(jù)的時候,這就行不通了。不僅是因為耗費巨大,還因為在大規(guī)模的基礎(chǔ)上保持?jǐn)?shù)據(jù)收集標(biāo)準(zhǔn)的一致『性』不太現(xiàn)實。就算是不讓人們進行溝通,也不能解決這個問題。
大數(shù)據(jù)時代要求我們重新審視精確『性』的優(yōu)劣。如果將傳統(tǒng)的思維模式運用于數(shù)字化、網(wǎng)絡(luò)化的21世紀(jì),就會錯過重要的信息。執(zhí)『迷』于精確『性』是信息缺乏時代和模擬時代的產(chǎn)物。在那個信息貧乏的時代,任意一個數(shù)據(jù)點的測量情況都對結(jié)果至關(guān)重要。所以,我們需要確保每個數(shù)據(jù)的精確『性』,才不會導(dǎo)致分析結(jié)果的偏差。
混雜『性』,不是竭力避免,而是標(biāo)準(zhǔn)途徑
確切地說,在許多技術(shù)和社會領(lǐng)域,我們更傾向于紛繁混雜。我們來看看內(nèi)容分類方面的情況。幾個世紀(jì)以來,人們一直用分類法和索引法來幫助自己存儲和檢索數(shù)據(jù)資源。這樣的分級系統(tǒng)通常都不完善——各位讀者沒有忘記圖書館卡片目錄給你們帶來的痛苦回憶吧?在“小數(shù)據(jù)”范圍內(nèi),這些方法就很有效,但一旦把數(shù)據(jù)規(guī)模增加好幾個數(shù)量級,這些預(yù)設(shè)一切都各就各位的系統(tǒng)就會崩潰。
相片分享網(wǎng)站flickr在2011年擁有來自大概1億用戶的60億張照片。根據(jù)預(yù)先設(shè)定好的分類來標(biāo)注每張照片就沒有意義了。難道真會有人為他的照片取名“像希特勒一樣的貓”嗎?
恰恰相反,清楚的分類被更混『亂』卻更靈活的機制所取代。這些機制才能適應(yīng)改變著的世界。當(dāng)我們上傳照片到flickr網(wǎng)站的時候,我們會給照片添加標(biāo)簽。也就是說,我們會使用一組文本標(biāo)簽來編組和搜索這些資源。人們用自己的方式創(chuàng)造和使用標(biāo)簽,所以它是沒有標(biāo)準(zhǔn)、沒有預(yù)先設(shè)定的排列和分類,也沒有我們必須遵守的類別的。任何人都可以輸入新的標(biāo)簽,標(biāo)簽內(nèi)容事實上就成為網(wǎng)絡(luò)資源的分類標(biāo)準(zhǔn)。標(biāo)簽被廣泛地應(yīng)用于facebook、博客等社交 網(wǎng)絡(luò)上。因為它們的存在,互聯(lián)網(wǎng)上的資源變得更加容易找到,特別是像圖片、視頻和音樂這些無法用關(guān)鍵詞搜索的非文本類資源。
當(dāng)然,有時人們錯標(biāo)的標(biāo)簽會導(dǎo)致資源編組的不準(zhǔn)確,這會讓習(xí)慣了精確『性』的人們很痛苦。但是,我們用來編組照片集的混『亂』方法給我們帶來了很多好處。比如,我們擁有了更加豐富的標(biāo)簽內(nèi)容,同時能更深更廣地獲得各種照片。我們可以通過合并多個搜索標(biāo)簽來過濾我們需要尋找的照片,這在以前是無法完成的。我們添加標(biāo)簽時所固帶的不準(zhǔn)確『性』從某種意義上說明我們能夠接受世界的紛繁復(fù)雜。這是對更加精確系統(tǒng)的一種對抗。這些精確的系統(tǒng)試圖讓我們接受一個世界貧乏而規(guī)整的慘相——假裝世間萬物都是整齊地排列的。而事實上現(xiàn)實是紛繁復(fù)雜的,天地間存在的事物也遠(yuǎn)遠(yuǎn)多于系統(tǒng)所設(shè)想的。
互聯(lián)網(wǎng)上最火的網(wǎng)址都表明,它們欣賞不精確而不會假裝精確。當(dāng)一個人在網(wǎng)站上見到一個facebook的“喜歡”按鈕時,可以看到有多少其他人也在點擊。當(dāng)數(shù)量不多時,會顯示像“63”這種精確的數(shù)字。當(dāng)數(shù)量很大時,則只會顯示近似值,比方說“4000”。這并不代表系統(tǒng)不知道正確的數(shù)據(jù)是多少,只是當(dāng)數(shù)量規(guī)模變大的時候,確切的數(shù)量已經(jīng)不那么重要了。另外,數(shù)據(jù)更新得非??欤踔猎趧倓傦@示出來的時候可能就已經(jīng)過時了。所以,同樣的原理適用于時間的顯示。谷歌的gmail郵箱會確切標(biāo)注在很短時間內(nèi)收到的信件,比方說“11分鐘之前”。但是,對于已經(jīng)收到一段時間的信件,則會標(biāo)注如“兩個小時之前”這種不太確切的時間信息。
2000年以來,商務(wù)智能和分析軟件領(lǐng)域的技術(shù)供應(yīng)商們一直承諾給客戶“一個唯一真理”。執(zhí)行官們用這個詞組并沒有諷刺的意思,現(xiàn)在也依然有技術(shù)供應(yīng)商這樣說。他們說這個詞組的意思就是,每個使用該公司信息技術(shù)系統(tǒng)的人都能利用同樣的數(shù)據(jù)資源,這樣市場部和營銷部的人員們就不需要再在會議開始前爭論,到底是誰掌握了正確的客戶和銷售數(shù)據(jù)了。這個想法就是說,如果他們知道的數(shù)據(jù)是一致的,那么他們的利益也會更一致。
但是,“一個唯一的真理”這種想法已經(jīng)徹底被改變了?,F(xiàn)在不但出現(xiàn)了一種新的認(rèn)識,即“一個唯一的真理”的存在是不可能的,而且追求這個唯一的真理是對注意力的分散。要想獲得大規(guī)模數(shù)據(jù)帶來的好處,混『亂』應(yīng)該是一種標(biāo)準(zhǔn)途徑,而不應(yīng)該是竭力避免的。
我們甚至發(fā)現(xiàn),不精確已經(jīng)滲入了數(shù)據(jù)庫設(shè)計這個最不能容忍錯誤的領(lǐng)域。傳統(tǒng)的數(shù)據(jù)庫引擎要求數(shù)據(jù)高度精確和準(zhǔn)確排列。數(shù)據(jù)不是單純地被存儲,它往往被劃分為包含“域”的記錄,每個域都包含了特定種類和特定長度信息。比方說,某個數(shù)值域是7個數(shù)字長,一個1000萬或者更大的數(shù)值就無法被記錄。一個人想在某個記錄手機號碼的域中輸入一串漢字是“不被允許”的。想要被允許也可以,需要改變數(shù)據(jù)庫結(jié)構(gòu)才可以。現(xiàn)在,我們依然在和電腦以及智能手機上的這些限制進行斗爭,比如軟件可能拒絕記錄我們輸入的數(shù)據(jù)。
索引是事先就設(shè)定好了的,這也就限制了人們的搜索。增加一個新的索引往往既消耗時間,又惹人討厭,因為需要改變底層的設(shè)計。傳統(tǒng)的關(guān)系數(shù)據(jù)庫是為數(shù)據(jù)稀缺的時代設(shè)計的,所以能夠也需要仔細(xì)策劃。在那個時代,人們遭遇到的問題無比清晰,所以數(shù)據(jù)庫被設(shè)計用來有效地回答這些問題,
但是,這種數(shù)據(jù)存儲和分析的方法越來越和現(xiàn)實相沖突。我們現(xiàn)在擁有各種各樣、參差不齊的海量數(shù)據(jù),很少有數(shù)據(jù)完全符合預(yù)先設(shè)定的數(shù)據(jù)種類。而且,我們想要的數(shù)據(jù)回答的問題,也只有在我們收集和處理數(shù)據(jù)的過程中才會知道。