讀書筆記

當前位置 /首頁/心得體會/讀書筆記/列表

《大資料時代》讀書筆記【精彩多篇】

《大資料時代》讀書筆記【精彩多篇】

《大資料時代》讀書筆記 篇一

讀了《大資料時代》後,感覺到一個大變革的時代將要來臨。雖然還不怎麼明瞭到底要徹底改變哪些思維和操作方式,但顯然作者想要“終結”或顛覆一些傳統上作為我們思維和生存基本理論、方法和方式。在這樣的想法面前,我的思想被強烈震撼,不禁戰慄起來。

“在小資料時代,我們會假象世界是怎樣運作的,然後通過收集和分析資料來驗證這種假想。”“隨著由假想時代到資料時代的過渡,我們也很可能認為我們不在需要理論了。”書中幾乎肯定要顛覆統計學的理論和方法,也試圖通過引用《連線》雜誌主編安德森的話“量子物理學的理論已經脫離實際”來“終結”量子力學。對此我很高興,因為統計學和量子力學都是我在大學學習時學到抽筋都不能及格的課目。但這兩個理論實在太大,太權威,太基本了,我想我不可能靠一本書就能擺脫這兩個讓我頭疼一輩子的東西。作者其實也不敢旗幟鮮明地提出要顛覆它們的論點,畢竟還是在前面加上了“很可能認為”這樣的保護傘。

近幾十年,我們總是在遇到各種各樣的新思維。在新思維面前我們首先應該做到的就是要破和立,要改變自己的傳統,跟上時代的腳步。即使腦子還跟不上,嘴巴上也必須跟上,否則可能會被扣上思想僵化甚至阻礙世界發展的大帽子。既然大資料是“通往未來的必然改變”,那我就必須“不受限於傳統的思維模式和特定領域裡隱含的固有偏見”,跟作者一起先把統計學和量子力學否定掉再說。反正我也不喜歡、也學不會它們。

當我們人類的資料收集和處理能力達到拍位元組甚至更大之後,我們可以把樣本變成全部,再加上有能力正視混雜性而忽視精確性後,似乎真的可以拋棄以抽樣調查為基礎的統計學了。但是由統計學和量子力學以及其他很多“我們也很可能認為我們不再需要的”理論上溯,它們幾乎都基於一個共同的基礎——邏輯。要是不小心把邏輯或者邏輯思維或者邏輯推理一起給“不再需要”的話,就讓我很擔心了!

《大資料時代》第16頁“大資料的核心就是預測”。邏輯是——描述時空資訊“類”與“類”之間長時間有效不變的先後變化關係規則。兩者似乎是做同一件事。可大資料要的“不是因果關係,而是相關關係”,“知道是什麼就夠了,沒必要知道為什麼”,而邏輯學四大基本定律(同一律、矛盾律、排中律和充足理由律)中的充足理由律又“明確規定”任何事物都有其存在的充足理由。且邏輯推理三部分——歸納邏輯、溯因邏輯和演繹邏輯都是基於因果關係。兩者好像又是對立的。在同一件事上兩種方法對立,應該只有一個結果,就是要否定掉其中之一。這就是讓我很擔心的原因。

可我卻不能拭目以待,像旁觀者一樣等著哪一個“脫穎而出”,因為我身處其中。問題不解決,我就沒法思考和工作,自然就沒法活了!更何況還有兩個更可怕的事情。

其一:量子力學搞了一百多年,為了處理好混雜性問題,把質量和速度結合到能量上去了,為了調和量子力學與相對論的矛盾,又搞出一個量子場論,再七搞八搞又有了蟲洞和羅森橋,最後把四維的時空彎曲成允許時間旅行的樣子,恨不得馬上造成那可怕的時間旅行機器。唯一阻止那些“愛因斯坦”們“瞎胡鬧”的就是因果關係,因為爸爸就是爸爸,兒子就是兒子。那麼大資料會不會通過正視混雜性,放棄因果關係最後反而搞出時間機器,讓爸爸不再是爸爸,兒子不再是兒子了呢?其二:人和機器的根本區別在於人有邏輯思維而機器沒有。《大資料時代》也擔心“最後做出決策的將是機器而不是人”。如果真的那一天因為放棄邏輯思維而出現科幻電影上描述的機器主宰世界消滅人類的結果,那我還不如現在就趁早跳樓。

還好我知道自己對什麼統計學、量子力學、邏輯學和大資料來說都是門外漢,也許上面一大篇都是在胡說八道,所謂的擔心根本不存在。但問題出現了,還是解決的好,不然沒法睡著覺。自己解決不了就只能依靠專家來指點迷津。

所以想向《大資料時代》的作者提一個合理化建議:把這本書繼續寫下去,至少加一個第四部分——大資料時代的邏輯思維。

《大資料時代》讀書筆記 篇二

資料已經成為一種商業資本,一項重要的經濟投入,可以創造新的經濟利益。事實上,通過對海量資料進行分析,我們可以獲得巨大價值的產品或服務,或者深刻的洞見。

大資料時代的思維變革

(1)不是隨機樣本,而是全體資料:在大資料時代的第一個轉變就是利用所有資料,而不再僅僅依靠一小部分資料。取樣分析的精確性隨著取樣隨機性的增加而大幅提高,但與樣本數量的增加關係不大。因此樣本選擇的隨機性比樣本數量更加重要。大資料的方法不採用隨機分析法,而是採用所有資料,即樣本=總體。

(2)追求資料的混雜性而不是精確性:大資料為了擴大資料規模允許不精確。大資料的簡單演算法比小資料的複雜演算法更加有效。大資料要求我們接受紛繁性,放棄對精確性的追求,在大資料時代我們無法獲得精確性。

(3)大資料追求相關關係而非因果關係:通過監控一個現象的良好的關聯物,相關關係可以幫助我們捕捉現在和預測未來。大資料的相關關係分析法更加準確、更快,而且不易受傳統思維模式和特定領域裡隱含的固有偏見的影響。建立在相關關係分析法上基礎上的預測是大資料的核心。

大資料時代的商業變革

(1)一切皆可量化:量化是資料化的核心。我們要的是資料化而不是數字化。資料化是指一種把現象轉變為可製表分析的量化形式的過程。數字化指的是把模擬資料轉換為0和1換算表示的二進位制碼。

有了大資料的幫助,我們不再會將世界看作世界是一連串我們認為或是自然或是社會的現象,我們會意識到本質上世界是由資訊構成的。將世界看作資訊,看作可以理解的資料海洋,為我們提供了一個從未有過的審視現實的視角。它是一種可以滲透到所有生活領域的世界觀。

(2)資料的絕大部分價值都隱藏在表面之下:資料的價值不僅限於特定用途,它可以為同一目的而被多次使用,也可以用於其他目的。資料的基本用途是為資訊的收集和處理提供依據。不同於物質的東西,資料的價值不會隨著它的使用而減少,而是可以不斷地被處理。

資料的創新包括:資料的再利用(採集使用者的搜尋資料判斷使用者的偏好或發展趨勢)、重組資料(多個數據集的總和重組在一起時比單個數據集更有價值)、可擴充套件資料(使得某種方式收集的單一資料集有多種不同的用途)、資料的折舊值(隨著時間推移,大多數資料都會失去一部分基本用途但潛在價值依然強大)、資料廢氣(使用使用者在網上留下的數字軌跡,如線上互動痕跡,來改善舊服務)、開放資料(開放政府資料讓私營部門和社會大眾訪問)。

(3)資料、技術與思維的三足鼎立:大資料價值鏈的構成為大資料採集掌控、大資料探勘技術、大資料思維。現今我們處在大資料時代的早期,思維和技能是最有價值的。但最終大部分的價值還是必須從資料本身中挖掘。大資料公司的`多樣性表明了資料價值的轉移。隨著資料價值轉移到資料擁有者手上,傳統的商業模式也就被顛覆了。

未來行業專家和技術專家的光芒都會因為統計數學家和資料分析家的出現而變暗。因為後者不受舊觀念的影響,能夠聆聽資料發出的聲音。

大資料決定企業的競爭力。規模很重要,大規模的公司擁有大量資料以及採集更多資料的能力,而小規模公司則更加靈活,因此中型企業將會逐漸消亡。

大資料時代的管理變革

(1)讓資料主宰一切隱憂:大資料的核心思想是用規模劇增來改變現狀,這會給我們帶來更多威脅。

在大資料時代,不管是告知與許可(很多資料在收集時並無意用作其他意圖,而最終卻產生了很多創新的用途)、模糊化(有意識的模糊化可能起到反作用)還是匿名化(大資料促進了內容的交叉檢驗),這三大隱私保護策略都失效了。

大資料被濫用於因果分析可能導致罪責的判定是基於對個人未來的預測。進行個人罪責推定需要行為人選擇某種特定的行為,他的選擇是造成這個行為的原因。而大資料並不是建立在因果關係基礎上的,而是相關關係!所以大資料絕不可以用來進行罪責推定!

(2)責任與自由並舉的資訊管理:大資料時代要藉助限制資訊濫用的規範而不是最初的審查來防止其氾濫。要想保護個人隱私就需要個人資料處理器對其政策和行為承擔更多的責任。

個人隱私保護從個人許可到讓資料使用者承擔責任:為了實現資料二次運用的優勢與過度披露所帶來的風險,監管機制可以決定不同種類的個人資料必須刪除的時間。再利用的時間框架則取決於資料內在風險和社會價值觀的不同。公司可以利用資料的時間更長,但相應的必須為其行為承擔責任以及負有特定時間之後刪除個人資料的義務。我們還可以開發新的技術促進隱私保護。如“差別隱私”:故意將資料模糊處理,促使對大資料庫的查詢不能顯示精確結果。

在依據大資料技術作重大決策時必須保證特定防護措施的到位:(a)公開原則。用來進行預測分析的資料和演算法必須公開。(b)公正原則。具備由第三方專家公證的可靠、有效的算法系統。(c)可反駁原則。明確提出個人可以對其預測進行反駁的具體方式。(d)確保對人的評判依據真實行為而非大資料分析。

大資料的運作超出我們正常理解範圍。為了防止大資料的預測、運演算法則和資料庫變得不透明、不可解釋、不可追蹤,大資料需要被檢測並保持透明度,當然還有使這兩項得以實現的新型專業技術和機構,大數計演算法師將會崛起。

為了保護極具競爭力的大資料市場,必須防止壟斷。政府也應該公佈其資料。