什麼都能算,什麼都不奇怪:超級數據分析的祕密

什麼都能算,什麼都不奇怪:超級數據分析的祕密 pdf epub mobi txt 电子书 下载 2025

原文作者: Ian Ayres
圖書標籤:
  • 數據分析
  • 超級分析
  • 商業分析
  • 數據思維
  • 統計學
  • 概率論
  • 決策分析
  • 思維模式
  • 洞察力
  • 實用指南
想要找书就要到 灣灣書站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

圖書描述

為什麼Google與亞馬遜比你更瞭解你的品味?
賭場為什麼不讓你繼續輸錢?
數學公式如何幫你找到另一半?
應徵工作時,你知道自己是因統計分析而吃瞭閉門羹嗎?

生活裏,數據無所不在,
決策隻靠經驗與直覺,已不夠看,
在這個資料至上的社會,統計文盲絕無法成功──甚至難以生存。

數據+直覺+經驗=創意──聰明決策
這是個數據思考的時代。
這場數字革命,與其抗拒,不如參與。

「如今我們玩的遊戲名叫資料。
這本革命性佳作,不僅讀起來饒富興味,
也可能改變你的思考方式。」
──李維特,《蘋果橘子經濟學》作者──

舉凡醫生的診斷、下一代的教育、企業經營、政府組織、網站
──例如Google與亞馬遜便比你更瞭解你的品味──
這些新品種的決策者無處不在發揮影響力。
他們提齣的預測精準到讓人咋舌。

你知道棒球教練即使沒有見過球員也能評斷他的潛力嗎?
你希望在購買機票之前預知票價會漲還是會跌?
簡單的公式為何比酒評傢更能預估葡萄酒的品質?

這些問題,超級數據達人都有答案。
在這個方程式VS專傢的美麗新世界,
蘊藏其中的利益與風險為何?
誰是贏傢?誰是輸傢?
如何善用超級數據分析以避免被操縱?

仰賴直覺進行決策的時代已然過去。
不論你是企業傢、消費者或學生,
若想要超越群倫,在跨齣下一步之前一定要先讀讀
《什麼都能算,什麼都不奇怪──超級數據分析的祕密》。

作者簡介

伊恩.艾瑞斯(Ian Ayres)

  計量經濟學傢與律師,耶魯法學院教授(William K. Townsend教授席),耶魯管理學院教授。經常在美國公共電颱的「市場分析節目」(Marketplace)擔任評論員,也是《富比世雜誌》(Forbes)的專欄作傢。目前擔任《法律、經濟學與組織期刊》(Journal of Law, Economics, and Organization)編輯,已齣版八本書,發錶過上百篇文章。

譯者簡介

張美惠

  颱大外文係畢,輔大譯研所肄業,專職翻譯。曾獲梁實鞦文學奬譯詩組佳作,譯作包括《EQ》、《第六感官──愛的氣味:費洛濛》、《破壞性情緒管理:達賴喇嘛與西方科學大師的智慧》、《沒有終點的旅程:努蘭自傳》、《Y染色體──男子漢的本質》、《Wealth 3.0──托佛勒 財富革命》、《血、汗與淚水──人類工作的演化》、《為什麼要做愛?》、《大麻?草莓園?色情王國》、《瘋足球,迷棒球》(以上由時報文化齣版),以及《國傢公園之父》、《這就是男人》、《父母離婚後》、《RV親情新乾綫》、《和好再相愛》(以上由張老師文化齣版)。

著者信息

圖書目錄

推薦序∕張邦昌
超級數據達人的超級任務

前言 超級數據達人崛起
棒球界的艾森菲特
美酒的真相
我為何挺身而齣?
本書重點

1. 誰在幫你思考?
速配網彈新調
痛你所痛的哈樂賭場
告訴我你對我瞭解多少
消費者大反擊
讓人放心的迴歸分析
全世界是一個資料大礦場
聯想定罪
尋找神奇數字

2. 隨機創造你的資料
第一資本的隨機實驗
你看到的可能是隨機試驗的網頁
誰最具實用創意?
隨機試驗──用途無限寬廣
隨機試驗為何沒有更普及?

3. 機率治國
花錢纔能省錢
州的構想實驗室
善用既有的隨機試驗
機率的世界

4. 醫生應如何看待實證醫學?
拯救十萬人
舊迷思陰魂不散
「查就好瞭」
未來即現在

5. 專傢VS方程式
「讓人不安的小書」
人為何不擅預測?
何不兼取兩者之長?
我們還能做什麼?

6. 超級數據分析風潮為何在此時興起?
從九十到三百萬
資料交易
資料混搭
科技或技巧?
電腦能被教導和人一樣思考嗎?
「我們專門射火雞」
超級數據分析革命已經來臨
數位資訊潮

7. 故事愈來愈精彩
那老師算什麼?花瓶嗎?
帝國大反擊
地位之爭
你會嚮超級數據達人買二手車嗎?
艾波公司勇闖好萊塢
提防送禮物的超級數據達人
其他方式的歧視
資料全都露
洛特是誰?
假使算錯瞭呢?

8. 直覺(與專業知識)的未來
掌握未來的(女)人
將資訊濃縮在一個數字裏
民調領先的機率解讀
反嚮推理
波拉剋的懷孕問題
結語

後記
資料採礦民主化
免費進行隨機試驗
發掘最有效的誘因
正在成形的趨勢

附註

圖書序言

前言 超級數據達人崛起

  艾森菲特(Orley Ashenfelter)酷愛美酒,他說:「上好的紅酒隻要擺上幾年,便會發生奇妙的變化。」他不隻是執著於酒的美味,還想要瞭解是什麼因素決定酒的等級。

  「當你購買一瓶上好的紅酒時,其實是一種投資行為,你預期以後可能會更好喝。換句話說,你要知道的不是紅酒現在的價值,而是未來的價值。即使你沒有要賣而是自己要喝,也是一樣。當你想著:『如果我延遲滿足,將會得到多大的樂趣呢?』這句話本身就是一個樂趣無窮的問題。」過去二十五年來,艾森菲特投入相當多的心力研究這個問題。

  艾森菲特的正職是數據分析專傢。他利用統計方法從大量資料集裏擷取隱藏的資訊。身為普林斯頓大學的經濟學傢,他曾研究同卵雙胞胎的薪水,以評估多讀一年書的影響;也曾經從美國各州道路速限的差異評估州政府如何評價統計學上的人命價值。多年來,他一直擔任美國重要經濟刊物《美國經濟評論》(American Economic Review)的編輯。

  艾森菲特身材長大,一頭濃密的白發,聲音洪亮但親切,很容易成為一室的主角。他絕不是畏首畏尾的人,如果你以為數據分析專傢都是溫吞、孤僻型的,他會很快讓你颳目相看。我看過他在教室昂首闊步,溫和但熱情地剖析一篇報告背後的邏輯。當他對某件事贊譽有加時,你可要注意聽瞭。

  真正讓他惹上麻煩的是透過數據分析來評估波爾多葡萄酒的品質。他不似帕剋(Robert Parker)一類葡萄酒專傢採取「含酒吐齣」的品酒法,而是利用統計學找齣葡萄酒有哪些特質會影響售價的高低。

  他說:「這其實很簡單,葡萄酒是一種深受每年氣候變化影響的農産品。」他研究法國波爾多地區數十年的氣候資料,發現收成時雨量少加上夏季平均溫度高,便能生産齣最好的酒。一九五二至八○年的統計資料很符閤勃艮地與波爾多的葡萄酒價格。

  當葡萄夠成熟且果汁濃度高時,波爾多葡萄酒的品質最佳。夏天特彆熱的年份,葡萄夠熟,酸度自然降低。若降雨量低於平均值,葡萄的濃度便很高。因此,最高品質的葡萄酒多産於又熱又乾的年份。成熟的葡萄釀造齣的酒比較柔和(酸度低),濃度高的葡萄則能製造齣酒體醇厚(full-bodies)的美酒。

他很大膽地將這套理論化為下列公式:

  葡萄酒的品質=12.145+0.00117×鼕季雨量+0.0614×生長季平均溫度-0.00386×收成季雨量

  沒錯,隻要將任何年份的氣候統計數字填入,他就能預測當年度葡萄酒的一般品質。他還有更復雜的公式,可精確預測超過一百傢酒莊的葡萄酒品質。他承認:「看起來似乎就是一堆數字,但法國一八五五年著名的分類法就是用這個方式為葡萄園排名的。」

  傳統的葡萄酒評論傢對艾森菲特這種資料導嚮的預測法卻很不買帳。英國的《美酒》雜誌(Wine )說:「該公式之荒謬可笑不言可喻,根本不值一哂。」紐約酒商索科林(William Sokolin )指齣,波爾多葡萄酒業者對艾森菲特公式的看法「反應非常激烈,近乎歇斯底裏」。有些商會成員對他嗤之以鼻,有一次他到佳士得拍賣公司的酒類部門演講,坐後麵的酒商公開噓他。

  帕剋堪稱世界最具影響力的葡萄酒作傢(也是《美酒鑑賞傢》〔The Wine Advocate〕的齣版者),罵起艾森菲特非常生動,稱之為「如假包換、百分之百的騙子」。艾森菲特則是全球最受尊重的計量經濟學傢(quantitative economist)之一,但帕剋認為他「根本是用原始的方法在評論葡萄酒,荒謬到可笑的程度」。他認為數學公式絕無法算齣真正美味的好酒:「我絕不希望被邀請到他傢品酒。」

  帕剋說艾森菲特「就像一個從不看電影的影評人,光看演員與導演是誰便進行評論」。帕剋的話不無道理。實際去看電影當然比較準確,那麼,實際去品嘗美酒,應該會作齣較中肯的評論吧?但這裏麵有個問題:你必須等好幾個月纔能嘗到酒。波爾多與勃艮地葡萄酒必須先儲存在橡木桶裏十八至二十四個月,再裝入瓶中慢慢成熟。葡萄酒放入桶子後,帕剋這樣的品酒專傢必須等待四個月纔能嘗到第一口─那時的酒還在發酵,挺難喝的。喝下如此難喝的新酒,真能準確預知未來的品質嗎?很難說。舉例來說,凱塞(Bruce Kaiser)曾任拍賣商伯得富(Butter.eld & Butter.eld )的酒類部門主管,他指齣:「新釀的酒變化很快,沒有人─任何人都沒辦法─靠品嘗作齣正確評估,至少得等十年、甚至更久。」

  反之,艾森菲特的作法是運用數據分析找齣氣候與價格的曆史關係。他發現鼕季的雨量每增加一公分,可讓酒的預期售價提高○?○○一一七美元。當然,這隻是一個趨勢。但透過這個方法,他可以在葡萄剛採收時便預測未來的酒質─比專傢嘗到第一桶酒早瞭幾個月,比成品售齣時間更提前數年。在葡萄酒期貨交易熱絡的時代,他的預測讓美酒收藏傢多瞭一分競爭力。

  一九八○年代末,他開始將他的預測刊登在半年發行一次的通訊《液體資産》(Liquid Assets)。剛開始,他在《美酒觀察》(Wine Spectator)刊登小廣告,慢慢纍積瞭約六百位訂戶。這些訂戶是來自各地的富翁與酒迷,基本上是一小撮較能接受計量經濟學方法的酒類收藏傢。有多達三萬人每年付三十美元訂閱帕剋的通訊《美酒鑑賞傢》;相較之下,艾森菲特的訂戶少得可憐。

  一九九○年代初,《紐約時報》(New York Times)頭版有篇文章介紹艾森菲特的預測方法,他的觀念引起更廣泛的注意。帕剋對一九八六年波爾多葡萄酒的評價是「非常好,甚至極好」,艾森菲特的看法卻大不相同。他認為那年生長季的溫度低於平均值,收成季的雨量又高於平均值,釀齣的葡萄酒註定品質平平。

  文章中真正的震撼彈是艾森菲特對一九八九年波爾多葡萄酒的預測。那些酒放入桶子裏還未滿三個月,甚至沒有酒評傢品過,艾森菲特卻已預測那個年份的酒質將是「世紀之最」,保證「非常齣色」。依據他的標準,一九六一年的波爾多葡萄酒若是一百分,一九八九年的波爾多可高達一四九分,他大膽預測,「將創齣三十五年來最高售價」。

  酒評傢都被激怒瞭。帕剋譏諷艾森菲特的量化預估「荒謬可笑」,索科林說酒評傢的反應「介於憤怒與恐懼之間,他真的得罪瞭一缸子人」。不到幾年,《美酒觀察》拒絕再為他(或任何人)的通訊刊登廣告。

  傳統專傢準備群起攻之,指齣他的方法大有問題,無法精確預測未來的價格。舉例來說,《美酒觀察》的品酒主管馬修斯(Thomas Matthews)抱怨他的價格預測「在二十七種酒裏隻有三種準確」。他的「公式雖依據價格資料設計,他預測的價格有時會高於實際價格,有時又太低」。但對統計學傢(或任何曾思考過統計學的人)而言,這其實是好事,有時高、有時低代錶不具偏見。事實上,艾森菲特的預測凸顯齣帕剋最初的評比都偏高瞭,往往有嚮下修正的必要。

  一九九○年,艾森菲特更進一步獨排眾議。先前他宣布一九八九年波爾多葡萄酒是世紀之最,他從資料中看齣一九九○年的酒質更佳,而且將此發現公諸於世。迴頭來看,《液體資産》預測之準確讓人驚訝,八九年的波爾多葡萄酒品質確實很好,九○年的酒質也確實更好。

  怎麼連續兩年産齣世紀最佳的葡萄酒?原來自一九八六年以後,沒有一年的生長季溫度低於平均值;事實上,有長達二十多年的時間,法國一直享有宜人的氣候。那兩年特彆適宜釀造柔順的波爾多葡萄酒;對葡萄酒愛好者而言,這當然是好事。

  現在,傳統專傢比較注意氣候瞭。多數人並未公開承認艾森菲特的預測準確,但他們自己的預測確實比更貼近艾森菲特簡單公式的計算結果。艾森菲特的網站www.liquidasset.com 還在,但已沒有發行通訊。他說:「那些品酒傢和以前不一樣瞭,不會再犯嚴重的錯誤。坦白說,是我自己斷瞭自己的生路,我已沒有什麼利用價值。」

  批評者視他為異端,唯恐他揭開品酒世界的神祕麵紗。他揚棄花稍無意義的詞匯(如「強勁」、「堅實」、「輕盈」),直接說明預測的根據。

  業者的反彈不隻關於品酒美學。凱塞說:「酒商與評論傢就是不希望大眾太深入瞭解。最早的爭議源自八六年份的酒,艾森菲特說那些佳評都是騙人的。那一年其實很糟糕,雨水太多,溫度又不夠高,但當時所有的酒評傢都說得天花亂墜,強調那年的酒有多好。事實證明,艾森菲特是對的,但觀點正確未必受歡迎。」

  酒商與酒評傢為顧及自身利益,當然有必要持續壟斷有關酒品質的資訊。酒商利用永遠過高的初期評比來穩定酒價,《美酒觀察》與《美酒鑑賞傢》更因投資瞭幾百萬美元在裏麵,不能輕言放棄品酒界的龍頭地位。正如美國作傢辛剋萊(Upton Sinclair)及後來的美國前副總統高爾(Al Gore)所說的:「如果一個人因不懂某件事纔賺得到錢,自然也很難讓他搞懂。」酒類也是如此,艾森菲特指齣:「必須讓很多飲酒的人都認為我的公式沒用,那批人纔賺得到錢。現在突然間讓那些人的工作失去價值,他們當然不會高興。」

  不過我們看到一些改變的跡象。布洛班(Michael Broadbent)是倫敦佳士得國際酒類部門主管,他的說法很有技巧:「很多人認為艾森菲特是個怪咖。我想從很多方麵來說,他確實是怪,但幾年下來,我發現他的觀念與研究很準,對想要買酒的人確實有幫助。」

棒球界的艾森菲特

  品酒專傢的浮華世界似與棒球毫不相乾,但就很多方麵而言,艾森菲特對前者的影響就如作傢詹姆斯(Bill James)之於棒球界。

  詹姆斯在自編的年鑑《棒球摘要》(Baseball Abstracts)裏,對棒球專傢僅憑目測就能挖掘明日之星提齣質疑。路易士(Michael Lewis )在所寫的《魔球─逆境中緻勝的智慧》(Moneyball )裏指齣,詹姆斯是棒球界主張資料導嚮決策的第一人。詹姆斯的論點簡單有力,他認為資料分析優於專傢的觀察力:

  要評估球員的潛力需要很多資訊,光憑肉眼是不夠的。請想想看,打擊率三成與二成七五的球員怎麼可能憑肉眼看齣來?兩者的差異是每兩週多一支安打……。如果你一年看兩者打十五場球賽,有四○%的機率會看到二成七五的球員擊齣較多安打……。優秀球員與一般球員的差異根本無從分辨─關鍵在於資料。
  
  就像艾森菲特一樣,詹姆斯相信公式。他說:「評量球員的價值應該看他的得分貢獻。」因此詹姆斯設計瞭一套公式:

得分=(安打+保送)×壘打數∕(打數+保送)

  這個公式較注重球員的上壘率,對常被保送者尤其給予較高評分。詹姆斯的數據分析法當然讓球探恨得牙癢癢的。如果說帕剋之類的酒評傢是靠味覺與嗅覺生活,球探就是靠眼力維生,那是他們的價值所在。正如路易士所說的:
你知道球探如何找到明日之星嗎?就是開車奔走六萬哩,住上百傢破爛的汽車旅館,不知要在「丹尼」(Denny's )連鎖餐廳吃幾百次飯,纔能在四個月內看完兩百場高中與大專棒球賽,其中一百九十九場完全沒有意義……。你走進球場,在補手正後方第四排的鋁質長條椅坐下,以便看到彆人看不到的東西─至少彆人看到瞭也不知其意義。你隻要看到一次就夠瞭。「隻要看一次,就知道瞭。」

  球探和帕剋那類酒評傢的共同點不隻是喜歡吐口水。正如帕剋相信他隻要嘗一口酒就可評斷酒的品質,球探相信看一眼就可知道某高中球員是否有發展潛力。

  這兩種情況都嘗試預測未經試驗、不成熟産品未來的市值,隻是一個是葡萄,一個是球員。兩種情況的主要爭議在於:究竟應該相信專傢的觀察,還是量化的資料。

  球探和酒評傢一樣,常訴諸無法證明真僞的模稜語匯,如「他是真正的棒球員」或「他是天生好手」。

  《魔球》裏談到,資料與傳統專傢的衝突在二○○二年達到最高點。奧剋蘭運動傢隊(Oakland A)的總經理畢恩(Billy Beane)要徵選布朗(Jeremy Brown)。畢恩讀過詹姆斯的文章,決定依據數據用人。畢恩看上布朗,是因為他比其他大專球員更常被保送。而球探都不喜歡布朗,理由是他太肥。運動傢隊的球探冷嘲熱諷說他若穿燈芯絨褲跑壘,「準會著火」。球探一緻認為像他那種身材的球員不可能打進大聯盟。畢恩完全不在乎球員的外型,他的說法是:「我們又不是賣牛仔褲。」他唯一的要求是贏得比賽。事後證明,那些球探似乎都看走眼瞭,布朗比運動傢隊那年獲選的其他球員都進步得快速。二○○六年九月,他首度以大聯盟球員的身分為運動傢隊效力,打擊率高達三成(上壘率三成六四)。

  詹姆斯最初嘗試散播數據分析結果的情形與艾森菲特極雷同。就像艾森菲特,詹姆斯先為他的第一份通訊《棒球摘要》刊登小幅廣告(他美其名稱之為一本書)。第一年售齣七十五冊。就像艾森菲特被《美酒觀察》拒絕往來,詹姆斯要求艾利斯體育研究公司(Elias Sports Bureau)分享資料時,也同樣遭受冷落。

  但這兩人已在各自的領域留下永久的印記。《魔球》一書詳細記錄瞭運動傢隊的輝煌戰績,乃至波士頓紅襪隊在艾普斯坦(Theo Epstein)的資料導嚮管理下,贏得第一次世界冠軍,在在見證瞭詹姆斯恆久的影響力。傳統品酒作傢後來開始參考氣候變化作更準確的預測,其實也等於默默嚮艾森菲特緻敬。

  這兩人帶動瞭統計研究的風潮,不少人對他們的數據分析大錶認同。詹姆斯激勵瞭美國棒球研究學會(SABR)的成立,現在甚至有一個術語代錶棒球領域的數據分析─棒球統計學(sabermetrics)。艾森菲特則是在二○○六年發行《美酒經濟學期刊》(Journal of Wine Economics)。現在還有一個酒類經濟學傢協會;毫不令人意外,艾森菲特就是首任會長。事後看來,艾森菲特初期的預測超準。我查瞭一下拉圖堡(Chateau Latour)最近的葡萄酒拍賣價,一九八九年份的售價果然是八六年份的兩倍有餘,九○年份的售價更高。帕剋,你能不心服嗎?

美酒的真相

  本書旨在說明數據分析在品酒與棒球界的興起絕非單一現象,這兩個例子是本書探討內容的縮影。我們正處於馬車與火車競賽的曆史轉捩點,直覺與專業經驗一次又一次敗給數據分析。過去,很多決策都是依據經驗與直覺的某種組閤,專傢憑藉個人數十年嘗試犯錯的經驗而廣受尊崇。一般人總認為專傢最懂,因為他們已纍積韆百次的經驗,所以能夠在社會上生存、成功。任何人想要知道某個問題怎麼解決,問老經驗的專傢就是瞭。

  現在情勢轉變瞭。公私領域的專業人員愈來愈仰賴資料庫作為決策依據。避險基金的故事讓我們看到新品種的數據分析專傢已然問世─姑且稱之為「超級數據達人」(Super Crunchers)─這些人透過大量資料集的分析,在看似不相乾的事物中找到實證的關聯。你有大筆歐元部位需要避險嗎?他們可能會告訴你,你應該賣齣由二十六種股票與商品組成的保守平衡標的,裏麵可能包括美國連鎖超商沃爾瑪的股票。

  什麼是「超級數據分析」(Super Crunching)?超級數據分析是影響實務決策的一種統計分析,通常是透過數量、速度、規模的某種組閤作齣預測。這種分析使用的資料集都很龐大─所謂龐大包括資料與變項。此外,分析速度也愈來愈快,往往資料剛齣爐便能作齣即時的數據分析。影響的程度更是不可小覷,這裏所說的可不是一小撮學院書呆子弄齣幾篇聳動的文章,超級數據分析是因應決策者的實際需求而生的,甚至由決策者自己主導。

  我說超級數據達人運用的資料集很龐大,這句話一點也不誇張。現在業者或政府的資料集往往不是以百萬位元(mega)或十億位元組(gigabytes)計,而是兆位元(tera),甚至韆兆位元組(petabytes)。一個兆位元組相當於一韆個十億位元組。兆位元一詞源自希臘文,原意龐然大物(或怪物)。事實上,兆位元組也確實是龐然大量─整個美國國會圖書館的藏書也不過大約二十兆位元組。本書的一個重點是告訴讀者要開始習慣這個單位。舉例來說,沃爾瑪的資料庫儲藏量超過五百七十兆位元組,Google 則約有四韆兆位元組必須日夜分析。顯見資料採礦(tera mining)已不再是幻想故事的題材,而是此刻正在發生的事。

  在一個又一個領域,「直覺主義者」與傳統專傢都在與超級數據達人對抗。在醫界,「實證醫學」(evidence-based medicine )引發激烈爭辯,歸根究底,爭的是治療方法的選擇是否應該依據統計分析。直覺主義者當然不會輕易認輸,他們堅稱資料庫絕無法涵蓋專傢窮一生經驗纍積的知識,迴歸分析也絕比不上一個有二十年資曆的急診室護士,她可能隻要看一眼就能判斷一個小孩是否「不太對勁」。

  當我們想到棋王卡斯帕洛夫(Garry Kasparov)會輸給電腦「深藍」(Deep Blue),總認為是因為IBM 的軟體太聰明。其實那個軟體就是一個龐大的資料庫,將各棋步的優劣進行詳細的比較。電腦的速度很重要,但電腦真正緻勝的關鍵在於掌握瞭七十萬種棋賽的資料庫。卡斯帕洛夫的直覺敗給瞭資料導嚮的決策。

  超級數據達人不僅侵入傳統專傢的領域並取而代之,更改變瞭我們的生活。他們不僅改變瞭人們的決策方式,也改變瞭決策本身。棒球球探會敗給統計專傢,不隻是因為數據分析專傢的成本比球探搭飛機跑來跑去低很多,也因為球探的預測比較不準。當然,超級數據達人與專傢的意見並不是每次都不相同,有時候數據分析專傢的結果還印證瞭專傢的智慧。如果專傢的預測百分之百都是錯的,甚至比一般機率還低,那這個世界也未免太扭麯瞭。但事實是,數據分析專傢可以讓我們作不同的選擇,而且通常是更好的選擇。

  我們在一個又一個領域觀察到同樣的現象:看起來完全不同的的資訊因統計分析而發掘齣隱藏的關聯。假設你是政治人物,想要知道誰最可能捐款給你、用哪一種形式爭取選票最有效,你不需要猜,也不一定要遵循經驗法則,或是信任經驗老到的專傢。現在,你也可以揀選不同元素的可測量效益,找齣最能打動人的作法。透過資料庫的搜索,能夠揭露傳統專傢永遠想不到的隱藏因素。我們周遭到處看得到資料導嚮的決策:

  .租車公司與保險公司拒絕為信用評比低的人服務,因為他們從資料採礦得知信用評分與行車事故的機率有關。

  . 有人取消機位時,航空公司不再優先給常客,而是給資料採礦結果認定最可能跳到彆傢公司的顧客。此外,很多公司不再採取先到先服務的原則,而是依據個彆顧客的數十種狀況而定。

  .依據「有教無類法案」(No Child Left Behind Act ),學校的教學方法必須通過嚴謹的資料分析,老師因而花費四五%的上課時間訓練學生通過標準化的考試。部分老師上課時甚至要使用經過統計評估的固定用語。

  直覺主義者可要提高警覺瞭。本書將詳細介紹一連串讓人眼花繚亂的超級數據分析案例,以及案例的主角。超級數據分析革命並非隻發生在棒球界或體育界,而是遍及日常生活的每個層麵。很多時候,超級數據分析革命對消費者是好的,可以讓廠商與政府更準確預測民眾需要,但有時候可能形成對消費者不利的情勢,因為廠商能準確預測齣從我們身上可榨齣多少錢。

  李維特(Steven D. Levitt )與杜伯納(Stephen J. Dubner )在《蘋果橘子經濟學》(Freakonomics )裏提齣數十種例子,說明資料庫的統計分析如何揭露因果關係背後的關鍵力量。而李維特與唐納修(John Donohue )讓我們知道,看似不相乾的事件,如一九七○年的墮胎率與一九九○年的犯罪率,其實有很重要的關聯。(這兩人都是我的好友,也曾閤作寫書,本書後麵會再提到他們。)但《蘋果橘子經濟學》並未討論量的分析如何影響實務決策,而這正是本書要補足的重點。事實是,産業內、産業外,有許多人正透過你想不到的方式將統計分析運用在各項決策上。

  電腦資料庫的容量大增,正讓全球産業改變風貌。一九五○與六○年代,人們曾經預期(又害怕)在強勢政府與企業的主導下,精密的社會工程(social engineering )將席捲全世界─例如派卡德(Vance Packard )所寫的《隱形的說客》(The Hidden Persuaders)便反映齣這種心理。現在,同樣的情勢似乎又在新一代身上齣現。隻是過去我們以為強勢政府會透過命令與控製解決所有問題,這次觀察到的,卻是超大的資料網路在發威。

我為何挺身而齣?

  我本身是一個數據分析專傢。雖然我在耶魯教法律,在麻省理工學院讀博士時學的卻是經濟。我分析過各種領域的數據,從假釋金到腎髒移植、隱匿攜槍、無防護措施的性行為,無所不研究。讀者可能在想,這樣一個象牙塔裏的書呆子一定和現實世界的決策大大脫節(沒錯,我確實是那種心不在焉的教授,有一次要搭火車到波基普西市〔Poughkeepsie 〕,卻因寫文章太投入一直坐到紐哈芬〔New Haven)〕。但就連書呆子的資料採礦結果,有時也會影響現實世界。

  幾年前,李維特和我曾閤作探討一個很實際的問題─路捷失竊車輛尋迴係統(LoJack )對汽車失竊率的影響。路捷是一種小小的無綫電收發器,可以隱藏在汽車內很多位置。當汽車被通報失竊時,警察可遙控啓動無綫電收發器,具特殊配備的警車便可找齣失竊車輛的確切位置。路捷可說是很有效率的找車裝置,路捷這傢公司很清楚這點,也很自豪地在廣告中宣揚失竊車輛的找迴率達九五%。我和李維特想要試驗路捷是否有助於降低整體失竊率。很多防盜器的問題在於隻是轉移犯罪目標,例如你的車子裝瞭方嚮盤鎖,大概無法遏止犯罪,頂多讓竊賊多走幾步路去偷另一輛車。路捷最厲害之處在於它是隱藏的。如果一個城市有很多汽車都安裝路捷,竊賊將無法得知哪部車裝瞭、哪一部沒裝。

  李維特喜歡探討的就是這類怪問題。難怪《蘋果橘子經濟學》的評論傢會說李維特看事情的角度與眾不同。幾年前,我剛好多一張球賽的票,便邀他和我一起去看麥可?喬登為「芝加哥公牛」齣賽。李維特認為他若能更投入,會看得更有趣。但他不像我那麼在意公牛贏還是輸,因此,就在開賽前,他趕緊上網下注,押公牛贏。果然他看球賽時變得相當投入,網路賭博改變瞭他的動機。

  從某個奇特的角度來看,路捷也能改變人的動機。在路捷齣現之前,很多職業竊賊幾乎不可能被抓。路捷改變瞭這一切。現在警察不僅能找迴失車,往往也能逮到竊賊。單是在洛杉磯,就有上百傢贓車解體工廠因此被破獲。如果一個人在路捷使用率高的城鎮偷瞭一百輛車,幾乎必然會偷到裝有路捷的車。我們想要試驗的是,路捷是否能全麵嚇阻竊車;如果可以,這便創造齣經濟學傢所謂的「正嚮外部效應」(positive externality )。當你在車上裝方嚮盤鎖,可能會使鄰車被偷的機率提高。但如果很多人裝路捷,我們認為可能對職業竊賊産生赫阻作用,避免彆人的車子被偷。

  我們最大的問題是說服路捷將銷售資料交給我們。我記得曾一再打電話溝通說服他們,我和李維特的假設如果為真,會讓消費者更有理由購買路捷。如果路捷讓彆人的車輛失竊率跟著降低,或許路捷可以說服保險公司提供路捷使用者較多的摺扣。最後,終於一位低階經理寄來一堆有用的資料,但坦白說,路捷剛開始對這項研究並不是很感興趣。

  當路捷看到研究報告的初稿時,一切都改觀瞭。我們看瞭五十六座城市十四年間的汽車失竊資料,發現路捷對其他車主助益頗大。在高犯罪率地區,投資五百美元裝路捷,可讓未裝路捷的汽車減少五韆美元的損失。我們將路捷的銷售數字依年份及城市細分,精確評估路上的汽車有多少比例裝瞭路捷。(以波士頓為例,當地規定的汽車保險摺扣最多,超過一○%的汽車都有裝路捷。)我們要探討的是,當路捷使用者增加時,對全市汽車整體失竊率有何影響。由於路捷在各城市開始銷售的年份不同,我們在評估路捷的影響時,可輕易與同一年度的一般犯罪率分開來看。我們在許許多多城市都發現同樣的現象─隨著路捷裝設率增加,汽車失竊率明顯下降。保險公司給予路捷的摺扣根本不夠多,因為他們沒有考量到,連缺乏保護的汽車也因路捷減少瞭保險理賠。

  我和李維特都沒有買路捷的股票(坦白說,那是因為我們不希望改變自己的動機),但我們自知掌握瞭寶貴的資訊。我們的報告發錶後,該公司股票漲瞭二?四%。我們的研究說服瞭更多城市採用路捷科技,也促使保險公司提供更多摺扣(但還是不夠多)。
  我要錶達的重點是,我熱愛數據分析,我的角色等於是資料採礦咖啡廳裏的主廚。就像艾森菲特一樣,我在一份重要期刊《法律、經濟學與組織期刊》(Journal of Law, Economics, and Organization)擔任編輯,必須經常評論統計報告的品質。由我來探討資料導嚮決策的興起,具備絕佳的視野,因為我既是這股風潮的參與者也是觀察者,能看熱鬧也能看門道。

本書重點

  下麵五章將詳述超級數據分析在整個社會的興起。前三章會介紹兩種基本的統計方法─迴歸分析與隨機試驗,說明量化預測的藝術如何重塑企業與政府。第四章討論實證醫學引起的爭議。第五章則介紹上百項試驗結果,以比較資料導嚮決策與經驗決策跟直覺決策之間的差異。

  本書第二部分將退一步評估這個趨勢的重要性,探討為何在此時形成潮流,以及這是否值得令人欣喜。第七章檢視這股風潮中哪些人的損失最大─包括失去地位與裁決權。最後一章要展望未來,超級數據分析不代錶直覺將被摒棄或職場經驗不再重要。我們相信在新時代裏,最聰明優秀的人必能同時善用統計與創意。

  總而言之,本書並不是要全盤否定直覺或專業經驗作為決策依據的價值,而是要凸顯齣這兩者的演變軌跡,以及如何與資料導嚮的決策相輔相成。事實上,我們看到一種新型的超級數據達人─如李維特─在直覺與數據分析之間悠遊往返,卻也因此比直覺主義者或統計專傢看得更遠更廣。

中文版推薦序
超級數據達人的超級任務
輔仁大學統計資訊學係教授∕中華資料採礦協會 理事長 謝邦昌

  伊恩.艾瑞斯是美國著名的計量經濟學傢與律師,經常在美國公共電颱的「市場分析節目」(Marketplace)擔任評論員,也是《富比世雜誌》(Forbes)的專欄作傢。目前為耶魯法學院教授(William K. Townsend教授席)、耶魯管理學院教授,也擔任《法律、經濟學與組織期刊》(Journal of Law, Economics, and Organization)編輯,著作等身。很榮幸能幫他的新書《什麼都能算,什麼都不奇怪──超級數據分析的祕密》中譯本寫推薦序,這本好書介紹的是數據分析──讓你我都身陷「數海」的解救者。

數據分析無所不在

  大多數科學傢在麵對數據分析時,都會問「我該收集什麼數據」、「從數據中我可以作齣什麼結論」,或是「對於結果,我可以相信多少」之類的問題。其實,統計學與資料採礦(Data Mining)是數據分析(data analysis)的科學,用來處理歸類分析數據的問題並作齣決策。處理問題所用的一些數據分析方法,例如假設檢定、綫性迴歸分析、標準差及信賴區間……等等,我們在科學上都很熟悉。

  許多傳統的數據分析方法是在一九二○年到五○年之間發展齣來,而這段期間的數據分析學傢包括費雪(R. A. Fisher)、尼曼(Jerry Neyman)及荷特林(Harold Hotelling)等人。到瞭一九八○年代以後,因為電腦的快速發展,硬體速度愈來愈快,軟體解決問題及運算的能力愈來愈強,使得數據分析的理論及新的數據分析方法論受到很大的影響,諸如一些在電腦應用上發展得不錯的數據分析方法論,都是統計學與資訊科學的結閤,而這些新的方法現在都大量運用在數據分析上。

  幾乎每個領域都需要使用數據分析作為分析工具,甚至扮演舉足輕重的角色。當然並非沒有數據分析就無法運作,但有瞭數據分析加入,可以作齣更好、更精緻的決策,因此數據分析可應用的層麵是無所不在的。

  管仲曾說:「不明於計數欲舉大事,如舟之無楫而欲行於大海也。」(《管子?問篇》)意指在不清楚相關數據的情況下想做大事,無疑像沒有槳的船想航行於汪洋大海中。《什麼都能算,什麼都不奇怪》列舉許多數據分析協助成功決策的例子,從紅酒的品味公式、賭場的輸贏、治國的機率分析、醫生應如何看待實證醫學,到棒球及職業球賽,都是利用數據分析的結果作決策並掌握趨勢的實證例子。

圖書試讀

用户评价

评分

拿到這本書的時候,我其實是帶著一點點懷疑的態度。畢竟“超級數據分析”這個詞聽起來就有點誇張,而且“什麼都能算”更是讓人覺得有點不靠譜。不過,當我開始閱讀之後,我的這種疑慮就煙消雲散瞭。作者的筆觸非常生動,他沒有直接拋齣復雜的理論,而是從一個又一個引人入勝的故事講起,娓娓道來。 讓我眼前一亮的是,書中對於“因果關係”和“相關關係”的區分。這絕對是數據分析中的一個核心問題,也是很多人容易混淆的地方。作者用非常生活化的例子,比如“冰淇淋銷量和溺水人數都上升”這個經典的比喻,清晰地解釋瞭相關性不等於因果性。這讓我對很多社會新聞或者廣告宣傳中模糊因果關係的做法有瞭更深刻的理解。我平時也經常會聽到一些“大數據顯示…”,但總覺得哪裏不對勁,這本書就像給我打開瞭一扇窗,讓我能夠更理性地看待這些信息。我期待書中能夠更深入地探討如何避免數據分析中的陷阱,以及如何建立更嚴謹的分析框架。

评分

收到書的時候,封麵設計就很有質感,黑白為主調,搭配上一個抽象的圖形,看起來很有科技感,又不失神秘感。書名“什麼都能算,什麼都不奇怪”更是直擊人心,總感覺裏麵藏著一些我們平常忽略的、但卻又無比重要的東西。翻開第一頁,就被作者的開篇給吸引住瞭。他沒有一開始就講那些復雜的公式和模型,而是用瞭一個非常貼近生活的小故事,說明瞭數據在決策中的重要性。這個故事講的是一個雜貨店老闆,通過記錄顧客購買的商品種類和頻率,最終成功地調整瞭貨架的擺放,大大提升瞭銷售額。 這個例子真的太形象瞭!讓我立刻意識到,原來數據分析並非遙不可及,它就藏在我們日常的經營和生活之中。書中提到的一些案例,比如分析某件商品為什麼會突然大賣,或者預測某類産品的用戶偏好,都讓我覺得非常實用。我腦海裏立刻閃過很多自己生活中遇到的類似情況,比如為什麼有時候我明明覺得某個東西很好用,但銷量卻不高?或者為什麼某個網紅産品突然就爆紅瞭?如果這本書能夠提供一些分析的思路和方法,讓我能夠理解這些現象背後的邏輯,那絕對是物超所值。我尤其期待書中關於“預測”的部分,畢竟能夠提前預知趨勢,總是讓人充滿安全感。

评分

這本書的題目真的很有意思,一開始看到還以為是本算命的書,或者是什麼玄學之類的,畢竟“什麼都能算”聽起來就有點神秘兮兮的。但點進去一看,是關於“超級數據分析”的,這反差也太大瞭,讓我好奇心瞬間爆棚。我一直覺得數據分析離我們很遙遠,好像是科學傢、工程師那種高大上的職業纔會用的技能。結果這本書居然告訴我,好像我們生活中很多東西都可以用數據來分析,而且還能得齣一些意想不到的結論。 比如,我常常覺得,為什麼我喜歡的那幾傢餐廳,生意總是那麼好,而且菜品口味好像也很穩定?這本書會不會解釋,其實這些店主可能就默默地在觀察顧客的點餐習慣,分析什麼菜賣得最好,什麼時段人最多,然後根據這些數據來調整菜單和備貨?再比如,我平時追劇,有時候會覺得某些劇情的發展特彆有道理,有時候又覺得很狗血。是不是也可以用數據來分析,哪些類型的劇情更受歡迎,哪些橋段更容易引起觀眾共鳴,甚至哪些演員的錶演更能帶動收視率?如果這本書能把這些隱藏在生活中的“數據規律”揭示齣來,那真的太有趣瞭。我本身不是學統計或計算機的,所以很期待它能用比較易懂的方式來解釋這些概念,讓我也能窺探到“超級數據分析”的冰山一角。

评分

這本書真的顛覆瞭我對“數據”的認知。我一直以為數據分析就是一堆冰冷的數字,隻有專業人士纔能駕馭。但讀瞭這本書之後,我發現數據分析原來可以這麼有趣,而且應用範圍如此之廣。作者在書中花瞭很大的篇幅去解釋,為什麼“什麼都能算”,背後的邏輯是什麼。他通過大量的案例,從商業決策到社會現象,甚至是個人生活中的選擇,都展示瞭數據分析的強大力量。 讓我印象最深刻的是,書中提到的一些“反直覺”的發現。比如,有時候我們認為很重要的事情,在數據麵前可能微不足道;而一些我們忽略的細節,卻能成為關鍵的驅動因素。這讓我開始反思自己平時的決策方式,是不是太依賴主觀臆斷,而忽略瞭客觀的數據支持?作者還鼓勵讀者要保持開放的心態,不要輕易否定任何一種可能性,因為在數據麵前,很多“奇怪”的事情都會變得閤乎情理。我特彆喜歡書中那種探索未知的精神,它讓我覺得,即使是看似微不足道的信息,也可能蘊含著巨大的價值,隻要我們懂得如何去挖掘和解讀。

评分

說實話,這本書真的讓我大開眼界。我一直以為數據分析就是那些公司用來優化産品、提升營銷效果的東西,離我們普通人太遠瞭。但這本書完全打破瞭我的這個認知。作者用一種非常接地氣的方式,解釋瞭“數據”到底是什麼,以及我們如何能夠利用它來理解世界。 我尤其喜歡書中關於“隱藏的規律”的論述。作者指齣,很多時候,我們看似偶然的事件,其實背後都有著數據支撐的規律。比如,為什麼某個音樂風格會突然流行起來?為什麼某個社交媒體平颱的用戶增長會放緩?這些看似隨意的現象,如果進行深入的數據分析,都能找到其內在的邏輯。這本書教會我的,不僅僅是分析數據的方法,更是一種觀察世界、思考問題的方式。它讓我開始更加留心身邊的事物,並且嘗試去思考,這些事物背後可能存在著怎樣的“數據故事”。我感覺這本書就像是一個引路人,指引我去探索數據世界的奧秘,讓我相信,即使是“什麼都不奇怪”,也一定有可以被理解的“為什麼”。

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 twbook.tinynews.org All Rights Reserved. 灣灣書站 版權所有