狠狠撸

狠狠撸Share a Scribd company logo
大數據的基本概念
(上)
彙整自《大數據(Big Data)》一書
作者:麥爾荀伯格、庫基耶
天下文化2013年出版
Chris Liao
版權聲明
本簡報中使用的內容與圖片引用,版權皆屬原作者
或原出版商所有。
本簡報僅為個人閱讀書籍、彙整與分享交流之用,
並無商業用途。
內容來源
中文書名:大數據
英文書名:Big Data – A Revolution That Will
Transform How We Live, Work, and Think
作者:麥爾荀伯格(Viktor Mayer-Sch?nberger)
庫基耶(Kenneth Cukier)
出版商:天下文化;譯者:林俊宏
大綱
? 什麼是大數據(Big Data)?
? 大數據跟一般數據有何不同?
? 大數據的第一項特性:樣本 = 母體
? 大數據的第二項特性:雜亂不精確
? 大數據的第三項特性:相關性為王
圖片來源:http://www.thebigdatasolutions.com/
什麼是
數據?
什麼是大數據?
? 原文是Big Data,直翻為大數據,又翻為巨量資料
或海量資料
? 大數據該有多大?事實上,沒有絕對的標準,只
要分析的樣本數趨近母體數(相對的概念),都可叫
大數據;總之,不會太小
圖片來源:
http://www.forbes.com/sites/gartnergroup/2013/03/27/gart
ners-big-data-definition-consists-of-three-parts-not-to-be-
confused-with-three-vs/
什麼是大數據?
? 哪裡看的到大數據?在天文觀察、人類基因組解
密、股市交易、Google搜尋、Facebook的照片與
留言、Youtube的影片、Twitter的訊息等領域,都
看的到大數據及其應用
圖片來源:https://sites.google.com/site/jjhumangenome/
人類基因組共包括23對
染色體,約30億個鹼基對!
什麼是大數據?
Google每天的搜尋量超過
35億次!
推特(Twitter)每天發布的訊
息量超過5億則!
當我們利用幾乎全部的資料來進行分析,就是使用大數據的第一步
大數據 有何不同?
圖片來源:https://someoffenseintended.wordpress.com/tag/mens-rights/
大數據有何不同?
1. 資料可以重複利用,產生新的經濟價值
2. 資料規模的改變引發狀態的改變 (量變?質變)
3. 必須使用新的工具來分析資料
4. 創新之處不在於處理資料的機器,而是資料本身
和使用的方式
大數據有何不同?
? 巨量資料的使用包含三種思維的改變:
1. 要具備針對主題分析龐大資料整體的能力
2. 願意接受真實資料會雜亂不清的事實
3. 要看重相關性,而非因果關係
圖片來源:http://www.taopic.com/search.php?keyword=%D0%A1%C5%AE%BA%A2%CB%BC%BF%BC
分析
資料整體
不精確
是必然
重視
相關性
案例一
http://www.google.org/flutrends
Google利用搜尋關鍵字預測H1N1流感傳播情形
案例一
? Google拿美國最常見的5000萬個搜尋關鍵字與疾
病管制局的歷史流感傳播資料比對
? 建立4萬5千種數學模型,找出45個搜尋關鍵字,
與流感最有關連
? 這些關鍵字能夠提供即時的疫情爆發預測,而非
疾管局遲至一、兩個禮拜後的通報速度
Google利用搜尋關鍵字預測H1N1流感傳播情形
案例二
Farecast利用大數據分析預測飛機票價資訊
圖片來源:https://www.flickr.com/photos/7773848@N03/500455560/
案例二
? Farecast從航空業航班預定資料庫中取得2000億
筆飛機票價紀錄,與出發前天數做比較
? 如果系統預測機票價格平均將下跌,就會建議消
費者再等等;如果預測機票價格將上漲,則會建
議以目前票價購買
? 2008年被微軟併購,結合進Bing搜尋引擎中(儼然
是扼殺了這套系統…)
Farecast利用大數據分析預測飛機票價資訊
大數據特性一:
樣本 = 母體
圖片來源:http://tiffyx.deviantart.com/art/LEGO-population-72423610
大數據特性一:樣本=母體
? 母體:針對一主題研究調查的全體對象
? 樣本:母體中抽樣取出的子集合
? 大部分研究基於成本與時間考量,無法針對所有
對象(母體)做研究,於是便採用隨機抽樣的方式挑
選出足以代表母體特徵的樣本作為研究對象
母體:例如所有65歲以上的人口
樣本:例如65歲以上的人口中,依據縣市人口比例抽樣共1萬人
抽樣的問題
? 很多時候,刻意打造能代表母體的樣本,反而導
致巨大的誤差,最好的方法便是進行隨機抽樣
? 但真正的隨機抽樣其實難上加難,易受系統性偏
差影響
? 抽樣的另外一個問題是:抽樣後的尺度無法調整,
若想將結果分成子群,結果的錯誤率會大增
抽樣的問題
? 抽樣後調整尺度的問題舉例:
全校2000位小學生中,抽樣100位學生,依據年齡與身高做比對,結果如下:
再從9~10歲的子群中,進一步分析男女的身高影響,結果如下:
除了樣本數少造成誤差提高之外,子群能否代表原先
抽樣的群體也是問題
年齡區間 學生數 平均身高
7~8歲 35 124 cm
9~10歲 40 133 cm
11~12歲 25 140 cm
性別 學生數 平均身高
男 22 130
女 18 136.7
抽樣的問題
? 抽樣調查必須精心的規劃與執行,蒐集的樣本無
法再繼續擴展延伸,只能用於最初蒐集的目的,
無法以全新觀點加以分析
? 若一開始針對顧客年齡、性別、購買頻率的資料
進行抽樣調查,蒐集完成後要再進一步分析平均
購買單價,便會很難
圖片來源:http://www.examiner.com/article/don-t-suffer-from-
regretful-social-networking-part-1
大數據特性一:樣本=母體
? 由於技術與資料化已有長足進步,蒐集全部對象
的資料不再是不可能的任務
? 大數據分析要能創造新的價值,勢必要在一開始
便盡量蒐集全部的資料,也就是「樣本 = 母體」
? 所以大數據指的不是絕對的資料量,而是相對的
概念,指的是要有完整的資料集
案例三
Xoom透過大數據分析監控國際匯款業務
https://www.xoom.com/
案例三
? 2011年透過系統警告發現,紐澤西州有一批信用
卡的交易出現異常,資料庫中原本不應該有固定
模式的地方,出現了固定模式,而這些交易隨後
證實都出自同一犯罪集團
Xoom透過大數據分析監控國際匯款業務
http://www.economist.com/node/21554743
案例四
? 芝加哥大學經濟學家
李維特分析11年來超過
64000場相撲比賽紀錄,
發現了比賽的作假情形
? 由於選手勝場數必須
過半才能維持級別與收入,若甲方不差一場勝利,而
乙方只差一場勝利,則乙方獲勝的機率極高
日本相撲比賽作假
圖片來源:http://japan-magazine.jnto.go.jp/tw/1312_sumo.html
案例五
利用通話紀錄分析群體人際網絡
? 網路理論學家巴拉巴西分析在歐洲某國市占率達
五分之一的行動通訊商之四個月內的通訊資料
? 在分析整體資料後,得出了獨特的結論:如果把
社群中連結眾多的人去除後,網絡雖不再緊密,
但仍不會崩潰;若是移除與社群外有聯繫的人,
則整個網絡反而有可能會崩潰
圖片來源:http://dreamtouchrenovations.com/home-clutter-cleaning/
大數據特性二:
雜
亂
不精確
大數據特性二:雜亂不精確
? 雜亂的來源:
1. 資料量越多,資料錯誤不精確的可能性越高
2. 結合不同源頭、不同類型的資料
3. 資料格式不一致
巨量資料的概念,就是讓數據的重點從「精確」走
向「可能性」
大數據特性二:雜亂不精確
? 過去的類比時代缺乏資訊,每個資料點都至關重
要,因此資料的精確是最重要的
? 但現在,透過科技技術的發展,我們可以輕易蒐
集到大量的數位資料,資料的精確性已不再重要
? 事實上,造成雜亂的不是大數據本身,是測量、
記錄與分析的工具尚不完善
大數據特性二:雜亂不精確
? 以往的關連式資料庫用於應付當時資料有限的狀
況,必須在一開始就知道要問那些問題,據以設
計資料庫,但資料庫就只能回答這些問題而已
? 現在的資料庫漸漸從SQL資料庫程式語言轉換成
NoSQL,像是Google的MapReduce系統與開放
碼軟體Hadoop
大數據特性二:雜亂不精確
? 有人估計,所有數位資料中,只有5%適合傳統資
料庫的結構化形式,如果不接受雜亂,就無從使
用其他95%的非結構化資料
從現在開始,我們應該擁抱不精確所帶來的好處!
資料雜亂
但數量龐大 資料精確
但數量少
案例六
? 早在1997年,超級電腦「深藍」就曾擊
敗世界西洋棋王卡斯巴羅夫
? 現在,電腦的棋力更大為進步,因為系
統裡有了更多的殘局應對資料,電腦的
殘局處理能力有顯著進步
? 針對六顆棋子以下的殘局,所有的棋步
都有完整分析,人類絕對無法勝出
對弈數越多,電腦下西洋棋越強
圖片來源:
https://zh.wikipedia.org/wik
i/%E6%B7%B1%E8%97%
8D_(%E9%9B%BB%E8%
85%A6)
案例七
電腦自然語言處理(語言翻譯)能力
Google目前提供共91種語言的翻譯,也能提供一些罕見的語言對譯,例如:北
印度語和加泰羅尼亞語;甚至可由查詢的使用者決定哪一種翻譯最好
案例七
? 2000年微軟研究員實驗證實,與其開發演算法,
擴大語料庫的成效更好
? 1990年代,IBM開發Candide系統,輸入英法語國
會文件,將語言翻譯問題轉換為數學運算問題
? 2006年Google利用全球網路多達數十億的翻譯網
頁開發語言翻譯功能,雖然資料雜亂,翻譯的成
效卻比其他系統好得多
電腦自然語言處理(語言翻譯)能力
案例八
? 英國石油公司在櫻桃岬煉油廠各處裝有感應器,
藉以即時產生大量監測資料
? 由於環境溫度高,又有各種電器設備,所以雜訊
也多,但龐大的資料量蓋過此缺點,協助英國石
油公司預測或分析風險點與原因
英國石油公司煉油廠的風險控管
圖片來源:http://beaconnews.ca/blog/2015/08/western-canada-feeling-
pains-of-low-crude-and-high-gas-prices/
案例九
? 美國勞工統計局需雇用數百名員工蒐集市場上八
萬個項目的價格來計算消費者物價指數,需花費
大量金錢與時間
? 麻省理工學院利用抓取網頁的軟體,每天蒐集全
美超過50萬品項的產品價格,雖然資料十分混亂,
但結合巨量資料的蒐集與分析,能比人工作業快
上2個月看出通貨緊縮的端倪
蒐集大量網頁中的價格資訊來預測通貨緊縮危機
案例十
? 由於不可能預先設想到所有可能的分類,Flickr便
讓使用者自訂標籤(當然可能打錯或拼錯字)
Flickr用標籤(Tag)取代照片分類
圖片來源: http://climbtothestars.org/archives/2007/06/20/flickr-open-up-tagging-your-photos-to-the-community-please/
2015年時,Flickr已
有9200萬名會員,
每天上傳超過350萬
張照片!
案例十一
ZestFinance利用大數據判斷是否提供小額短期貸款
http://www.zestfinance.com/
案例十一
? Google前資訊長梅瑞爾成立的ZestFinance透過分
析大量重要與「不重要」因素,判斷申請人的信
用評比,藉此決定是否該提供小額短期貸款
? 許多借款客戶的資料欄位都是空的,或甚至被誤
登記為「已死亡」(高達10%的客戶!)
? 2012年,該公司的貸款違約率比起行業平均低上
三分之一
ZestFinance利用大數據判斷是否提供小額短期貸款
大數據特性三:
相
關
性
為王
圖片來源: http://www.ucchusma.net/station/art_web/thangka/tk_other/Wheel_of_life/
大數據特性三:相關性為王
? 很多時候,我們只需要知道「正是如此」,不需
要知道「為何如此」
? 也就是注重「相關性」,而非「因果關係」
圖片來源:http://www.garmaonhealth.com/the-hormone
-chronic-health-problem-connection/
? 相關性 (Correlation)
A增加,則B有很高機率增加
? 因果關係 (Causation)
若有P,則有Q;若非Q,則非P
因果研究的缺點
? 小量資料的時代,往往是先提出假說,再調查因
果關係或相關性分析,易受先入為主的偏見或錯
覺影響
? 人類直覺式尋找因果關係的「快思系統」,讓我
們能很快下結論,但容易產生偏見與誤解
? 因果關係的研究與實驗,往往非常昂貴又費時,
而相關性的研究,相較之下相當快速又便宜,相
關性分析甚至能協助找出因果關係
大數據特性三:相關性為王
? 許多過去基於假說的研究方法,現在可以改用資
料作為基礎,讓研究結果減少偏見及更準確,而
且更加快速
? 大數據的應用之一,就是「預測分析」,例如預
測歌曲是否為暢銷金曲、偵測機械或結構中的問
題,藉由偵測徵兆而發出警告,能夠避免突然的
重大故障
大數據特性三:相關性為王
? 以往面對大型資料集的分析,通常只能尋找線性
關係,但有許多現實世界的關係並非線性關係,
而是非線性關係,在運算分析能力精進的現在,
應能找出這些非線性的關係
圖片來源:http://www.emathzone.com/tutorials/basic-statistics/linear-and-non-linear-correlation.html
案例十二
? 亞馬遜起初聘請十多
位書評和編輯提出建
議閱讀書目
? 隨後開發「品項對品
項」協同篩選技術,
由系統自動推薦書目
? 測試結果竟比書評的建議更具成效,即使電腦壓
根不知道為什麼買A產品的人還會買B產品
亞馬遜網路商店的大數據推薦系統
圖片來源:http://www.jayteo.me/2014/05/25/the-future-of-brick-mortar-
business-will-be-an-integrated-offline-online-experience/
案例十三
? 2004年沃爾瑪透過Teradata的相關性分析協助,
從龐大的歷史交易紀錄中發掘獨特的購買行為
? 颶風來襲前,除了手電筒,小甜點Pop-Tarts也意
外熱銷,此發現讓沃爾瑪得以提出相應行銷策略
沃爾瑪利用相關性分析找出颶風來襲前的熱銷商品
圖片來源:http://www.savingwellspendingless.com/2012/04/03/hot-
kelloggs-pop-tarts-and-mini-crisps-coupon-1-85-each-at-walmart/
案例十四
? 塔吉特(Target)利用大數據分析,判斷哪些消費者
屬於懷孕婦女客群,甚至能預測懷孕階段與小孩
出生日期,藉此寄送恰到好處的優惠券
? 有一次,一位父親抱怨塔吉特竟然寄送嬰兒服與
嬰兒床的優惠券給就讀高中的女兒,認為是在變
相鼓勵未婚懷孕,結果後來證實是女兒懷孕瞞著
父親
塔吉特的相關性分析結果讓它比父親還早知道女兒懷孕
案例十五
? IBM與醫院合作,偵測與紀錄早產兒的16種資料
流,每秒有1260個資料點
? 透過即時的數據分析,便能在感染症狀出現前24
小時預先偵測到,讓醫師能對症下藥
? 獨特的發現包括:以往認為感
染爆發前會有身體不適的症狀
,但數據結果顯示在爆發前,
有一段時間生命徵象非常穩定
在早產兒出現明顯症狀前就預先偵測感染情況
圖片來源:https://www.yumpu.com/en/document/view/18888177/neonatal-rashes
案例十六
? 愛迪生聯合電力公司求助哥倫比亞大學的統計學
者,希望透過巨量資料分析,找出高風險的人孔
蓋,讓他們可以提早維修
? 透過分析2008年以前的所有資料,結果顯示「電
纜年份」與「過去是否發生事故」是最重要的指
標
? 用於預測2009年的危險人孔蓋,其中列出的前
10%危險清單中,有44%之後確實發生嚴重事故
紐約市如何找出高氣爆風險人孔蓋?
圖片來源:http://web.mit.edu/rudin/www/RudinEtAl2011ComputerMagazine.pdf
謝謝您的閱讀與指教!
預計「大數據的基本概念(中)」的內容:
1. 大數據的基礎:資料化
2. 大數據的價值所在
3. 大数据的资料价值链

More Related Content

大数据的基本概念(上)