2012年5月30日 星期三

克服Big Data挑戰的曙光


克服Big Data挑戰的曙光

近來Big Data的議題竄起,而Hadoop是Big Data的關鍵技術。當Hadoop發展出巨量資料平臺,對企業而言可以不再依賴價格高昂的大型專屬設備,而可以透過自建大量伺服器叢集來解決。

Big Data大概是繼雲端運算之後,最熱門的科技名詞了。一些科技大廠不約而同,紛紛打出Big Data口號,情況就像當年的雲端運算熱潮一樣。這到底是怎麼回事?

Big Data照字面翻譯,就是「大資料」,而這個「大」,最起碼包含3種意思:一群大量的資料、一筆很大的資料、一個很大的資料庫。所以就中文譯名來看,不論是翻成「大資料」或「巨量資料」,其實都只能點出Big Data的部分特性。然而,不管是大資料或是巨量資料,都指向一個共同的趨勢,就是數位資料增長的速度越來越快,而之所以能構成Big Data這個新議題,就在於資料量之大已異於往常,使得既有的技術難以處理。

以往只有少數的產業會面臨巨量資料處理、分析的需求,例如氣象、基因、科學模擬,或是金融交易詐欺分析等等,但隨著科技應用的改變,有更多的產業也面臨巨量資料分析的挑戰。例如搜尋引擎業者要索引全球的網頁,就是一個艱鉅的任務;電子商務業者要掌握顧客消費行為,所要分析的數據也越來越多。

去年我們的記者在寫Big Data的報導時,採訪了eBay的使用經驗,然而我有眼不識泰山,看到稿件上寫著eBay的資料庫每天增加50TB,還一度懷疑是不是把GB誤寫成TB,或是記者粗心把5TB多加了個零,結果真的是50TB。因為eBay每天最少都有數百萬次的商品查詢,資料庫每日增加1.5兆筆記錄,而資料庫的總容量則已超過9PB。所以,不僅每天新增的資料量龐大,連資料庫也是超級龐大,而要從中分析顧客的瀏覽、消費行為,就是一件困難的事情。

其他像是大家熟悉的Facebook社群網站,每天都有數億使用者留下龐大的資料,甚至其中有很大的比例是圖片、影片等傳統資料庫系統較不擅長的非結構化資料。這不僅挑戰社群網站業者如何管理,對於想利用社群網站來掌握消費者動向的企業而言,所面臨的挑戰也是前所未有的。

美國最大的超市Wal-Mart,既要分析顧客在網站上的購物行為,還要分析消費者是透過哪些關鍵字的搜尋而找上門,甚至,Wal-Mart想要進一步分析顧客在Facebook等社群網站的動態。Wal-Mart過去透過結帳資料分析,將啤酒與紙尿布擺在一起,促長了啤酒的銷售量,此舉令人津津樂道。然而,這已經是屬於事後分析,未來他們想要更主動了解顧客在社群網站反應的個人狀態,早一步掌握潛在的消費需求,有可能他們以後會比父親更快知道女兒懷孕了。

其實臺灣的製造業也面臨相同的挑戰,例如隨著晶圓的製程越來越精細,要掌握更精細的製程分析資料以確保良率,就必須分析比過去還要多很多的資料。那麼如何有能力分析巨量資料,以及在可接受的時間內完成資料分析,就是個關鍵了。為此,像台積電這樣的公司就早早布局Big Data的關鍵技術──Hadoop。在台積電起碼有2個人擁有目前實屬罕見的Hadoop證照,而全台灣擁有這張證照的加起來不超過20個人。

未來會有更多的產業要面臨龐大資料量的挑戰,而目前走在前頭的企業,都不約而同的採用Hadoop這樣的技術來克服難題。

Hadoop是基於Google搜尋引擎的分散式運算技術,Google的哲學是螞蟻雄兵精神,利用大量平價的伺服器,搭配平行運算架構,以最符合經濟效益的方式創造龐大的運算量。當Hadoop以此技術發展出巨量資料平臺,對企業而言無疑是一道克服巨量資料挑戰的曙光,因為企業可以不再依賴價格高昂的大型專屬設備,而可以透過自建大量伺服器叢集來解決。

最近,Hadoop終於發表1.0正式版,本期的封面故事特別深入分析Hadoop的技術應用。就像是只要給我一個支點,就能撐起地球,Hadoop就是撐起Big Data的那個支點。

吳其勳/iThome電腦報周刊總編輯

轉載自《iThome