2015年11月3日 星期二

如何成為數據科學家_人物篇【大數據】

[專訪] 搶當大數據科學家,5大特質你有嗎?

大數據科學家有多夯?讓我們從有史以來市值最高的科技公司蘋果看起。為搶大數據科學家,蘋果開出美金16萬到20萬(約合台幣400萬到600萬)的年薪,以及任何你想得到的好康福利:美味員工餐、健身中心、教育津貼甚至凍卵補助,但蘋果不是唯一一個需要數據科學家的公司,打開領英(LinkedIn),上頭至少有5萬3千個數據科學家的職缺,而這還只是美國的統計數字。
美國專業招聘公司羅致恆富(Robert Halt)公布的《2015薪資指南》把大數據工程師列為今年薪資漲幅最大的六大行業之一,預計薪資年成長率9.3%,平均年薪119,250美元至168,250美元,在國內根據經驗平均也有100萬到500萬的薪資行情。

鼎鼎大名的數據科學家你也許聽過不少,諸如美國白宮首席數據科學家帕帝亞(DJ Patil)、被選為全美Top 4技術長的寶立明又或者是阿里巴巴集團大數據的第一把交椅車品覺,但這些如雷貫耳的大數據科學家動輒掌管一個個國家或跨國企業的海量數據,彷彿離一般人很遙遠。其實,現在各行各業都亟需大數據科學家,你也可以加入大數據淘金潮,但到底什麼樣的人才適合做大數據的工作呢?想要搶搭大數據人才熱潮,晉身高薪一族,又需要注意哪些事情?
大數據行動廣告平台威朋是一家藉由分析行動裝置的數據,為客戶找到精準行銷目標的數據管理平台(DMP)與即時廣告競價(RTB)投放公司,業務橫跨台、日、中、港等地,數據分析為其業務核心,數據分析部門佔其人員大宗,威朋數據科學研發經理彭智楹與張嘉祜分別擁有多年數據分析經驗,現身說法分享數據科學家到底在做什麼以及如何成為數據科學家。
威朋大數據科學家
(圖說:威朋數據科學研發經理彭智楹擁有將近8年的數據分析經驗,張嘉祜則是4年。照片來源:蔡仁譯攝。)
威朋大數據科學家現身說法
張嘉祜

學歷:
臺灣大學資訊工程學系網路與多媒體研究所博士
中央大學通訊工程學系碩士
中興大學電機工程學系學士
彭智楹
學歷:
臺灣大學資訊工程研究所 博士
臺灣大學物理系學士
臺灣大學心理系學士
就跟絕大數從事電腦工程的人一樣,張嘉祜和彭智楹皆畢業於資工系,在學期間就已開始從事資料分析工作,每日需與大量數據為伍,兩人皆認為在學校所學的知識和技能有助於他們進入職場從事相關工作。張嘉祜念博士時分析大量的影音多媒體資料,而彭智楹曾與生物學家合作分析生物影像,分析影像資料看似與分析廣告數據大不相同,但其實背後原則相差不遠,重點都是要從茫茫資料海中找到有價值的資訊,只是資料種類不同而已。
兩人的工作雖然都是大數據分析,但張嘉祜更專注於幫助線上廣告投放達到最大效益化,偏向商業智慧分析,並且發展幫助其他同事可以快速找到問題答案的工具,快速從大數據中檢索需要的統計資料,幫助客戶改善行銷策略。另一方面,從市場反應決定要做出什麼相對應措施,時常與點擊率、轉化率和流失率等數據為伍。而彭智楹則負責開發資料探勘系統、寫演算法和機器學習,例如預測點擊率,判斷使用者打開App時點擊廣告的機率有多大,較偏向於垂直面的研究。

特質一:定義和釐清問題

談及好的數據科學家具備什麼條件,彭智楹認為可以分成兩種等級:一種是是別人幫你把問題定義好,然後你來解開,但更厲害的是你知道怎麼找問題,什麼問題才是重要的,自己發現問題。「你要定義最有前瞻性最重要的問題,結果不只正確還要顯著性,對各領域發展有貢獻,要有商業價值和技術進步的空間,兩者能兼備是最好的。」彭智楹說。張嘉祜也認為在分析數據時,定義問題的能力很重要,因為問題分成很多層面,數據科學家必須要看當下要解決什麼問題,再用那個指標去回答。因此數據科學家首要具備的條件就是:定義和釐清問題。

特質二:想像力

不要以為數據科學家整天在電腦前面工作,只要一板一眼地分析數據就好,其實想像力也很重要。張嘉祜根據自己的工作經驗指出,有一定的創意才能幫助自己找到不一樣的觀點,學校會訓練你使用習慣的工具,但你應該要嘗試各種可能,如果沒有專業知識判斷,最後得到的結果就會跟大家差不多
例如在威朋工作常會需要幫助客戶找到具有某種特徵的族群,這個時候若只靠經驗和專業是不夠的,還需要發揮一些想像力。「我們在描述一個人的行為傾向時是很多維度的東西去做整合,除了你對生活經驗的豐富度之外,你還要有創意去描述這種人具有什麼樣的行為特徵,我們再透過機器學習的輔助,幫助你快速收斂這些特徵背後隱含的意義是什麼,不然一般人就是我想到什麼樣的資訊我就勾一勾,這樣不夠。」張嘉祜說。

特質三:邏輯思考能力

數據科學家的工作時常需要建立假設然後去驗證它,並且建立模型,這個過程仰賴優秀的邏輯思考能力,否則追尋答案到一半可能不小心就會走到岔路。大學時期雙修物理和心理學的彭智楹認為,心理系的訓練幫助他可以更容易了解他人的動機和想法,也因此在分析數據時常有意想不到的收穫。
以數據科學家最討厭的機器人為例,這類的假數據抓不勝抓,又會影響到統計結果,令人不堪其擾,但彭智楹認為與其去思考機器人在哪裡,要怎麼抓,不如反向思考什麼樣的網頁需要機器人,機器人的數據從哪裡來,就像是偵探福爾摩斯一樣,「偵探怎麼找出犯人,他不是從犯案手法去看的,而是從動機。」
威朋大數據科學家
(圖說:彭智楹平時就喜歡分析生活中的常見現象,例如觀察公司電梯哪一台跑最快,為什麼最快。照片來源:蔡仁譯攝。)

特質四:基礎數理與資訊工程能力

雖然彭智楹和張嘉祜都同意數據科學家不一定非得要是理工學院或電資學院出身的,但也都異口同聲地指出數據科學家還是必須具備基礎數理與資訊工程能力。
張嘉祜說,你也許可以用Excel去處理數據,但如果想要加快資料處理速度的話,程式能力依然是必須的。彭智楹認為不能害怕數字很重要,必須要培養對數字的敏銳度,例如他在念博士時就會用眼睛觀察數列是否有周期性的變化,從中訓練自己對數字的敏銳度,他甚至寫了一個產生各種亂數模型的程式,然後用眼睛一一把每個數字看過一遍,分析影像時也一樣,每張影像他都一一檢視過,「什麼時候要把資料分開或結合看,這都需要經驗。」彭智楹說。
但在工具之外,張嘉祜認為最重要的還是商業嗅覺,現在很多人隨隨便便就說自己會做數據分析會用什麼資訊工具,但沒有商業眼光依然白搭

特質五:跨界合作能力

最後,由於大數據科學家必須膽大心細又要天馬行空,邏輯好之外還得要融合自身生活經驗,這些特質要在一個人身上面面俱到非常困難。張嘉祜指出,跨界合作能力在這裡就顯得格外重要,因為不同的產業別需要不同的觀點,如果不懂得傾聽別人的意見,恐怕陷入盲點而不自知,跨界合作有助於發現不同面向切入分析,更有效率地做決策
和沛科技創辦人翟本喬曾說:「在大數據領域的英雄不是圖靈,也不是克勞德·夏農(發明資訊概論的人),而是福爾摩斯,這種有點自閉但能夠看出事情關鍵的人,如果只是因為大數據很紅就去學這些工具,你學這些工具就是賺22K的,把專業領域做好,你可以賺2200K。」因此,與其盲目追隨大數據熱潮,不如看看自己是否具備這些特質以及專業,再來決定要不要加入大數據淘金潮。
---
美國白宮設立「首席數據長」,開啟數據驅動的政策基礎!
美國政府正在用實際行動告訴大家,政府的工作已經不再是你印象中的那樣了。過去的政府裡,電腦還只是一個簡單的辦公工具,甚至被簡單的當成筆和紙的替代品。但是今天,政府們卻已經能迅速意識到他們需要新的領導,帶領大家充分利用起他們的資料。
還有很多你沒有注意到的細節來驗證這一趨勢:在LinkedIn上快速搜索發現,「資料科學家」這一職位的需求大約36000個。這反應出整個美國都在推動資料科學的進展。
白宮已經任命DJ Patil作為全國第一個首席資料科學家。這位前PayPal和eBay的執行官,來到白宮之後有了新的任務:説明美國政府正以最快速度與最大規模的進行他們對大數據的投資,並就近提供政府機構如何更好使用大數據的建議。
Patil致力於加速更智慧的資料驅動型政府,打造一個數位化白宮。這可能為納稅人帶來可觀的收益,並鞏固美國在資料科學領域的領導地位。
但想要做到這一點,他需要與私營部門密切合作。美國商務部日前的報導稱,他們會向私營部門提供240億到2210億美元之間的資金支持。像Hortonworks這樣的公司都會參與到醫院、政府等公共領域的大數據戰略當中。

[專訪]美國Top 4 技術長寶立明:大數據即將在五年內消失
大數據這個關鍵字從去年紅到今年,早已成為科技業的重要趨勢,研調機構IDC便預測2015年將有超過25%的企業導入巨量資料方案,而美國專業招聘公司羅致恆富(Robert Halt)公布的《2015薪資指南(2015 Salary Guide》更把大數據工程師列為今年薪資漲幅最大的六大行業之一,預計薪資年成長率9.3%,平均年薪119,250美元至168,250美元。
台灣從企業到政府也人人高喊大數據,連向來對新科技接受速度最慢的政府都開始動作。行政院長毛治國甫上任祭出的科技三箭,就有兩箭跟數據息息相關,一個是開放資料,一個是大數據,新北市政府日前也推出全國第一個「傳統產業大數據應用示範計畫」,希望導入大數據分析,幫助金屬、機械和紡織等傳統產業轉型,還在日前的新北大數據論壇活動中請來美國大數據分析與儲存技術公司Teradata首席技術長寶立明(Stephen Brobst)來分享大數據趨勢。
寶立明此次來台除了出席新北大數據論壇分享大數據趨勢,更受邀至行政院與毛治國暢談開放資料政策,分享美國政府開放資料的經驗以供台灣借鏡。寶立明去年被ExecBank選為全美排名第四的CTO(前三名分別是亞馬遜、特斯拉和英特爾),在2500名頂尖CTO中脫穎而出,他不僅是全球一流的數據專家,更曾成功創立三家提供數據服務的公司,後來陸續被IBM、NCR等大廠併購,他也是歐巴馬的創新科技顧問委員會的一員。
身為全球頂尖的大數據專家,寶立明在接受《數位時代》專訪時卻說,他認為大數據這個詞將會在五年內消失,並認為從物理學家到社會學家都會是優秀的數據科學家,以下為寶立明專訪的內容摘要:
enter image description here
(圖說:Teradata首席技術長寶立明認為,以後數據是每家企業的DNA,大數據這個詞將會在五年內消失。照片來源:李欣宜攝。)

1. 大數據這個詞近年來非常火紅,但也有人認為大數據已處在泡沫期,您怎麼看這種人人高喊大數據的現象?

我承認現在整個社會上瀰漫著一股大數據熱潮,但我認為這不失為一種好現象,因為這讓大家注意到這個世界上還有許多尚未被挖掘,並且充滿價值的資料,我認為在這股熱潮當中,其實是有黃金的,但就像你說的,其實還是有很多人不知道大數據是什麼意思,更不知道怎麼用他。
他們以為大數據就是指大數目的數據,事實上,我認為這是大數據中最無趣的部分,我們真正在尋找的是非傳統的、而且未曾被挖掘過的資料,並且從這些資料中去提煉出價值,我相信在五年內我們就不會再使用「大數據」這個詞了,到頭來大數據就只是資料而已,不是嗎?資料是很重要,但是這個世界上還有一大堆以往根本不被視為是資料的資料在那邊等著我們挖掘,到最後,人們會開始回頭分析這些資料,他們會發現,大數據不過就只是數據的一種,大數據、小數據、結構化、非結構化的資料...這些稱呼通通都不重要,因為這些都是資料啊,這是我認為為什麼到最後大數據這個詞彙將會退燒的原因

2. 你認為數據經濟以後將會成為每個企業的DNA嗎?

是的沒錯,人們將會依據一家公司是否有效地運用數據,來定義這家公司是否成功。大數據這個詞也許是三年前才出現的,但其實它早在十年前就有了,概念比名詞出現得更早,在八年前發生了一個比較重大的轉變,人們從研究一筆交易變成研究互動,我們開始往下鑽研,不只研究一筆交易,更研究真實的顧客體驗,因此我認為雖然不是每一個,但許多大數據應用必須要能夠更妥善了解顧客的行為和體驗。
我認為大數據發展可以分成三階段:
第一階段是.com時期,人們研究log資料,蒐集人們的Cookie和搜尋行為等等,這類分析已經存在很久了,我們不只知道使用者買了什麼東西而已,而是更深層地去分析行為,一筆交易只告訴我價值,但沒有告訴我顧客體驗,大數據想要去分析的是顧客體驗。
第二階段是社交網站,這也是我們現在正在經歷的階段,我們分析Facebook、Twitter、部落格文章...等等等,這可以幫助我們進一步了解顧客行為。
第三階段是物聯網,這是我覺得最有趣的階段,有些企業已經開始分析來自感測器的數據了,在這邊我說的物聯網不只是穿戴式裝置或智慧家庭而已,我說的是機器與機器之間的溝通,這些資料的價值很值得被研究。現在製造業都會訂下一些規矩,例如我們的汽車每半年就要進廠維修,就跟人每年都要去做健康檢查一樣,我認為這是非常過時的想法,一旦我們用感測器去蒐集引擎、汽車和生理數據,我們就可以精確知道何時需要進廠維修或做健康檢查,這就叫做預測性維修(condition based maintenance),這個概念對於促進顧客體驗、效益和健康保險等領域非常重要。

3.你對大數據的定義是什麼?

一般來說我們用3V定義大數據,容量(Volume)、快速(Velocity)與多樣性(Variety),其中我認為最重要的是多樣性,資料不只來自那些傳統管道,有更多來自非傳統管道的非傳統資料產生,我認為價值(Value)是第四個V,人們常常忘了這件事,他們專注於技術,卻忘了創造價值但這卻是一個大數據計畫能否成功的關鍵:這不只關乎技術,而是你能用技術創造出什麼價值
enter image description here

4.台灣有許多中小企業,許多中小企業也許認為大數據是個離他們很遙遠的概念,因為他們根本沒有「大數據」,您會給他們什麼樣的建議?

這些小企業一看到大數據就會想說,喔這一定是很大的數據才有辦法做,但數據的量其實從來都不是重點,我認為「大數據」是個非常差勁的命名,因為它讓人們直接聯想到「大」,但數據的大小其實是最無趣的部分,最重要的其實是那些你從來沒有想過可以用的數據以及那些非傳統的資料,我認為這才是人們對大數據應有的認知。
有許多新創企業在思考如何用大數據創造全新的商業模式,例如矽谷最近有一個正在做P2P交易服務的新創公司,比如說我們一起去吃午餐,你買單,然後我透過手機給你我的部份的錢,這不是什麼新的概念,但這家公司有趣的地方他不收任何手續費,而銀行一點都不喜歡這個主意,你知道現在的銀行交易都必須額外負擔手續費,銀行於是說:「你怎麼可以完全不收手續費?」這家公司說,因為這些交易資料本身的價值遠遠超過手續費本身。
從此之後,這家公司會知道你我之間有一種連結,如果我們每個禮拜五都出去吃飯,他們就可以判斷我們之間有強烈連結,如果我們一個月或一年才吃一次,那麼也許我們之間的連結比較弱,這家公司可以藉此判斷人與人之間的關係強弱,你也許會說:那又怎麼樣?這可以幹嘛?這家公司將會知道誰是社交意見領袖,如果他要賣新產品,他可以先從這些人開始著手,例如我也許會買他的東西,但我沒有朋友(笑)所以它就只能賣出一項產品,但你有一百個朋友,你也許是個疑心病比較重的人,所以我要花比較多功夫來說服你買東西,但你一旦用了而且覺得好用,那麼你很有可能會將這個訊息散播給你其他一百個朋友,那我搞不好可以再多賣50個產品,這就是一個善加利用社交數據,而且突破舊有思考模式的例子。

5. 如何用大數據創造商業模式?

這是個頗為複雜的問題,因為大數據是由很多不同元素組成的,我會把大數據認定為是比交易系統更深一層的互動分析,首先,如果你有一筆訂單,你就得到了顧客的價值,但你無法了解他們為什麼如此行動,如果我能夠了解他們的行為喜好,我就可以創造更好的顧客體驗,我創造了更好的顧客體驗,他們就會越買越多,他們會停留更久,如此我當然就可以創造一個非常強大的商業模式
基本上所有的電商網站都在做這件事情,因為電商網站無法直接與顧客接觸,所以他們必須透過分析數據來與顧客建立關係,這是個很顯而易見的商業模式,如果你不分析數據去改善顧客經驗,顧客就會離你而去。如果就製造業來說,預測性維修是比較常見的大數據商業模式,這跟傳統的維修模式全然不同,這當中的經濟價值差異是數以千萬的美元,就算對中小型企業亦然,如果你知道這些企業每年花多少錢在維修設備和安全改善,你就應該知道預測性維修是門好生意。

6.這些對企業來說是技術層次的問題,但商業嗅覺是否才是如何讓大數據變現的關鍵?

是的,我稱之為直覺,你為了驗證你的假說,於是你設計了一個實驗模型,如果你沒有商業嗅覺,你很可能會實驗了一千次但得到很差的結果,我相信你一定有聽過這個笑話:「一百萬隻猴子也可以寫出莎士比亞等級的著作,只是我們要等很久而已。」你放猴子在那邊一直打字,總會有好的產出的,但這其實不太好,對吧?所以我認為還是需要具備一定的商業眼光。
好的數據科學家和不好的數據科學家的差別就在於他們的商業眼光,我認為這不只是管理階級的職責,而是一個數據科學家的職責之一。

7.大數據專案牽涉到許多跨部門的協作,而不只是IT部門的事,你認為這會更像是一個管理問題而非技術問題嗎?

我的確觀察到許多只專注在技術層面的公司,他們的大數據表現通常都不怎麼好,管理者必須確保你在埋首進行的事是有商業價值的,而不只是在玩技術而已,在麻省理工學院有個詞用來形容這些只埋頭搞技術的人:追隨流行者(Fashionist),這些人盲目追隨科技新潮流,看到雲端運算就趕快跑去搞雲端運算,噢看那邊是大數據耶,大家都有我們一定也要有! 他們不知道為什麼需要,只是因為大家都有,他們就要有,這不是一個好策略。
你必須要思考:這有什麼商業價值?為什麼我需要做這個?所以那些最成功的大數據專案都是由技術部門和商業部門協作而成的,只有技術人員是不可能成功的,但同樣地,只有業務部門也不會成功,他們必須在一起才能創造價值。
而數據分析的技術的關鍵在於,你是否有用對技術,這是許多公司低估的地方,有很多公司混淆了做報告和分析數據的人。比如說美國的教育很重視數學,但我們的統計學教得一蹋糊塗,統計學對於數據分析非常重要,很多人高中畢業後也許幾何、微積分很厲害,但他們連最基本的期望值理論都不懂,他們也不懂交叉分析,但這些技能對於分析數據都是非常重要的,我認為我們的教育體系和企業在培育擁有這方面技能的人才上,投資得太少了。
近年來有很多大學開始開設數據分析課程,我覺得這是一件好事,但問題是等這些人才畢業了,到時候我們對大數據人才的需求已經遠遠超過供給了。

8. 你認為現在要尋找優秀的數據分析學家很困難嗎?

人們常常把電腦科學家和數據科學家混為一談,數據科學家不一定非得要寫程式才能分析數據,當然你不應該害怕科技,如果你害怕新科技那你就不是那個對的人,你需要會使用科技,但重點其實還是在數據,你要會設計實驗、熟悉數學和統計、如何獲取資料和得到結果...等等等。
當然,數學系畢業的人是很好的選擇,但我的經驗是畢業自實驗性科學科系的人也會成為很好的數據科學家,例如:應用物理系、化學系、天文系...等等,因為他們知道怎麼設計實驗、怎麼蒐集數據和得到結果,這讓他們成為優秀的數據科學家。在麻省理工學院我們有個笑話,物理系畢業的人如果不去教物理,他們就失業了。因為除了教物理你還能幹嘛?但現在物理系的人也會是很好的數據科學家,例如eBay最優秀的數據科學家就是物理學家。
你看事情的眼光還需要充滿創意,所以社會學出身的人也會是很好的數據科學家,很多社會學家必須做調查,並且從中蒐集和調查數據,這已經具備了數據科學家該有的特質了。但如果你不具備這種分析數據的背景的話,可能就不是那麼好的候選人了。
整個政府都在全方面的投入,他們關於大數據的最新政策正在制定當中。Patil也將制定政策、確定最佳實踐標準等列入了待辦事項當中。
在一份給美國人民的通知中,Patil描述他自己的角色是「負責任地採購、加工,保持資訊透明,利用及時的資料來為美國公眾的利益作出安全保障,促進創新。」Patil強調,他認為公共資料應該被用來造福於國家,它應在健康領域扮演重要角色。
儘管美國民眾已經意識到資料的重要性,但政府不同部門之間對此的分析結果卻差異很大。雖然一些機構熱衷於採用大數據運算平臺,但多數人依然掙扎在如何更好地將大數據運用到他們工作當中去的漩渦之中。
某種程度上,這反映出在打造一個資料驅動的世界的過程中美國人民所面對的機遇和挑戰。美國人民當然希望能夠建立一個資料化的美國,看上去,這是一件讓多數民眾受益的事情。

[專訪] 三大數據迷思,八個數據實戰密技!阿里巴巴副總裁一次教
如果有一天,你有機會去應徵全球電商龍頭阿里巴巴集團副總裁的助理,這位每天掌管阿里巴巴上千億營業額的主管給你出了道題目:
你一個禮拜過後再來面試,但在這一禮拜內,你有兩個選擇:一個是當我不在家時,你可以在我家待半小時隨便看。另一個是,你這個禮拜有半小時可以跟我吃飯,你可以問我很多問題,你要選哪一個?然後下禮拜我們再面試,看你對我的了解有多少?
問這個問題的是阿里巴巴數據委員會會長車品覺,同時也是阿里巴巴集團副總裁,歷任eBay和阿里巴巴,擁有數十年的大數據經驗,每天與阿里巴巴成千上萬的數據為伍,無論是年年創下驚人銷售額的雙十一購物潮還是馬雲日前說砸了十億人民幣打擊假貨,這些都與大數據脫離不了關係,身為全球最大的電商平台,恐怕沒有一家公司比阿里巴巴更有資格討論怎麼用大數據,而在阿里巴巴集團內,車品覺堪稱大數據的第一把交椅。
回到面試,當你今天面對著這個全中國首屈一指的大數據專家,你要怎麼透過數據去剖析這個人?家,是一個人最毫無防備的地方,透過觀察家中擺設可以獲取許多有價值的個人資訊,但當面問問題,可以從本人口中獲取情報,了解對方,到底哪一種數據蒐集策略才是正確的呢?
enter image description here
(圖說:阿里巴巴副總裁車品覺擁有豐富的數據實戰經驗,他指出很多企業常陷入數據迷思,為數據而數據。照片來源:林衍億攝。)
車品覺笑說:「觀察一個人的行為只能回答一部分的問題,如果不面對面討論的話,很多問題的答案是你怎麼蒐集都蒐集不來的,這就是用數據拿數據(data gets data)。」車品覺一語道破大數據的迷思,他認為,現在很多企業都陷入了數據迷思,為了數據而數據,卻忽略了更快更精確的方法,就好像去觀察一個人的家想要了解這個人,卻忘了其實直接問本人更快,「所以如果你今天很擔心大數據的問題,你不如去擔心將來有很多人會為了數據而數據,多愚蠢啊,捨近而求遠。」
用面試說明現在許多企業陷入的數據迷思,俯拾即是生動的例子,將生硬難懂的大數據說得動聽、說得生活化,這就是在大數據中打滾數十年,自稱「每天在玩數據活兒」的阿里巴巴副總裁車品覺的魅力。
車品覺日前來台宣傳新書《大數據的關鍵思考》,在接受《數位時代》專訪時,他分享了三個常見的大數據迷思和八個大數據實戰密技,具體而微地解說現在企業在透過大數據變現的過程中,遇到了什麼樣的問題以及該如何解決,以下為專訪內容摘要:

三個大數據迷思

1.忘掉大數據吧!如果大數據已經成為大家用數據的常態了,你何必特別講他出來呢?98年的時候互聯網是一個流行語,現在還有人會說他是流行語嗎?現在有很多電子商務公司叫做傳統電子商務啊,多悲哀啊,有人還以為電子商務是新東西的時候,已經有所謂的傳統互聯網公司。
2.數據也只是創新決策其中一部分,他只不過是新工具,也不用把他想得這麼萬能這麼神。不是所有的問題都是數據問題,也不是所有的問題都是大數據問題,你就把他想成單純的工具使用,該用刀就用刀,該用槍就用槍,有些地方會比較適合使用數據,不用太神化他,太多的行外人把他講得很神,反而我們業內人不敢說得太神話,因為知道兌現不了。
3.不要為數據而數據。以前我們做一B2B的網站,客單價不停地掉,我們用很多數據方法去解決問題,但都沒有起色,有一天早上我覺得不對,我說我們不要看數據了,我跟工程師說,你在顧客進網站時問他:「你是幫自己買東西嗎?」結果有50%以上的人說對,你知道我花了半年的時間去尋找答案,這根本就是為了數據而數據啊,所以如果你今天很擔心大數據的問題,你不如去擔心將來有很多人會為了數據而數據
enter image description here
(圖說:車品覺在新書中劈頭就說「忘掉大數據吧!」,未來數據將會成為每家公司的常態,無須多言。照片來源:林衍億攝。)

八個大數據實戰密技

1.不要說大數據,就說我們使用數據的時候到底我們知不知道這個背後數據的數據是什麼?如果我的判斷是對的,你要用什麼數據去證明我是對的?比如說今天氣象局說今天的溫度是12度,那我問說,過去來講這個環境中,他預測12度的正確的概率是多少?錯的概率是多少?這就是數據的數據,我要用一個數據之前,我一定會問,這個數據可不可信啊,可靠性是如何,沒有對數據的可靠性,你就先使用,你是盲目地使用,所以數據的數據是一個層面,決定可不可靠。
2.中小企業先用數據量化自己,再來談大數據。如何用好數據來量化自己?用數據理解自己,量化自己,我覺得在這個基礎上去思考我們有什麼東西是可以用大數據的?這樣會更有效。小企業應該去嘗試用數據量化決策,而不是大數據,沒大這件事,就是用數據做決策,其實公司本身內部有的數據問題很多的,像是大部分公司客服數據從來沒跟公司主要數據連上,因為很多公司的客服中心都在外部,所以這個數據他拿不到,他不知道消費者的反應,這個數據又無法跟你的經營數據做關聯,所以整個數據在一個中小企業裡面也是四分五裂的嘛,你在這個地方沒用好的情況下,你居然說你想用大數據,其實是有點難以理解。
3.數據案例很多會失敗都是因為蒐集數據歸蒐集,但蒐集起來之後這跟原本的數據決策是沒有辦法合在一起的。這不僅線下會發生問題,線上也有這個問題,你可以問問現在管理首頁的人,他管理首頁有多少是根據數據去設計的,你不如問他們如果他們改版首頁,他們如何評估這個改版後的首頁是成功的?用什麼數據去決定?
4.數據的刷新頻率是什麼?這個值非常關鍵。刷新得快不一定比慢好,有些地方要刷得慢一點。有些東西太敏感了,你刷新的數據不一定正確,比如你要買一個二十年的保險,就是很長遠的東西,或者你要做重大投資,在這個時候你應該去看歷史的穩定數據,如果今天你剛從電影院看完一部戲,你剛看完想吃麻辣火鍋,這秒鐘,你不需要猜他的歷史性格,你應該去猜他下個場景會是什麼,這個時候地點的數據非常關鍵。
enter image description here
5.真正的數據創新還沒出現,現在大部分的企業沒法串起數據、算法和應用創新,沒有人既懂商業又懂數據,要抓到這種機會點的人極少,我算是,但是我只是電商和零售領域的專家而已。
6.數據的創新來自兩點:一、把不該再分裂的數據分裂;二、把兩個不該拼合的數據拼合。這會產生很大的力量,例如性別不是男就是女,這兩個東西應該再也不能分裂了,但在數據上我們可以說這個人的態度有三成很女生,有七成很男生,他的態度有男生的態度在裡面。有些數據已經是原子了,但你一剖開發現不是原子,還可以再分裂,在這個時候分出來的數據的破壞力或創意是很大的,你沒想過嘛,這對推薦引擎來講太關鍵了。商業的世界很競爭,當兩個敵對公司一結盟,像是根據開車數據調整保費,就是一個數據結合的創新案例。
7.我看到的大數據項目都是失望比較多的,很多大數據項目都還在實驗室,當這些東西到企業就不行了,企業需要準確,還有很多問題是要分場景化的。
8.數據分析師要量化自己的量化,這對我們這行很重要。我們整個行業最討厭什麼東西你知道嗎?你找一個人去準確算出一個東西,不難,但是六個月都準,很難,時間一長,就不準確了。時間一長,整個模型是用歷史數據建立出來的,當歷史數據變得越來越不重要的時候,這個模型就會變得沒那麼準確了,這個時候你就要改進你的算法了。

沒有留言:

張貼留言

卒業

業卒