在“2014西湖品學(xué)”大數(shù)據(jù)峰會(huì)上,中科院大學(xué)管理學(xué)院教授呂本富發(fā)表了《大數(shù)據(jù)分析的經(jīng)濟(jì)價(jià)值》的演講。呂本富表示,如果大數(shù)據(jù)并不是年輕人談性,就要提一個(gè)問(wèn)題是“價(jià)值在哪里”。價(jià)值并不是忽悠,要從企業(yè)競(jìng)爭(zhēng)角度創(chuàng)造了什么價(jià)值,所以價(jià)值在哪里,應(yīng)該是所有大數(shù)據(jù)做經(jīng)濟(jì)分析中最重要的關(guān)鍵詞,在哪里存活。
以下為呂本富的演講整理:
經(jīng)常有人引用這一段話:“大數(shù)據(jù)就是年輕人談性,我說(shuō)你做過(guò),你說(shuō)我做過(guò),大家誰(shuí)都沒(méi)有做過(guò)”。很多傳統(tǒng)企業(yè)都是這么說(shuō),如果大數(shù)據(jù)并不是年輕人談性,就要提一個(gè)問(wèn)題是“價(jià)值在哪里”。價(jià)值并不是忽悠,要從企業(yè)競(jìng)爭(zhēng)角度創(chuàng)造了什么價(jià)值,所以價(jià)值在哪里,應(yīng)該是所有大數(shù)據(jù)做經(jīng)濟(jì)分析中最重要的關(guān)鍵詞,在哪里存活,在這里就是價(jià)值。
應(yīng)用需求驅(qū)動(dòng)商業(yè)模式,商業(yè)模式帶來(lái)里經(jīng)濟(jì)價(jià)值,這就是大數(shù)據(jù)的立足點(diǎn)。互聯(lián)網(wǎng)承載了太多的信息和信號(hào),大眾的情緒、消費(fèi)者喜好、市場(chǎng)潮流、不同人群的關(guān)注點(diǎn)等等。
從商業(yè)模式的角度看,把它分為三類:第一類是圈定用戶和針對(duì)營(yíng)銷,就是誰(shuí)是我的客戶、誰(shuí)不是;第二類,用戶的關(guān)聯(lián)分析,在用戶群當(dāng)中是老的、少的,他們有什么關(guān)系;第三類,完全個(gè)性化定制或者個(gè)性化分析,就是先確定大圈子,然后圈子中分類,然后個(gè)性化。
應(yīng)該說(shuō),不同情況下有不同的價(jià)值,不管對(duì)哪個(gè)學(xué)派或者實(shí)踐都認(rèn)為管理的本質(zhì)是決策,而決策最重要的本質(zhì)是受信息不對(duì)稱的影響,信息越對(duì)稱決策價(jià)值越大,如果可以通過(guò)大數(shù)據(jù)的挖掘分析可以作出決策,最根本是能不能有助于決策,這是核心。由于決策之后會(huì)使得企業(yè)的競(jìng)爭(zhēng)規(guī)則發(fā)生變化,我們知道大部分學(xué)過(guò)MBA的同學(xué)都知道邁克爾波特說(shuō)過(guò)競(jìng)爭(zhēng)的價(jià)值取決于經(jīng)濟(jì)價(jià)值。如果創(chuàng)新會(huì)帶來(lái)一些競(jìng)爭(zhēng)優(yōu)勢(shì),但是容易被別人山寨,我們知道我們山寨能力很強(qiáng),我的成功可以復(fù)制,我的復(fù)制可以成功,什么才是持久的能力呢?低成本高效率,過(guò)去認(rèn)為是戰(zhàn)術(shù)性,過(guò)去認(rèn)為低成本高效率是戰(zhàn)術(shù)型,現(xiàn)在看來(lái)是一個(gè)國(guó)家和企業(yè)的長(zhǎng)期競(jìng)爭(zhēng),就是差異化、低成本,但如果不和運(yùn)營(yíng)效率放在一起就不是長(zhǎng)久的競(jìng)爭(zhēng)力。低成本高效率就是大數(shù)據(jù)的彈性商業(yè)過(guò)程,各個(gè)過(guò)程無(wú)縫隙、無(wú)摩擦的對(duì)接。
首先生產(chǎn)體系是對(duì)接,第二,、各個(gè)體系摩擦成本降到最低,所以我們把數(shù)據(jù)價(jià)值分為三類:第一,數(shù)據(jù)驅(qū)動(dòng)的決策;第二數(shù)據(jù)驅(qū)動(dòng)的流程;第三數(shù)據(jù)驅(qū)動(dòng)的產(chǎn)品。
第一個(gè)就是提高預(yù)測(cè)概率,提高決策成功率。今天上午有一個(gè)阿里金融的說(shuō)計(jì)劃經(jīng)濟(jì)比市場(chǎng)經(jīng)濟(jì)優(yōu)越,因?yàn)榭梢杂写髷?shù)據(jù)、定制、預(yù)售,其實(shí)就是第一個(gè)說(shuō)的,數(shù)據(jù)驅(qū)動(dòng)的決策可以提高預(yù)測(cè)的概率。講一件專業(yè)的事情,不知道各位是否知道“最大最小定制”。什么意思呢?傳統(tǒng)雙方博弈的時(shí)候,比如說(shuō)你是踢球員,我和守門員,我們兩方的博弈就是我們兩方的概率應(yīng)該是對(duì)等。大數(shù)據(jù)就是最大最小定制,我要對(duì)你的細(xì)致了解,因?yàn)槲也皇遣┺男再|(zhì)和概率性質(zhì),所以決策可以提高預(yù)測(cè)概率。
第二個(gè)是數(shù)據(jù)驅(qū)動(dòng)流程,就像今天上午老師說(shuō)的我們要形成閉環(huán)營(yíng)銷的成功率,就是我劃了圈子,所有客戶都在圈子里,所有營(yíng)銷對(duì)折他來(lái),還要和漏斗轉(zhuǎn)化結(jié)合,這就是數(shù)據(jù)驅(qū)動(dòng)流程。
第三個(gè)產(chǎn)品是迭代的創(chuàng)新,創(chuàng)新有顛覆性創(chuàng)新和迭代的創(chuàng)新,經(jīng)常有人說(shuō)把誰(shuí)誰(shuí)顛覆了,我不喜歡聽這個(gè)詞,我喜歡迭代,就是小步快跑,大數(shù)據(jù)一般指導(dǎo)的是小步快跑的迭代創(chuàng)新,現(xiàn)在微信為什么很牛,因?yàn)榈軓?qiáng),就是今天改一個(gè)功能明天改一個(gè)功能,這三類會(huì)帶來(lái)價(jià)值。
針對(duì)這三類,因?yàn)榇髷?shù)據(jù)最重要的是決策和優(yōu)化,對(duì)企業(yè)來(lái)說(shuō)決策和優(yōu)化可以代替效率,可以把迭代和優(yōu)化分為三個(gè)層級(jí):第一誰(shuí)在圈子內(nèi),第二屬于圈子內(nèi)的哪個(gè)族群,第三個(gè)是圈子消耗。廣告界有一句話名言叫做“我知道我的廣告費(fèi)有50%恩浪費(fèi)了,但不知道哪一半”?,F(xiàn)在就是要通過(guò)大數(shù)據(jù)排除非相關(guān)人員,確定圈子和利益相關(guān)者,這是有效影響,其他沒(méi)有有效影響的基本上和我沒(méi)有關(guān)系。不知道在座有沒(méi)有看過(guò)郭敬明的《小時(shí)代》,我看不懂,就寫了罵他,但他照樣賣3個(gè)億,我就不是他的客戶,不是他的圈子?,F(xiàn)在不要全國(guó)人民擁護(hù)我,只要圈子擁護(hù)我就發(fā)財(cái)了。然后是不管是哪一類數(shù)據(jù),圈定了就有價(jià)值。
第一個(gè)層級(jí)是針對(duì)一個(gè)具體的應(yīng)用,依據(jù)性別、收入、地域、年齡等特點(diǎn),簽訂相近的人群。比如在電子商務(wù)網(wǎng)站內(nèi),預(yù)測(cè)什么地方的人買東西最瘋狂或是預(yù)測(cè)什么型號(hào)手機(jī)最好賣,麥當(dāng)勞、肯德基以及蘋果公司器件專賣店的位置精準(zhǔn)選址,針對(duì)這個(gè)全體如何進(jìn)一步打磨廣告、市場(chǎng)營(yíng)銷等等,就可以優(yōu)化定價(jià)策略和產(chǎn)品線。
第二個(gè)層級(jí)就是通常說(shuō)的在確定圈子以后,需要把商品和人群分為不同的族群的通過(guò)族群和消費(fèi)者當(dāng)中確定消費(fèi)人群,購(gòu)物籃是最常見的大數(shù)據(jù)分析技術(shù),過(guò)去就是打印單上家庭主婦放在什么地方一塊兒買了,比如說(shuō)塔吉特針對(duì)懷孕的婦女,做了一個(gè)“懷孕指數(shù)”,就像中國(guó)有一句話叫酸兒辣女,通過(guò)懷孕指數(shù)可以知道預(yù)產(chǎn)期。我們經(jīng)常會(huì)說(shuō)通過(guò)過(guò)程數(shù)據(jù)和結(jié)果數(shù)據(jù)進(jìn)行關(guān)聯(lián)性分析。并不是關(guān)聯(lián)性分析很容易,其實(shí)也有難點(diǎn)。比如說(shuō)對(duì)書、手機(jī)、家電的Hard Line的產(chǎn)品可以認(rèn)為是標(biāo)品,通過(guò)時(shí)間序列預(yù)測(cè)是比較準(zhǔn)的,但對(duì)服裝、裝飾等是軟性商品,無(wú)法通過(guò)時(shí)間預(yù)測(cè),因?yàn)檫@類東西受到干擾東西太多,比如說(shuō)顏色、合不合身,還有朋友的意見,而且買得人多了就不買了,所以這樣軟性產(chǎn)品的預(yù)測(cè)非常困難,比如說(shuō)從術(shù)語(yǔ)來(lái)說(shuō)是多維變量,就比較難。
第三個(gè)層級(jí)確定圈子個(gè)體的特征,由此提供個(gè)性化的定制、產(chǎn)品和服務(wù),比如說(shuō)有一個(gè)電影叫《點(diǎn)石成金》,里面就是專門算哪一個(gè)球手,比如說(shuō)我這個(gè)球隊(duì)進(jìn)攻最弱,就把進(jìn)攻最強(qiáng)的球員買過(guò)來(lái)。比如說(shuō)我有一個(gè)芯片安裝在汽車上就可以測(cè)試駕駛習(xí)慣,拐彎是不是很急,剎車是不是很穩(wěn),確定每年效率稅率,過(guò)去中國(guó)人完全說(shuō)看客下菜碟,從消費(fèi)者來(lái)說(shuō)為每一個(gè)人定價(jià)才是最好的,基本上所有的生產(chǎn)者剩余都拿到自己的手里,過(guò)去沒(méi)有這個(gè)條件,現(xiàn)在大數(shù)據(jù)就可以進(jìn)行個(gè)性化定價(jià)。所以航空公司和快遞公司可以提供體貼入微的服務(wù),沃爾瑪利用數(shù)據(jù)分析提供最優(yōu)的價(jià)值。確定圈子、確定關(guān)系、確定定價(jià)以前就有,只是通過(guò)大數(shù)據(jù)確定價(jià)值,帶來(lái)新的增量。
既然數(shù)據(jù)的科學(xué),大家覺得大數(shù)據(jù)完全是忽悠的概念,經(jīng)過(guò)最近實(shí)踐探討,我們覺得它確實(shí)和原來(lái)的統(tǒng)計(jì)不一樣,但是和原來(lái)數(shù)據(jù)挖掘的方法論不一樣,它確實(shí)有點(diǎn)新的問(wèn)題,問(wèn)題就是解決任何問(wèn)題都有一個(gè)叫方法,在過(guò)去問(wèn)題多樣性手段是豐富的,不同的行業(yè)特性、不同的企業(yè)規(guī)模、不同的成長(zhǎng)階段產(chǎn)生了很多共同特點(diǎn),又有個(gè)性鮮明的問(wèn)題。在解決管理學(xué)的問(wèn)題,工具非常多,過(guò)去有人統(tǒng)計(jì)世界上有200多種研究的方法。這些盲人都要和數(shù)據(jù)結(jié)合在一起,正好演講開始就講了氣象,其實(shí)作1913年一個(gè)叫理查森就找到了空氣動(dòng)力學(xué)方程,他為了幫助中國(guó)打一站,根據(jù)他的方程可以預(yù)測(cè)出第二天的天氣,問(wèn)題是準(zhǔn)備數(shù)據(jù)需要6個(gè)星期,所以一直到一戰(zhàn)結(jié)束的時(shí)候理查森的數(shù)據(jù)沒(méi)有準(zhǔn)確過(guò)。一直到20世紀(jì),現(xiàn)在對(duì)過(guò)去天氣的統(tǒng)計(jì)可以精確到5%,剛才演講者說(shuō)可以達(dá)到85%了,所以我們檢測(cè)的時(shí)候數(shù)據(jù)還是那個(gè)數(shù)據(jù),但方法不一樣了。
所以在大數(shù)據(jù)背景下,方向不一樣了。問(wèn)題從預(yù)測(cè)、選擇、優(yōu)化、仿真重點(diǎn)轉(zhuǎn)向了關(guān)聯(lián)和決策,現(xiàn)在最重要找關(guān)聯(lián)關(guān)系能不能決策變成問(wèn)題最重要的方式了,其實(shí)這也是中國(guó)人所擅長(zhǎng)的,我原來(lái)做大數(shù)據(jù)演講的時(shí)候,有人說(shuō)大數(shù)據(jù)西方怎么好,我就告訴他也不是這樣的,中國(guó)人搞中醫(yī)不就是大數(shù)據(jù)嗎?中醫(yī)只管關(guān)聯(lián)不管過(guò)程的,按摩好了不管中間的機(jī)理,但是那個(gè)藥吃死多少人不知道,中醫(yī)就是大數(shù)據(jù),只管相關(guān)關(guān)系,不管過(guò)程。數(shù)據(jù)就是從小樣本轉(zhuǎn)減模型大數(shù)據(jù)的研究范式,所以對(duì)數(shù)據(jù)結(jié)構(gòu)的深入分析將會(huì)成為重點(diǎn)。
數(shù)據(jù)有些什么問(wèn)題呢?
我們經(jīng)常在做數(shù)據(jù)分析的時(shí)候發(fā)現(xiàn)兩個(gè)相關(guān),就是高頻數(shù)據(jù)和低頻數(shù)據(jù)需要統(tǒng)一。比如說(shuō)淘寶的交易數(shù)據(jù)是每秒、每個(gè)小時(shí)、每日,高頻數(shù)據(jù)的研究是對(duì)時(shí)間尺度極小的,低頻數(shù)據(jù)的研究是時(shí)間尺度極大的,經(jīng)濟(jì)危機(jī)是三十年一個(gè)循環(huán)就是很大的數(shù)據(jù)周期,所以高頻數(shù)據(jù)和低頻數(shù)據(jù)是怎么,流感傳播是以一個(gè)星期,對(duì)接不好了就會(huì)出問(wèn)題。
還有高階數(shù)據(jù)和低階數(shù)據(jù),因?yàn)槲覀冊(cè)谏唐奉A(yù)測(cè)上很多,過(guò)去不僅取決于過(guò)去的財(cái)富量還取決于當(dāng)前的財(cái)富,如果把財(cái)富看成Y,那么財(cái)富的一階導(dǎo)就是當(dāng)期的收入,財(cái)富的二階導(dǎo)就是拐點(diǎn),就是未來(lái)的收入,所以決定消費(fèi)者的表征就是C=C(y,y’,y’’)所以經(jīng)濟(jì)系統(tǒng)當(dāng)中引入高階變相和低階變量,即未來(lái)變量和滯后變量,都非常重要。過(guò)去小數(shù)據(jù)沒(méi)有這樣的條件,小數(shù)據(jù)都不知道哪個(gè)是未來(lái)哪個(gè)是當(dāng)期,大數(shù)據(jù)可以找出。
還有微觀變量,我們和阿里做消費(fèi)者信息指數(shù)的時(shí)候發(fā)現(xiàn),如果把全網(wǎng)加起來(lái)做指數(shù)非常難,因?yàn)轭惸坷鲜亲儎?dòng)。一般來(lái)說(shuō),熱力學(xué)類型的數(shù)據(jù),我們學(xué)物理都知道,熱力學(xué)類型的數(shù)據(jù)都是宏觀數(shù)據(jù),比如說(shuō)壓氣等等,都是事物趨勢(shì)和可能。動(dòng)力學(xué)類型的微觀數(shù)據(jù),比如說(shuō)速率、類目等,反應(yīng)是一個(gè)事物的實(shí)現(xiàn)性,這是微觀數(shù)據(jù)。比如說(shuō)我們和阿里做消費(fèi)者信息指數(shù)的時(shí)候一定不能做微觀數(shù)據(jù)。動(dòng)力學(xué)和數(shù)據(jù)和熱力學(xué)不能混同,如果混同就會(huì)有問(wèn)題,因?yàn)轭惸坷鲜钦{(diào)整。
第四個(gè)是高維數(shù)據(jù)和變維數(shù)據(jù)的問(wèn)題。高維數(shù)據(jù)包括三種,比如篩因變量和高維的,即一個(gè)變量可以影響很多變量,第二個(gè)是自變量是高維向量,影響一個(gè)變量變動(dòng)的因子有很多,第三個(gè)是因變量和自變量都是高維的向量。當(dāng)因變量和自變量都是高維的時(shí)候,現(xiàn)在有人說(shuō)炒股有27000多個(gè)變量,所以很多人搞不清楚。這個(gè)要做相關(guān)性分析怎么做呢?多維變量和多維變量的工具不是很多,所以我跟我們一個(gè)數(shù)據(jù)老師說(shuō)你做一個(gè)這樣的工具將來(lái)?yè)P(yáng)名立萬(wàn)了。在學(xué)科交界處,不但存在高維數(shù)據(jù),還存在變維數(shù)據(jù)。不要認(rèn)為這很虛,比如說(shuō)這類人群對(duì)某一類服裝的銷售就是多維和多維變量的問(wèn)題,所以現(xiàn)在為什么叫軟線產(chǎn)品,多維變量的關(guān)系很難理解,而且還有變維,就是有一個(gè)緯度影響不是很大。而且交易數(shù)據(jù)不僅是時(shí)間序列,而且和政治、自然、人際、情緒都有關(guān)系。其實(shí)數(shù)據(jù)除了剛才說(shuō)的以外,還有很多,我們?cè)谶M(jìn)行大數(shù)據(jù)分析的時(shí)候,黑天鵝事件和異常值分析等等,比如說(shuō)異常值分析,在過(guò)去統(tǒng)計(jì)分析中異常值就舍棄了,但大數(shù)據(jù)異常值很多,異常值在過(guò)去挖掘當(dāng)中就很少,現(xiàn)在做大數(shù)據(jù)很多。
我只講了四個(gè),大數(shù)據(jù)分析當(dāng)中可能遇到的大概有十類問(wèn)題。今天時(shí)間有限,就不說(shuō)那么多了,謝謝大家!
相關(guān)閱讀