【移動(dòng)LABS】8月26—27日,2015中國國際大數(shù)據(jù)大會(huì)在北京召開,移動(dòng)LABS作為大會(huì)戰(zhàn)略合作媒體受邀現(xiàn)場直播。中科院院士、北京大學(xué)、普林斯頓大學(xué)教授、普林科技董事長鄂維南做了題為“大數(shù)據(jù)發(fā)展中的一些瓶頸問題”的主題演講。
 
  中科院院士、北京大學(xué)、普林斯頓大學(xué)教授、普林科技董事長 鄂維南
 
  以下為演講速記:
 
  非常感謝收到邀請(qǐng),因?yàn)槲以谶@個(gè)講臺(tái)上肯定也是一個(gè)新人,我可能大家一個(gè)不太熟悉的人,我是北京大學(xué)元培學(xué)院院長,是搞教育的。從秋天開始我們學(xué)院有一個(gè)新的專業(yè),數(shù)據(jù)科學(xué)專業(yè),這是全國一個(gè)系統(tǒng)的專業(yè)。今天我看了這次大會(huì)的主要宗旨之一是讓大數(shù)據(jù)能夠在中國務(wù)實(shí)、健康地發(fā)展,這個(gè)題目非常好,現(xiàn)在中國的大數(shù)據(jù)非常熱,從國務(wù)院、各級(jí)政府、企業(yè)界、高校,整個(gè)社會(huì)都非常感興趣。中國大數(shù)據(jù)的前景非常廣闊,市場非常大。怎么把這個(gè)廣闊的前景變成現(xiàn)實(shí)現(xiàn)在還面臨很多問題,我現(xiàn)在想講講我個(gè)人的一些經(jīng)歷。前面幾位嘉賓也講過很多了,我結(jié)合自己的體會(huì)講一講。
 
  第一個(gè)問題就是沒數(shù)據(jù),理論上我們中國有很多數(shù)據(jù),但實(shí)際做數(shù)據(jù)分析你會(huì)發(fā)現(xiàn)這是一個(gè)非常嚴(yán)重的困難。就像前面張總工程師講數(shù)據(jù)孤島是一個(gè)嚴(yán)重的問題,不同部門數(shù)據(jù)存在在不同的地方,格式也不一樣。你要做數(shù)據(jù),大數(shù)據(jù)最高的層次就是要用數(shù)據(jù)來形成智慧,使得社會(huì)各方面可以運(yùn)轉(zhuǎn)起來。做數(shù)據(jù)分析先要整合數(shù)據(jù),這是我們通常的理念,這本身就是研究的困難。
 
  第二是數(shù)據(jù)的質(zhì)量的問題,最后我還要在后面提到。我想強(qiáng)調(diào)一點(diǎn)并不是說我們要有很完美的數(shù)據(jù)才能做分析,完美的數(shù)據(jù)永遠(yuǎn)是等不來的,我們做數(shù)據(jù)分析的人,我們的出發(fā)點(diǎn)是有多少數(shù)據(jù)可以做多少事,比方說碎片化的數(shù)據(jù)也可以有這樣一個(gè)流程,你也可以把它整合起來也可以做分析,所以這一點(diǎn)我想強(qiáng)調(diào)一下,不是說等到有完美的數(shù)據(jù)才能做數(shù)據(jù)分析。這是第一個(gè)瓶頸,大家很清楚。
 
  第二個(gè)瓶頸就是數(shù)據(jù)擁有方,像電信、聯(lián)通,和數(shù)據(jù)分析,像我這樣做數(shù)據(jù)分析的人,這中間有一個(gè)很大的洪溝,我們是做數(shù)據(jù)分析的,像電信、聯(lián)通有數(shù)據(jù),但是他們還沒有像我們這樣數(shù)據(jù)分析做了很多年,十幾年,沒有這樣的。那么怎么樣使得數(shù)據(jù)能夠流通起來?
 
  第一大家想到的就是開放,數(shù)據(jù)開放,現(xiàn)在政府也在呼吁數(shù)據(jù)開放,數(shù)據(jù)開放面臨一個(gè)嚴(yán)重問題就是隱私問題,脫敏遠(yuǎn)遠(yuǎn)不夠,隱私問題是一個(gè)無底洞。前面有一個(gè)我的鋪林斯頓大學(xué)的同事,他說從算法角度來判斷數(shù)據(jù)隱私這是不可能的。下面是一個(gè)例子,他們把美國的信用卡3個(gè)月數(shù)據(jù)拿過來,拿過來以后他發(fā)現(xiàn)如果我知道一個(gè)人昨天在某個(gè)部門買了一點(diǎn)東西,前天在另外一個(gè)商場買了東西,我就知道這個(gè)人是誰,也就是把你所有的消費(fèi)數(shù)據(jù)都找到了,那么我就了解你的消費(fèi)習(xí)慣,所以其實(shí)就是我了解你在消費(fèi)方面的隱私。這是脫敏的,沒有名字,沒有號(hào)碼什么的,但可以通過算法可以找到一個(gè)人的消費(fèi)習(xí)慣。想靠法律辦法解決隱私問題,這個(gè)嚴(yán)格來說是不可能,這是第一個(gè)問題。數(shù)據(jù)開放面臨的問題。
 
  第二個(gè)就是數(shù)據(jù)交易,現(xiàn)在交易所很多。我想說數(shù)據(jù)作為一種商品,它有一定的特殊性,我用了別人也可以用,沒有任何消耗,可以在市場賣很多遍。這就產(chǎn)生一個(gè)問題,你這個(gè)數(shù)據(jù)到市場賣,根據(jù)經(jīng)濟(jì)學(xué)觀點(diǎn)它的價(jià)值是零,你賣給我我可以用更低的價(jià)格賣給別人,所以數(shù)據(jù)交易理論上來說也是不可行的,現(xiàn)在很多數(shù)據(jù)交易平臺(tái),我不知道他們?cè)趺醋龅模趺赐黄七@個(gè)悖論。但是有一種說法是撮合,還有一種說法是不是直接賣數(shù)據(jù),是賣數(shù)據(jù)的加工品,這實(shí)際上有這個(gè)悖論在背后,對(duì)這兩種交易都是有影響的,只不過是更高層次的影響,這個(gè)問題本身不可避免。
 
  怎么辦?數(shù)據(jù)怎么流通起來?面臨這樣的情況現(xiàn)在還有另外個(gè)情況,就是數(shù)據(jù)擁有方,數(shù)據(jù)分析,他們的出發(fā)點(diǎn),自己建一個(gè)團(tuán)隊(duì)自己來做,我想說我從事數(shù)據(jù)分析很多年,我想說數(shù)據(jù)分析有瓶頸,是一個(gè)技術(shù)活,而且你差個(gè)1%、2%,這樣表明你在市場里沒有競爭力,所以這條路也是有困難的。另外我們國家的實(shí)際狀況是什么呢?現(xiàn)在我們的數(shù)據(jù)分析公司是風(fēng)起云涌,我把它說成是小鍋爐戰(zhàn)場,想當(dāng)年大煉鋼鐵的時(shí)候就是自己在家里就建了鍋爐就煉。的確什么人都可以做,沒有什么技術(shù)含量,但是現(xiàn)在我們講的大數(shù)據(jù)有一個(gè)很重要的一點(diǎn),大家平時(shí)不說的,就是現(xiàn)在數(shù)據(jù)分析的技術(shù)、方法、模型、算法有非常大改進(jìn),跟過去六七十年代完全不一樣了,不是說搞幾個(gè)SAAS軟件或者RAAS軟件就可以做了,雖然有人做起來了,也做得非?;ㄉ冢部梢哉f有很多市場,也可以說有很多人就能進(jìn)入這個(gè)市場。但是長遠(yuǎn)來說這條路走不通。所以我覺得數(shù)據(jù)行業(yè)服務(wù)最重要的是提高門檻,這個(gè)不是大家都可以做的,這真的是技術(shù)活,同樣真正把門檻提高了,數(shù)據(jù)服務(wù)的企業(yè)對(duì)本身有責(zé)任感,它本身就具有責(zé)任感,你才能提到前面的交易、隱私的問題,這是第二個(gè)瓶頸。
 
  第三個(gè)瓶頸是技術(shù)。一個(gè)方面是數(shù)據(jù)分析本身就是一個(gè)難題,第二點(diǎn)中國的數(shù)據(jù)有它的特色,比如院士剛剛講到我們很多的視頻,中國的視頻比任何國家都要多,我們有很多監(jiān)控視頻,這些數(shù)據(jù)現(xiàn)在連存都存不下,北京的交通信息管理中心的視頻只存21天,想用的時(shí)候沒有了。視頻分析本身就是一個(gè)非常困難的問題。我們有很多監(jiān)控視頻的監(jiān)控視頻的分析。第二文本,我們用中文,美國用英文,中國的和美國的文本不完全一樣,這也是中國大數(shù)據(jù)的一個(gè)瓶頸。最主要的是我們的數(shù)據(jù)質(zhì)量差、噪音多,也就是說在國外的方法拿到我們這里來不一定管用,因?yàn)樵胍艉芏唷_@個(gè)是一個(gè)風(fēng)控評(píng)級(jí)的模型,紅的是國外這個(gè)企業(yè)本身做的,綠的是普林科技做的,把大小和生物差,可以看到不同的數(shù)段是不同類型,可以看到普林科技的模型比國外這個(gè)模型好很多,誤差小很多。但是我們都知道數(shù)據(jù)分析很嚴(yán)重的問題就是過度擬合,尤其過度擬合把數(shù)據(jù)里的噪音擬合進(jìn)去了,你在訓(xùn)練級(jí)上表示非常好,你在測試級(jí)上真正實(shí)際數(shù)據(jù)表現(xiàn)差。比如這個(gè)地方,訓(xùn)練級(jí)上藍(lán)的線走勢(shì)非常好,但到實(shí)際數(shù)據(jù)越來越差了。在我們國家尤其嚴(yán)重的問題,因?yàn)槲覀兊臄?shù)據(jù)質(zhì)量非常差,數(shù)據(jù)里面噪音非常多。所以這個(gè)時(shí)候就需要對(duì)算法和模型進(jìn)行改進(jìn),來避免過度擬合這樣的問題。這是對(duì)我們這個(gè)市場提出了一個(gè)新問題。
 
  這里面我舉一個(gè)例子,不僅僅是數(shù)據(jù)分析本身就困難,中國市場的數(shù)據(jù)本身也有困難。還有一個(gè)難度,就是數(shù)據(jù)服務(wù)作為一個(gè)業(yè)務(wù)模式,它的商業(yè)模式現(xiàn)在沒有真正被認(rèn)可。互聯(lián)網(wǎng)企業(yè)大家知道,平臺(tái)搭起來,流量提上去商業(yè)模式就解決了,那數(shù)據(jù)通過什么方式賺錢,前景不是那么清楚。
 
  最最嚴(yán)重的問題是人才問題,我們國家大數(shù)據(jù)發(fā)展最大的優(yōu)勢(shì)市場大,最大的劣勢(shì)缺乏人才,人才缺乏非常嚴(yán)重。第一我們要跟國外爭人才,現(xiàn)在在國外做大數(shù)據(jù)的也很熱,有種說法說做IT的比做金融的華爾街的人更熱門,做大數(shù)據(jù)分析的人,在谷歌、臉書網(wǎng)做的很熱門,他們待遇非常好,這是對(duì)國外說。在國內(nèi)也好,國外也好,你還要跟企業(yè)競爭。比如我在美國鋪林斯頓大學(xué),這個(gè)大學(xué)是世界最好的大學(xué)之一了,現(xiàn)在在我們普林斯頓找數(shù)學(xué)家都非常困難,他很容易被大的公司挖走,我們?nèi)ツ暧袃蓚€(gè)非常好的人才就被微軟挖走了。所以即使在國外,現(xiàn)在學(xué)術(shù)界跟企業(yè)界競爭,人才都是非常嚴(yán)重缺乏的,在國外就更嚴(yán)重了。所以人才是非常嚴(yán)重的問題。
 
  而在我們國家目前沒有非常好的培養(yǎng)大數(shù)據(jù)人才的機(jī)理,這樣的機(jī)制沒有建立起來。本來我們的教育界、科技界的人才就缺乏,而在大數(shù)據(jù)領(lǐng)域,統(tǒng)計(jì)、機(jī)械學(xué)習(xí)等這些領(lǐng)域相比而言更加弱,所以這是一個(gè)嚴(yán)重問題。那么怎么解決這個(gè)問題?其實(shí)我個(gè)人在這方面想了很長時(shí)間,就是怎么才能在中國真正建設(shè)一個(gè)具有國際標(biāo)準(zhǔn)、國際水平的大數(shù)據(jù)平臺(tái)?我們國家這么大的市場,我們做大數(shù)據(jù),在國際上競爭第二是沒有意義的,我們要競爭就至少在某些領(lǐng)域在領(lǐng)先地位。要做到這一點(diǎn)至少得要有一個(gè)國際標(biāo)準(zhǔn)的研究平臺(tái),經(jīng)過很多年我可以告訴大家明天再北京大學(xué)我們要有一個(gè)北京大數(shù)據(jù)研究院掛牌儀式。這個(gè)可以說是從體制來講是一個(gè)創(chuàng)新,但是北京市政府、北京大學(xué)、北京工業(yè)大學(xué)、中關(guān)村管委會(huì)等聯(lián)合推進(jìn)的這樣的研究院,既有體制內(nèi),也有體制外的部分,把人才培養(yǎng)教育和科研創(chuàng)新和市場化、產(chǎn)業(yè)化結(jié)合在一起。
 
  我覺得這樣的一個(gè)平臺(tái)有可能把一些一流的人才吸引過來,因?yàn)樗麄冞@些人可能會(huì)看到中國市場的廣大,在這樣的平臺(tái)上他既可以做科研,也可以做市場,做產(chǎn)業(yè)化。從這個(gè)平臺(tái)也可以某種程度解決待遇問題,所以我從2009年開始到現(xiàn)在,6年的時(shí)間為了做這樣一件事情想了很多,當(dāng)然現(xiàn)在在各個(gè)部門,包括北大,包括北京市政支持下可以做起來,所以我們是掛牌了,萬里長征走完第一步。不管怎么樣我的個(gè)人的感覺是說我們中國大數(shù)據(jù)的市場非常大,但要真正務(wù)實(shí),落到實(shí)處我們要做的還非常多。這幾天有很多論壇,都很多代表都會(huì)講我們做了很多很多事情,我想聽起來都非常吸引人,但是我們聽眾也要問問你究竟是怎么做的。我們要采取一種開放務(wù)實(shí)的態(tài)度,最后講的有點(diǎn)教訓(xùn)式的口吻,對(duì)不起。不是說教育,而是我自己這么多年來的經(jīng)驗(yàn)和教訓(xùn),謝謝大家。


鄂維南:中科院院士、北大教授

責(zé)任編輯:admin