大數(shù)據(jù)有多大
在當今信息網(wǎng)絡時代,人們的網(wǎng)上操作,平時的一舉一動,機器的運轉活動,大自然的隨時變化都會產生許許多多的數(shù)據(jù)。這些數(shù)據(jù)量大且復雜,用現(xiàn)有的計算工具難以處理,人們形象地稱之為“大數(shù)據(jù)”。
我們來看看這些:互聯(lián)網(wǎng)一天產生的全部內容可以刻滿1.68億張DVD;每天通過網(wǎng)絡傳輸?shù)碾娮余]件達2000多億封,發(fā)出的社區(qū)帖子達200萬個,賣出的手機為37.8萬臺;騰訊公司注冊用戶超過7億,同時在線人數(shù)超過1億;創(chuàng)建“平安城市”,一個攝像頭運行一小時,產生的數(shù)據(jù)是3.6G;醫(yī)院檢查一次CT產生幾個G的影像數(shù)據(jù);在數(shù)字化工業(yè)設計的今天,設計一架飛機,幾十萬個零部件的尺寸、大小、形狀均是數(shù)據(jù);我們每個人每天打電話、刷卡支付,會產生很多數(shù)據(jù);想象一下這些數(shù)據(jù)會是多么龐大?IBM的研究稱,整個人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數(shù)據(jù)規(guī)模將達到今天的44倍。大數(shù)據(jù)具有數(shù)據(jù)量大、類型繁多、數(shù)據(jù)變化快、價值密度低等四個典型特征,傳統(tǒng)處理方法和軟件工具已不能分析處理這些大量的數(shù)據(jù),需要創(chuàng)新數(shù)據(jù)處理方法和軟件分析工具。
產生這么多的數(shù)據(jù)不難理解。從智能手機的普及到二維碼的流行,再到可穿戴設備的面世,我們的衣食住行基本都可以電子化了,海量的數(shù)據(jù)也隨之而來;工業(yè)設備、汽車、電表上無數(shù)傳感器,隨時測量和傳遞著各種各樣的信息,都會產生海量的數(shù)據(jù);不斷成熟的手機指紋識別傳感器、嗅覺傳感器甚至可以感知情緒的新技術接踵而至,這一切使得人類活動以及物理世界數(shù)據(jù)化變?yōu)榭赡堋?/p>
這么“大”的數(shù)據(jù),如何存放呢?當然,這得益于科技的發(fā)展:反映計算機硬件技術進步的摩爾定律是這樣描述的——大約每隔18個月集成電路的集成度增加一倍,而價格下降一半。成本的不斷下降促進了大數(shù)據(jù)的可存儲性。同時,隨著量子計算、光計算等新型介質研究與應用發(fā)展,數(shù)據(jù)存儲能力將進一步大幅提升。
大數(shù)據(jù)的價值
如果你是亞馬遜的會員,你可能早都發(fā)現(xiàn)“猜你喜歡”推薦的書常常是你感興趣的;如果近期你打算網(wǎng)購一套空氣凈化設備,并在網(wǎng)上了解過相關信息,你會發(fā)現(xiàn)你的淘寶首頁,有很多銷售空氣凈化機的推送,甚至上其他網(wǎng)站,都會時不時彈出有關空氣凈化機的商品信息。
這些都歸功于商家對“大數(shù)據(jù)”的開發(fā)應用。他們依靠計算機進行數(shù)據(jù)處理,根據(jù)你的瀏覽、搜索、購物記錄等等,“猜測”出你的喜好,從而幫你選擇可能會喜歡、可能會購買的商品??纯?ldquo;百度”“微信”“淘寶”這些我們工作生活離不開的應用吧:百度數(shù)據(jù)是需求數(shù)據(jù),需要什么搜索什么;騰訊微信反映出的是興趣和關系數(shù)據(jù),而淘寶網(wǎng)數(shù)據(jù)形成交易數(shù)據(jù),如果同時掌握興趣和關系、需求及交易數(shù)據(jù),就能夠把一個人的行為搞清楚。同樣的道理,各行各業(yè)只要數(shù)據(jù)足夠“大”,預見未來似乎也并不難。
有人說“預見未來”是大數(shù)據(jù)的核心價值。那么,這種預見未來的價值,能為我們的生活帶來哪些改變呢?
以“百度遷徙”為例。1月26日,“百度遷徙”網(wǎng)站正式上線。網(wǎng)站主頁的中國地圖上,每一個跳躍的點,都是人們出發(fā)和到達的目的地。點擊任一城市,就會出現(xiàn)過往8小時內這一城市遷出與遷入人次最多的數(shù)據(jù)。“百度遷徙”就是把手機網(wǎng)民的定位信息匯總成大數(shù)據(jù)進行分析,從而勾勒出人們的遷徙軌跡。這些信息對分析人口遷移的方向、城鎮(zhèn)化進程、春運運輸調配等方面有著重要的價值。[page]
毋庸置疑,對大數(shù)據(jù)的利用可以提升政府等管理部門的社會管理水平,例如對車輛運行數(shù)據(jù)的分析利用,可以使城市規(guī)劃更加科學;流感高發(fā)季節(jié),對疾病到來提前預測;旅游旺季,對熱門景區(qū)高峰期游客數(shù)量提前預測,可以提升社會服務水平等等。
一項對國際大公司的數(shù)據(jù)應用研究表明:數(shù)據(jù)的使用率提升10%,零售業(yè)的效率將提升49%,咨詢服務業(yè)提升39%,航空、食品加工、建筑、鋼鐵、汽車、出版、基礎設施等行業(yè)都能提升20%左右。數(shù)據(jù)的巨大價值由此可見一斑。
當然,數(shù)據(jù)只是一堆冰冷的數(shù)字而已。大數(shù)據(jù)的價值是隱藏在數(shù)據(jù)之內的,要經過整合、分析、挖掘之后才會顯現(xiàn)。同時,大數(shù)據(jù)的價值也是難以評估的。例如,現(xiàn)在看來沒有任何價值的數(shù)據(jù),可能以后會有價值;單個的數(shù)據(jù)沒有價值,長時間的累積可能價值巨大;在一件業(yè)務中看似沒有價值的數(shù)據(jù),可能在另外的業(yè)務中會有大價值。因此,要不斷提升大數(shù)據(jù)分析的方法和工具。數(shù)據(jù)再多,沒有很好的整合和挖掘,其價值就不能得到體現(xiàn)。
剛剛起步的大數(shù)據(jù)
大數(shù)據(jù)的研究應用和產業(yè)形態(tài)已引發(fā)國際國內廣泛關注。2012年,奧巴馬政府宣布推出“大數(shù)據(jù)的研究和發(fā)展計劃”,將投資兩億多美元,推動和改善大數(shù)據(jù)的收集、組織和分析技術,這標志著大數(shù)據(jù)從商業(yè)行為上升到國家戰(zhàn)略層面。IBM、甲骨文、微軟等跨國IT巨頭也紛紛發(fā)布大數(shù)據(jù)戰(zhàn)略,對大數(shù)據(jù)產品進行全面布局。在我國,科技部已經批準大數(shù)據(jù)重大基礎研究項目,并將大數(shù)據(jù)作為國家未來重點發(fā)展的重大科技任務之一。工業(yè)與信息化部在“工業(yè)與信息化深度融合專項行動計劃”中提出重視工業(yè)大數(shù)據(jù)的應用;電信、聯(lián)通、移動三大運營商以及眾多IT企業(yè)也積極開拓大數(shù)據(jù)市場。2014年春節(jié)期間的人口遷徙大數(shù)據(jù)分析、“兩會大數(shù)據(jù)”就是大數(shù)據(jù)應用的生動實例。陜西省也把大數(shù)據(jù)作為戰(zhàn)略性新興產業(yè)重點發(fā)展方向之一,大力推動大數(shù)據(jù)應用基礎研究和產業(yè)園區(qū)發(fā)展。
國際國內對大數(shù)據(jù)的廣泛關注已呈現(xiàn)出一個良好的開始。迎接大數(shù)據(jù)時代,與之相關的很多問題還需要科研人員奮力攻關。如何對復雜的大數(shù)據(jù)快速完成價值“提純”,是亟待解決的難題。與此同時,如何保證數(shù)據(jù)的完整性和真實性、數(shù)據(jù)的共享,如何解決大數(shù)據(jù)所帶來的安全和隱私以及計算機系統(tǒng)硬件與軟件適應大數(shù)據(jù)特點等挑戰(zhàn),都是隨著“大數(shù)據(jù)”的到來要必須面對的。此外,采集、存貯和發(fā)掘大數(shù)據(jù)需要較大人力和經費投入,如何得到良好的回報率,也將是影響大數(shù)據(jù)發(fā)展的重要因素??傊?,大數(shù)據(jù)對我們的科學技術和數(shù)據(jù)駕馭能力提出了新的挑戰(zhàn)。
無論如何,大數(shù)據(jù)時代正在來臨!
