導(dǎo)讀:

  它山之石,可以攻玉。為了幫助各界人士學(xué)習(xí)國外先進(jìn)經(jīng)驗(yàn),進(jìn)一步了解大數(shù)據(jù)市場的定價(jià)、交易與保護(hù),國脈戰(zhàn)略研究院專家楊冰之、林渠,帶來了《大數(shù)據(jù)市場調(diào)查:定價(jià)、交易與保護(hù)》的翻譯文章,相信會給大家以思想的碰撞、靈感的啟迪,促進(jìn)大家思考,從而為我國推進(jìn)數(shù)據(jù)要素市場化配置改革,貢獻(xiàn)國脈戰(zhàn)略研究院的智慧。

  在本章節(jié)中,我們將介紹大數(shù)據(jù)的基本概念,包括定義、挑戰(zhàn)和應(yīng)用。

  A. 大數(shù)據(jù)的定義

  世界上的數(shù)據(jù)總量呈爆炸式增長,每天生成的數(shù)據(jù)量估計(jì)為25億字節(jié)。事實(shí)上,全世界近90%的數(shù)據(jù)都是在過去兩年內(nèi)創(chuàng)建的。數(shù)據(jù)來源多種多樣,尤其是物聯(lián)網(wǎng)越來越多地參與到我們的日常生活中,支持許多智能世界系統(tǒng)。如此多樣化的數(shù)據(jù)源導(dǎo)致了數(shù)據(jù)量的膨脹,同樣創(chuàng)造了巨大的潛在商業(yè)價(jià)值。我們將這些數(shù)據(jù)稱為大數(shù)據(jù)。

  正如圖1所示,盡管沒有關(guān)于大數(shù)據(jù)的定義,但三個(gè)V是大數(shù)據(jù)最常用的定義:

  (i) 體量(volume):大數(shù)據(jù)的第一個(gè)特征是巨大的數(shù)據(jù)量。數(shù)據(jù)集的大小可以從TB到ZB,甚至更大。例如,截至2012年,F(xiàn)acebook存儲了大約100 PB的媒體(照片和視頻),有8.45億用戶上傳。

 ?。╥i)速率(velocity):速率是數(shù)據(jù)流變化和生成的特征。多個(gè)數(shù)據(jù)源不斷生成數(shù)據(jù),使得大數(shù)據(jù)具有難以置信的高刷新率。它也只有很短的時(shí)間來處理數(shù)據(jù)。盡管Facebook的數(shù)據(jù)總量約為100 PB,但每天仍有11.3億活躍用戶上傳9億張照片

 ?。╥ii)品種(variety):品種數(shù)據(jù)可以有多種不同且互補(bǔ)的格式,例如來自各種設(shè)備和應(yīng)用程序的日志數(shù)據(jù)、數(shù)據(jù)庫文件和XML文件等。此外,數(shù)據(jù)可以具有非結(jié)構(gòu)化數(shù)據(jù)類型(圖像、視頻和音頻流等)。由于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等數(shù)據(jù)分析技術(shù)的發(fā)展,大數(shù)據(jù)是海量、連續(xù)和全面的,具有很高的潛在商業(yè)價(jià)值。

 (圖1. 三V大數(shù)據(jù))

  請注意,術(shù)語數(shù)據(jù)挖掘(data mining)和商業(yè)智能(Business Intelligence (BI))經(jīng)常交替使用來描述大數(shù)據(jù)的處理。這些概念顯然與數(shù)據(jù)分析有關(guān)。因此大數(shù)據(jù)的目標(biāo)不僅是收集數(shù)據(jù),而且是進(jìn)行數(shù)據(jù)分析以提取業(yè)務(wù)價(jià)值。作為傳統(tǒng)大數(shù)據(jù)定義的延伸,我們考慮了另一個(gè)V,即價(jià)值。特別是與數(shù)據(jù)交易相關(guān)的三個(gè)V與數(shù)據(jù)價(jià)值之間的關(guān)系,以及它們?nèi)绾蜗嗷ビ绊?,是大?shù)據(jù)研究的非常重要并具有挑戰(zhàn)性的方面。

  B. 大數(shù)據(jù)的益處和挑戰(zhàn)

  與傳統(tǒng)數(shù)據(jù)源相比,大數(shù)據(jù)既有優(yōu)勢也有劣勢。我們對它們的差異進(jìn)行了分類:

  全面性:大數(shù)據(jù)不僅可以捕獲主要活動(dòng),還可以捕獲相關(guān)數(shù)據(jù),并提供詳細(xì)信息以供將來分析。例如,隨著智能手機(jī)的普及,社交網(wǎng)絡(luò)在人們之間的聯(lián)系以及圖片和視頻的分發(fā)也越來越普及。傳統(tǒng)數(shù)據(jù)源可能只捕獲聯(lián)系人列表,而大數(shù)據(jù)可能涉及智能手機(jī)中的大量傳感器和數(shù)據(jù),記錄盡可能多的信息(位置、面部信息、語音信息等)。這些附加信息可以提供全面的細(xì)節(jié)來描述此人,并幫助大數(shù)據(jù)應(yīng)用程序進(jìn)行分析并提供定制服務(wù)。

  恒常性:大數(shù)據(jù)不斷捕獲信息。例如,大多數(shù)人每年或每半年進(jìn)行一次身體健康檢查。醫(yī)院或醫(yī)生記錄每位患者的基本健康指數(shù),包括血壓、體溫、身高、體重等。如今,像蘋果手表和帶有傳感器的運(yùn)動(dòng)手鐲這樣的新系統(tǒng)能夠隨時(shí)隨地連續(xù)記錄這些指標(biāo)。這種技術(shù)有可能獲得大量人口的高頻率數(shù)據(jù),用于深入的大數(shù)據(jù)分析。

  多樣性:在大數(shù)據(jù)中,與結(jié)構(gòu)化數(shù)據(jù)相比,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)越來越多。大多數(shù)傳統(tǒng)數(shù)據(jù)集被安排為結(jié)構(gòu)化數(shù)據(jù)集,因?yàn)樵O(shè)計(jì)人員已經(jīng)知道傳統(tǒng)數(shù)據(jù)源的類型和結(jié)構(gòu),并且數(shù)據(jù)將被指定給傳統(tǒng)數(shù)據(jù)庫。例如,來自市場的收據(jù)、工資單和庫存列表是具有傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)類型的典型業(yè)務(wù)應(yīng)用程序,易于使用和管理。相比之下,非結(jié)構(gòu)化數(shù)據(jù)源很難控制或管理。視頻流、音頻文件和文本數(shù)據(jù)就是這類數(shù)據(jù)的例子,它們的大小、編碼和上下文都有很大差異。分析和管理非結(jié)構(gòu)化數(shù)據(jù)很困難,因?yàn)閿?shù)據(jù)位沒有預(yù)定義。

  C. 大數(shù)據(jù)應(yīng)用

  為了讓大數(shù)據(jù)變得有用,大數(shù)據(jù)分析軟件工具可以提取有用的信息。從大數(shù)據(jù)用戶的角度來看,大數(shù)據(jù)應(yīng)用程序可用于分析和挖掘大數(shù)據(jù)源的價(jià)值。

  1) 大數(shù)據(jù)應(yīng)用的目的

  在過去幾十年,世界上各個(gè)層次的經(jīng)濟(jì)實(shí)體都轉(zhuǎn)向使用數(shù)據(jù)密集型技術(shù),這種技術(shù)的廣泛采用在一定程度上取決于經(jīng)濟(jì)發(fā)展和教育水平,這促進(jìn)了數(shù)據(jù)增長。因此,Oracle、IBM、Microsoft、Dell和其他許多公司在大數(shù)據(jù)管理和分析應(yīng)用程序開發(fā)方面投入了大量資金。此外,大數(shù)據(jù)應(yīng)用行業(yè)每年以10%左右的速度增長,幾乎是傳統(tǒng)軟件領(lǐng)域的兩倍。因此,大數(shù)據(jù)管理和分析應(yīng)用程序是創(chuàng)造數(shù)據(jù)價(jià)值的關(guān)鍵。

  許多特定領(lǐng)域,如政府、制造業(yè)、醫(yī)療保健、教育、互聯(lián)網(wǎng)、社交媒體和物聯(lián)網(wǎng)驅(qū)動(dòng)的智能世界系統(tǒng),都需要大數(shù)據(jù)應(yīng)用程序來確定自己收集的數(shù)據(jù)集的價(jià)值,以更好地支持應(yīng)用程序。例如,基于數(shù)據(jù)密集型業(yè)務(wù)的Facebook、谷歌和騰訊等公司提取來自它們自己的用戶平臺生成的數(shù)據(jù)集。這一過程的主要目的是將這些有價(jià)值的數(shù)據(jù)集出售給潛在的廣告商、其他第三方,或?qū)⑵涑尸F(xiàn)給投資者,以產(chǎn)生進(jìn)一步的價(jià)值。因此,必須建立有效的大數(shù)據(jù)管理和分析應(yīng)用程序,從收集的數(shù)據(jù)中挖掘商業(yè)價(jià)值,這一點(diǎn)非常重要。大數(shù)據(jù)應(yīng)用也成為數(shù)據(jù)定價(jià)的重要參考。

  2) 大數(shù)據(jù)應(yīng)用的挑戰(zhàn)

  大數(shù)據(jù)應(yīng)用程序面臨的挑戰(zhàn)之一是沒有直接簡單的方法來量化數(shù)據(jù)集的價(jià)值。正如前面所討論的,通過提高大數(shù)據(jù)應(yīng)用程序的性能,增加結(jié)果數(shù)據(jù)集的商業(yè)價(jià)值。遵循這一規(guī)則,為了追求數(shù)據(jù)集的最大值,一種有效的方法是從數(shù)據(jù)集產(chǎn)生價(jià)值的過程中提高應(yīng)用程序的性能。為了提高這種性能,顯然需要提高計(jì)算能力和運(yùn)行效率,并降低計(jì)算資源需求和數(shù)據(jù)存儲成本。盡管如此,問題仍然是如何量化這些改進(jìn),需注意的是,難以保證通過實(shí)施這些簡單的改進(jìn),數(shù)據(jù)集的商業(yè)價(jià)值就會增加。因此有必要設(shè)計(jì)一個(gè)綜合績效評價(jià)模型。通過對應(yīng)用程序的性能進(jìn)行建模,技術(shù)人員和管理人員能夠做出明智的決策,實(shí)驗(yàn)結(jié)果可以作為參考來設(shè)計(jì)創(chuàng)造未來價(jià)值的改進(jìn)。

  延續(xù)上述討論,大數(shù)據(jù)應(yīng)用程序的下一個(gè)挑戰(zhàn)是設(shè)計(jì)和開發(fā)適當(dāng)?shù)哪P?,用于評估價(jià)值生成過程。在這樣一個(gè)過程中,有許多相互關(guān)聯(lián)且復(fù)雜的場景和參數(shù)用于衡量大數(shù)據(jù)應(yīng)用程序的性能。例如,每個(gè)計(jì)算任務(wù)可能涉及多個(gè)用于大數(shù)據(jù)應(yīng)用的離散計(jì)算節(jié)點(diǎn)。此外,在某個(gè)計(jì)算任務(wù)期間,可以通過調(diào)度策略改變所涉及的計(jì)算節(jié)點(diǎn)??紤]到大數(shù)據(jù)結(jié)構(gòu)和交互活動(dòng)的復(fù)雜性,大數(shù)據(jù)應(yīng)用程序的建模和性能評估需要專業(yè)知識。例如,多形式主義建模和測試異構(gòu)形式主義和系統(tǒng)擴(kuò)展的結(jié)構(gòu)化基礎(chǔ)設(shè)施(SIMTHESys)被定義為大數(shù)據(jù)建模的新框架。此外,SIMTHESys是一個(gè)建模框架,旨在適應(yīng)快速和隨機(jī)變化的系統(tǒng)模型。此外有學(xué)者還提出了其他建??蚣埽ˋToMe、OsMoSys和Mobius。

  3) 大數(shù)據(jù)和其他技術(shù)的融合

  大數(shù)據(jù)是人工智能(AI)和機(jī)器學(xué)習(xí)的基本來源/輸入。在大數(shù)據(jù)時(shí)代,大量數(shù)據(jù)集為這些技術(shù)提供數(shù)據(jù),以獲得有意義的結(jié)果。盡管如此,對于設(shè)計(jì)有效的大數(shù)據(jù)應(yīng)用程序而言,即時(shí)、靈活地隨機(jī)訪問大量數(shù)據(jù)的能力是一個(gè)具有挑戰(zhàn)性的問題。此外,與過去在統(tǒng)計(jì)領(lǐng)域和數(shù)據(jù)分析科學(xué)中使用有限的數(shù)據(jù)樣本集不同,大數(shù)據(jù)允許科學(xué)家訪問和分析無限的數(shù)據(jù)集。由于大數(shù)據(jù)集的樣本量大幅增加,以及數(shù)據(jù)源和傳感器具有更多種類和細(xì)節(jié),明顯提升了分析結(jié)果。這就是許多組織從基于經(jīng)驗(yàn)的分析戰(zhàn)略轉(zhuǎn)變?yōu)榛诖髷?shù)據(jù)的戰(zhàn)略的原因。組織能夠開發(fā)自己的應(yīng)用程序以滿足其獨(dú)特的需求。此外,在分析處理期間,可以過濾掉冗余或不必要的數(shù)據(jù)。這將細(xì)化源數(shù)據(jù),并整合數(shù)據(jù)集。不斷運(yùn)行優(yōu)化循環(huán),可以通過“分析沙盒”( analytical sandboxes)和大數(shù)據(jù)“卓越中心”( centers of excellence)分析數(shù)據(jù)集,還可以提高數(shù)據(jù)管理的靈活性。

  機(jī)器學(xué)習(xí)技術(shù),如深度學(xué)習(xí),是利用大數(shù)據(jù)價(jià)值的可行方法。機(jī)器學(xué)習(xí)由大數(shù)據(jù)源驅(qū)動(dòng),適用于快速變化的大型復(fù)雜數(shù)據(jù)集,并可通過云和邊緣計(jì)算基礎(chǔ)設(shè)施的幫助進(jìn)一步改進(jìn)。與傳統(tǒng)的分析技術(shù)不同,機(jī)器學(xué)習(xí)能夠在不斷增長的數(shù)據(jù)集上不斷開展。通過這種方式,輸入機(jī)器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)越多,它可以學(xué)習(xí)得越多,從而得到更高質(zhì)量的結(jié)果。因此,大數(shù)據(jù)和機(jī)器學(xué)習(xí)結(jié)合可以幫助組織改進(jìn)從自身數(shù)據(jù)集中提取業(yè)務(wù)價(jià)值的工作,并擴(kuò)展其大數(shù)據(jù)應(yīng)用分析能力。

  D. 大數(shù)據(jù)的價(jià)值

  大數(shù)據(jù)是數(shù)據(jù)技術(shù)時(shí)代最重要的資源。為了交易或共享數(shù)據(jù)資源,如何評估這些數(shù)據(jù)集的商業(yè)價(jià)值是一個(gè)基本問題。此外,從數(shù)據(jù)集中捕獲和挖掘價(jià)值可以進(jìn)一步增加數(shù)據(jù)的價(jià)值。為了從大數(shù)據(jù)中確定商業(yè)價(jià)值,我們需要定義數(shù)據(jù)集的商業(yè)價(jià)值。高德納(Gartner)提出了最常被引用的大數(shù)據(jù)定義:“大數(shù)據(jù)是高容量、高速度和多種多樣的信息資產(chǎn),需要成本效益,創(chuàng)新的信息處理形式,以增強(qiáng)洞察力和決策能力?!北M管這是大數(shù)據(jù)的一個(gè)有效特征,但這一定義還不夠明確,無法明確區(qū)分高值和低值。使用此定義,我們無法測量數(shù)據(jù)集的值。因此,需要基于評估的定義來確定數(shù)據(jù)值。

  顯然,收集和存儲大量數(shù)據(jù)并不是所有公司和組織的目標(biāo)。然而它們都對分析數(shù)據(jù)以提取和創(chuàng)造實(shí)際商業(yè)價(jià)值感興趣。達(dá)文波特(Davenport)列舉了一些真實(shí)或軼事的例子,說明了組織如何使用收集的數(shù)據(jù)集的策略,并從這些數(shù)據(jù)集中挖掘價(jià)值。此外,一項(xiàng)綜合研究表明,數(shù)據(jù)驅(qū)動(dòng)的決策在生產(chǎn)率和盈利能力方面比其他決策方法具有更好的績效。關(guān)于確定大數(shù)據(jù)分析如何創(chuàng)造商業(yè)價(jià)值,以及在何處可以從大數(shù)據(jù)中獲得商業(yè)價(jià)值的問題,有許多研究。根據(jù)系統(tǒng)性研究,大數(shù)據(jù)有兩個(gè)主要方面,從這兩個(gè)方面可以為組織創(chuàng)造商業(yè)價(jià)值。第一個(gè)方面是大數(shù)據(jù)用于改進(jìn)和優(yōu)化當(dāng)前業(yè)務(wù)流程、服務(wù)和實(shí)踐的能力。第二是開發(fā)新的商業(yè)模式、產(chǎn)品和實(shí)踐,這些都可以通過大數(shù)據(jù)分析進(jìn)行開發(fā)和創(chuàng)新。因此從大數(shù)據(jù)中獲取價(jià)值需要確定業(yè)務(wù)模型與所分析的大數(shù)據(jù)之間的關(guān)系。

  數(shù)據(jù)挖掘是從數(shù)據(jù)集中獲取價(jià)值的常用方法之一。盡管如此,在大數(shù)據(jù)的數(shù)據(jù)挖掘應(yīng)用方面仍存在挑戰(zhàn)。第一個(gè)挑戰(zhàn)集中在數(shù)據(jù)訪問和計(jì)算過程上。由于分布式存儲系統(tǒng)和不斷增長的數(shù)據(jù)量,計(jì)算平臺必須具備處理分布式和大規(guī)模數(shù)據(jù)存儲的能力。大多數(shù)數(shù)據(jù)挖掘算法都需要將所有必要的數(shù)據(jù)加載到主存中,這顯然是大數(shù)據(jù)的一個(gè)技術(shù)挑戰(zhàn),因?yàn)閺姆植际酱鎯ο到y(tǒng)中移動(dòng)數(shù)據(jù)非常昂貴。第二個(gè)挑戰(zhàn)是各種大數(shù)據(jù)應(yīng)用。更具體地說,應(yīng)用程序存在于不同的域中,在數(shù)據(jù)所有者和使用者之間具有不同的數(shù)據(jù)私有和數(shù)據(jù)共享方案。第三個(gè)挑戰(zhàn)是設(shè)計(jì)有效的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法。學(xué)習(xí)和挖掘算法必須解決大容量、分布式、復(fù)雜和動(dòng)態(tài)的數(shù)據(jù)特征的困難。

更多精彩,請關(guān)注“官方微信”

11.jpg

 關(guān)于國脈 

國脈,是大數(shù)據(jù)治理、數(shù)字政府、營商環(huán)境、數(shù)字經(jīng)濟(jì)、政務(wù)服務(wù)專業(yè)提供商。創(chuàng)新提出"軟件+咨詢+數(shù)據(jù)+平臺+創(chuàng)新業(yè)務(wù)"五位一體服務(wù)模型,擁有超能城市APP、營商環(huán)境流程再造系統(tǒng)、營商環(huán)境督查與考核評估系統(tǒng)、政策智能服務(wù)系統(tǒng)、數(shù)據(jù)基因、數(shù)據(jù)母體等幾十項(xiàng)軟件產(chǎn)品,長期為中國智慧城市、智慧政府和智慧企業(yè)提供專業(yè)咨詢規(guī)劃和數(shù)據(jù)服務(wù),廣泛服務(wù)于發(fā)改委、營商環(huán)境局、考核辦、大數(shù)據(jù)局、行政審批局等政府客戶、中央企業(yè)和高等院校。

責(zé)任編輯:wuwenfei