真正對(duì)數(shù)據(jù)快速增長(zhǎng)這一現(xiàn)象密切關(guān)注、并正式提出“大數(shù)據(jù)”概念的是SGI(美國(guó)硅圖公司,成立于1982年,是一家生產(chǎn)高性能計(jì)算機(jī)系統(tǒng)的跨國(guó)公司)首席科學(xué)家John Mashey。他在1997年的一篇題為“Big Data and the Next Wave of InfraStress”的演講中,詳細(xì)的講述了數(shù)據(jù)量和數(shù)據(jù)類型的快速增長(zhǎng)趨勢(shì)給世界帶來(lái)的挑戰(zhàn)。John Mashey將大數(shù)據(jù)定義為數(shù)據(jù)存儲(chǔ)密度的快速增長(zhǎng),他以磁盤密度為例進(jìn)行說(shuō)明,在1990年以前以每年130%的速度增長(zhǎng),1990年到1997年以每年160%的速度增長(zhǎng),到了1998年和1999年,增長(zhǎng)速度將是每年200%,這是數(shù)據(jù)規(guī)模增長(zhǎng)的一個(gè)直接的體現(xiàn)。隨著數(shù)據(jù)來(lái)源的快速擴(kuò)展,像圖片、表格、模型、數(shù)據(jù)、視頻、音頻等更為復(fù)雜的數(shù)據(jù),將會(huì)給互聯(lián)網(wǎng)等基礎(chǔ)設(shè)施帶來(lái)壓力。Mashey強(qiáng)調(diào)我們應(yīng)該關(guān)注這一趨勢(shì),并設(shè)法應(yīng)對(duì)這些新變化。
形成討論風(fēng)暴。2009年,《自然》雜志以專刊的形式提出了關(guān)于大數(shù)據(jù)的觀點(diǎn)和訪談。隨后,麥肯錫首次全面、系統(tǒng)地揭示了大數(shù)據(jù)革命的內(nèi)涵和邏輯,并對(duì)其影響力進(jìn)行了定量評(píng)估。麥肯錫研究院于2011年5月發(fā)布了報(bào)告《Big data: The nextfrontier for innovation, competition,and productivity》(大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿),詳細(xì)地回答了以下幾個(gè)問(wèn)題:究竟如何定義大數(shù)據(jù)?大數(shù)據(jù)涉及到哪些關(guān)鍵技術(shù)群?大數(shù)據(jù)能夠?yàn)槭澜鐒?chuàng)造多大的價(jià)值?大數(shù)據(jù)為哪些行業(yè)帶來(lái)最大的沖擊和改變?企業(yè)和政府應(yīng)該以怎么樣的策略去迎接大數(shù)據(jù)革命?
認(rèn)知走向成熟。國(guó)際數(shù)據(jù)公司IDC于2012年8月發(fā)布了一份題為“Big Data: Trends, Strategies, and SAP Technology”的報(bào)告,進(jìn)一步提出了大數(shù)據(jù)的“4V”特征:數(shù)據(jù)量(volume)、數(shù)據(jù)速度(velocity)、數(shù)據(jù)多樣性(variety)、價(jià)值(value)。從數(shù)據(jù)量來(lái)講(volume),數(shù)據(jù)規(guī)模將會(huì)從以往的GB和TB級(jí)別升級(jí)到PB和EB級(jí)別;從數(shù)據(jù)類型來(lái)講(variety),不同來(lái)源、不同格式的數(shù)據(jù)爆發(fā)式涌現(xiàn),個(gè)人、企業(yè)、社會(huì)、政府都將密集地產(chǎn)生數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)都將大規(guī)模增加;從數(shù)據(jù)速度來(lái)講(velocity),筆者理解其包含三個(gè)方面的含義。一是數(shù)據(jù)的增長(zhǎng)速度在加快,平均每2年翻一番。二是數(shù)據(jù)的獲得速度,可以沒(méi)有時(shí)滯地實(shí)時(shí)監(jiān)測(cè)一個(gè)病人、一臺(tái)機(jī)器、一架飛機(jī)、一座城市、一個(gè)國(guó)家的運(yùn)行態(tài)勢(shì),第一時(shí)間掌握進(jìn)展。三是數(shù)據(jù)的處理速度也在加快,分布式計(jì)算大大提升了計(jì)算速度;從數(shù)據(jù)價(jià)值來(lái)講(value),大數(shù)據(jù)蘊(yùn)含著大價(jià)值,需要用新的挖掘技術(shù)將之提煉出來(lái),為決策提供支持。