大數(shù)據(jù)的概念和定義
大數(shù)據(jù)是新概念,但本質(zhì)上的大數(shù)據(jù)并不算新。歷史上自從有了戶籍管理制度,便有了戶籍和人口資源大數(shù)據(jù),據(jù)此政府才可以進行征稅管理、征兵管理和賑災服務,才可以目標明確、心中有數(shù)地進行有計劃的征稅、征兵和救災工作,只不過當時并不叫做大數(shù)據(jù)而已。
關(guān)于大數(shù)據(jù)有不同層面的定義。一種是純技術(shù)角度的定義;另一種是實用角度的定義。
純技術(shù)角度的大數(shù)據(jù)定義:大數(shù)據(jù)(big data),是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。 大數(shù)據(jù)具有容量大、種類多、獲取數(shù)據(jù)快、可變性大、真實性各異、高復雜性、低價值(以低成本創(chuàng)造高價值)等特性。因此,大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低特征。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。 從技術(shù)上看,大數(shù)據(jù)必然是無法用單臺的計算機進行處理,必須采用分布式架構(gòu),依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。
這樣的定義是IT業(yè)的專業(yè)術(shù)語,實在太過于高大上,也可能就是故弄玄虛的文字游戲,距離產(chǎn)業(yè)應用也實在是太遠。
實用角度的大數(shù)據(jù),簡單用一句話講就是海量的數(shù)據(jù),是行業(yè)相關(guān)的所有數(shù)據(jù)的集合。這些數(shù)據(jù)有的目前即直接可用,有的或許當下不可用,只是具有潛在的使用價值,有的則需要進行復雜的統(tǒng)計、分析、運算,得出具有實用價值的結(jié)果、結(jié)論,用來進行決策和指導生產(chǎn)。
大數(shù)據(jù)包括不同層面,有個人大數(shù)據(jù)、公司企業(yè)大數(shù)據(jù)、行業(yè)大數(shù)據(jù)、公眾大數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)、政府機構(gòu)大數(shù)據(jù)、軍事大數(shù)據(jù)。有公開的公眾大數(shù)據(jù),也有保密的大數(shù)據(jù)。個人大數(shù)據(jù)是關(guān)于自己、家人、朋友、工作、業(yè)務、隱私的數(shù)據(jù)集合,或許寫在通訊錄、筆記本上,也可能只是裝在自己的腦子里,但不管如何卻是真實的大數(shù)據(jù),可以隨調(diào)隨用。公司大數(shù)據(jù)是關(guān)于公司架構(gòu)、業(yè)務、人員、財務、采購、產(chǎn)品銷售的數(shù)據(jù)集合,是用來為公司業(yè)務開展和業(yè)務決策服務的大數(shù)據(jù);行業(yè)大數(shù)據(jù)是一個行業(yè)里有關(guān)人力資源、自然資源、組織機構(gòu)、生產(chǎn)能力、市場供求、政策導向、存在問題、發(fā)展動態(tài)等的產(chǎn)業(yè)數(shù)據(jù)等。大數(shù)據(jù)可以是保密的,也可能是公開的、半公開的或部分公開的,軍事大數(shù)據(jù)是國家機密,自然是保密不公開的。百度搜索是一個典型的互聯(lián)網(wǎng)公眾大數(shù)據(jù),也是為社會大眾服務公開的公眾大數(shù)據(jù),你可以從百度里搜索到關(guān)于宇宙、地球、大自然、經(jīng)濟、人文、社會、商業(yè)、金融、產(chǎn)品等包羅萬象,無所不及的資料,為自己所用。并不是所有的資料對自己都有用,你只找對你有用的,現(xiàn)在找不到,或許將來會找到。
不同的大數(shù)據(jù)由不同的人來建立,供不同人群來使用的。企業(yè)大數(shù)據(jù)是企業(yè)自己來建立,比如阿里巴巴公司內(nèi)部資源大數(shù)據(jù)和電商平臺大數(shù)據(jù),是由阿里巴巴網(wǎng)絡技術(shù)有限公司建設的,內(nèi)部資源大數(shù)據(jù)是公司自己使用的,而電商平臺大數(shù)據(jù)中的財務部分肯定是給公司自己使用的,但產(chǎn)品部分則是給消費者使用的。公眾大數(shù)據(jù)由公眾服務企業(yè)甚或由公眾參與建設,比如百度是由百度公司搭建平臺,有公眾共同參與建設的。
農(nóng)業(yè)大數(shù)據(jù)
農(nóng)業(yè)大數(shù)據(jù)是農(nóng)業(yè)行業(yè)大數(shù)據(jù),是關(guān)于土地資源、品種資源、勞動力資源、涉農(nóng)企業(yè)、行業(yè)管理、組織機構(gòu)、農(nóng)業(yè)生產(chǎn)資料、農(nóng)業(yè)裝備、農(nóng)業(yè)科技,關(guān)于農(nóng)產(chǎn)品生產(chǎn)、田間管理、采收加工、產(chǎn)品銷售、價格變動、市場供求、進出口貿(mào)易,以及關(guān)于發(fā)展現(xiàn)狀、存在問題、發(fā)展動態(tài)和趨勢等所有相關(guān)的數(shù)據(jù)資料集合。農(nóng)業(yè)大數(shù)據(jù)涉及到的不同數(shù)據(jù),應該由各自相關(guān)的管理部門、組織機構(gòu)、行業(yè)協(xié)會、企業(yè)及其企業(yè)內(nèi)部的不同部門來建立,而匯總統(tǒng)一的行業(yè)數(shù)據(jù),應該由主管部門、行業(yè)組織、行業(yè)服務機構(gòu)和公司企業(yè)來建,分別用于不同的服務對象。比如,作為涉農(nóng)服務組織的供銷社,也可以建立自己的為“三農(nóng)”大數(shù)據(jù)。這個大數(shù)據(jù)自然應該有供銷社的不同層級的機構(gòu)來建、所屬組織機構(gòu)和公司企業(yè)來建,并匯總統(tǒng)一為供銷社大數(shù)據(jù)。而且,大數(shù)據(jù)是動態(tài)的數(shù)據(jù),隨著時間的推移,行業(yè)會有發(fā)展和變化,因而就會不斷有新的數(shù)據(jù)加入進來,而有些數(shù)據(jù)本來就是動態(tài)數(shù)據(jù),比如價格行情數(shù)據(jù),每天都不同。
農(nóng)業(yè)大數(shù)據(jù)的用途
大數(shù)據(jù)的根本用途是用來為決策服務的,包括為行業(yè)管理決策、行業(yè)規(guī)劃決策、行業(yè)指導決策、行業(yè)服務決策、業(yè)務經(jīng)營決策等。比如,通過行業(yè)大數(shù)據(jù),可以了解農(nóng)業(yè)生產(chǎn)資料生產(chǎn)現(xiàn)狀和供求平衡,決定是否需要增加化肥、農(nóng)藥、農(nóng)膜和小農(nóng)機具的產(chǎn)能,是否需要政府提供或如何提供政策支持、資金支持;根據(jù)農(nóng)產(chǎn)品的產(chǎn)能和市場需求,是否需要和如何進行供給側(cè)改革。對于區(qū)域經(jīng)濟或種植企業(yè)來說,根據(jù)現(xiàn)有產(chǎn)能、市場需求和價格波動,如何調(diào)整種植結(jié)構(gòu),如何制定價格策略,鮮活農(nóng)產(chǎn)品是否需要冬儲、如何儲等。在市場經(jīng)濟背景下,農(nóng)業(yè)生產(chǎn)和產(chǎn)品價格由市場供求決定,但由于市場的盲目性、隨機性和無序性,單個的生產(chǎn)企業(yè)和一家一戶的農(nóng)民,根本無法直接準確了解和掌握市場動態(tài)信息,而通過行業(yè)大數(shù)據(jù)則可以較好地了解市場,從而可以在一定程度上進行市場經(jīng)濟條件下的計劃性生產(chǎn),以降低市場風險,減少難以預測的市場自然波動給農(nóng)業(yè)生產(chǎn)者帶來的損失。農(nóng)產(chǎn)品期貨和訂單農(nóng)業(yè),本質(zhì)上講也是大數(shù)據(jù),期貨價格和訂單價格及時大數(shù)據(jù)的組成成分,也是基于行業(yè)大數(shù)據(jù)形成的。
農(nóng)業(yè)大數(shù)據(jù)的建設、管理、使用與服務
1. 體系建設
作為行業(yè)大數(shù)據(jù),不可能由某一個機構(gòu)或單位自己獨立完成,必須由行業(yè)內(nèi)所有經(jīng)營單位和個人的參與。各自建設自己的大數(shù)據(jù),或各自建設作為大數(shù)據(jù)的組成部分,形成海量數(shù)據(jù),并要能夠通過統(tǒng)一口徑或非統(tǒng)一口徑進行數(shù)據(jù)的匯總集成。匯總集成的海量數(shù)據(jù),是進行數(shù)據(jù)分析、歸納總結(jié)、進行決策的基礎和依據(jù)。所以,需要有數(shù)據(jù)中心和各層級的支持體系、工作體系,才能完成數(shù)據(jù)建設,也才能為不同層級的用戶提供數(shù)據(jù)服務。
2. 硬件和軟件建設
大數(shù)據(jù)首先需要有存儲介質(zhì)、傳播介質(zhì)和運算介質(zhì)。所以,就目前的技術(shù)發(fā)展水平和科技手段而言,大數(shù)據(jù)必然需要依靠計算機、移動通訊和互聯(lián)網(wǎng)的硬件環(huán)境支持,需要有辦公場所。這些都是硬件建設的范圍。大數(shù)據(jù)軟件建設則主要是指能夠保證以特定的數(shù)據(jù)格式存儲和管理數(shù)據(jù),并進行檢索、統(tǒng)計、分析、運算、形成結(jié)論和進行決策的軟件系統(tǒng)的建設。當然也包括數(shù)據(jù)安全保護。所以大數(shù)據(jù)建設中,硬件購置和軟件開發(fā)是必須的,也是基礎的工作。
3. 數(shù)據(jù)建設
硬件和軟件建設只是大數(shù)據(jù)建設的物理環(huán)境建設,是基礎,而大數(shù)據(jù)的真正核心是數(shù)據(jù)建設。沒有數(shù)據(jù)的大數(shù)據(jù),就僅僅是個空殼數(shù)據(jù)庫。這樣的空殼數(shù)據(jù)庫,從上世紀九十年來以來,曾經(jīng)建設了很多,但都毫無用處。真正的大數(shù)據(jù),必須有豐富的、海量的數(shù)據(jù)作為內(nèi)容,并以規(guī)范的格式存儲,可以方便地進行檢索、統(tǒng)計、分析、形成結(jié)論、進行決策、輸出決策并最終為用戶提供服務。相對于硬件建設和軟件開發(fā),數(shù)據(jù)建設需要更多的機構(gòu)和人員參與,投入的時間、精力和勞動更多。
大數(shù)據(jù)檢索、權(quán)限和服務
大數(shù)據(jù)是供使用的,使用的第一個環(huán)節(jié)就是檢索。大數(shù)據(jù)必須能夠通過一定的檢索工具,通過一定的檢索方式,進行檢索使用。比如百度搜索引擎,就是百度數(shù)據(jù)的檢索工具。通過關(guān)鍵詞及關(guān)鍵字組合,能比較準確的搜索到需要的公眾數(shù)據(jù)。京東商城里的搜索引擎,也可以通過關(guān)鍵詞和關(guān)鍵詞組合搜索到你需要的商品,并可通過篩選條件,篩選到特定品類、特定品牌、特定價格及其他特征的目標產(chǎn)品。
通常大數(shù)據(jù)的使用是有權(quán)限的,用以區(qū)分公共數(shù)據(jù)和不同層級的保密數(shù)據(jù),供相應層級或類型用戶的檢索需要。
大數(shù)據(jù)對不同用戶層面的服務不同。行業(yè)管理者用來進行行業(yè)管理決策,經(jīng)營者用來經(jīng)營決策,社會大眾用來為日常生活和工作服務。根據(jù)不同保密程度設置不同的權(quán)限,為不同的用戶服務。一般來講,一個海量數(shù)據(jù)的大數(shù)據(jù)不可能只為少數(shù)人服務,受眾范圍越大,社會價值越大。
大數(shù)據(jù)是需要不斷發(fā)展、完善的數(shù)據(jù)
大數(shù)據(jù)永遠不可能是最終的、最理想的數(shù)據(jù)。因為事物是處于不斷運動、發(fā)展、變化中的,大數(shù)據(jù)需要不斷豐富、完善、發(fā)展,是動態(tài)的數(shù)據(jù)。一是大數(shù)據(jù)技術(shù)在不斷發(fā)展和進步中,沒有最好,只有更好;二是大數(shù)據(jù)的數(shù)據(jù)是動態(tài)變化的,產(chǎn)業(yè)在發(fā)展,時間在推移,所以大數(shù)據(jù)也必然是動態(tài)變化的。大數(shù)據(jù)只能是不斷趨于理想的數(shù)據(jù),但永遠不可能是理想數(shù)據(jù)。