數據挖掘 data mining
定義:從巨量數據中獲取正確的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。
學科:計算機科學技術_人工智能_機器學習
相關名詞:數據集 算法 隨機噪聲
圖片來源:視覺中國
【延伸閱讀】
近年來,隨著網絡技術的普及,數據庫技術也飛速發(fā)展。圖形、圖像、音頻、視頻、網頁等各種復雜數據都可以在數據庫中進行管理,逐漸累積的數據量也在不斷增加。
數據庫在向人們提供大量的信息的同時,也表現出了大量的信息特征。在這個信息大爆炸的年代,過量的信息也會對人類產生一定的消極作用,最顯著的影響是有效的信息可能被淹沒在海量數據中很難被提煉出來。太多的無用信息勢必會增大信息的狀態(tài)轉移距離,這是一種能夠反映出丟失的有用知識的多少的指標。這種情況下就會出現所謂的“信息豐富,知識匱乏”的困境。
因此,對大量的數據進行深入分析,從中找出隱藏的信息,以便更好地利用這些數據,成為人們的迫切需要。但是,僅僅依靠數據庫系統(tǒng)的增刪改查等功能還不能從數據中找出隱含的關系和規(guī)律,也不能從已有的數據中判斷出今后的發(fā)展方向,更不可能從數據中發(fā)掘出隱藏的知識。數據挖掘技術就是在這種情況下應運而生。
廣義上說,任何從數據中挖掘信息的過程都可以稱為數據挖掘。從這一角度,數據挖掘可以看作是一種商業(yè)智能。但在技術方面,數據挖掘大致需要經過以下步驟:
首先,要對源數據進行清洗和轉換,使之成為適合于挖掘的數據集。其次,要在這種具有固定形式的數據集上完成知識的提煉。最后,采用合適的知識模式進一步完成分析決策。
從狹義的觀點看,數據挖掘往往針對特定的數據和問題,選擇一種或者多種挖掘算法,找到數據背后隱藏的規(guī)律,并使用這些規(guī)律來進行預測、支持決策。
作為一項新興的處理數據技術,數據挖掘技術有許多的新特征。首先,數據挖掘的對象是海量數據,這也是數據挖掘技術產生的原因。其次,數據可能是包含隨機噪聲的、高維的,同時具有復雜的數據結構。最后,數據挖掘綜合運用了統(tǒng)計學、計算機、數學等學科的知識,多學科的交叉使其具有廣闊的應用領域。
(延伸閱讀作者:大連理工大學計算機學院教授 楊鑫)
責任編輯:張鵬輝