更新時間:2019-12-11 來源:黑馬程序員 瀏覽量:
數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘可以簡單的理解為從大量數(shù)據(jù)中提取或挖掘知識或者說是知識發(fā)現(xiàn)。
數(shù)據(jù)挖掘其實是一種深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘可以描述為:按企業(yè)既定業(yè)務目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。
數(shù)據(jù)挖掘前景怎么樣
數(shù)據(jù)挖掘利用計算機技術獲取隱藏在大量數(shù)據(jù)背后的信息,滿足一個行業(yè)或企業(yè)的需求,為企業(yè)或管理層的決策提供依據(jù)。從目前大數(shù)據(jù)公司的發(fā)展來看,它們正處于信息收集和簡要分析階段,規(guī)模經(jīng)濟效應相對較少。
從目前該行業(yè)的發(fā)展前景來看,未來是巨大的,能夠產(chǎn)生的經(jīng)濟效應可以說是幾何倍數(shù)的。迫切需要的是數(shù)據(jù)分析師或模型架構(gòu)師來構(gòu)建滿足行業(yè)需求的數(shù)據(jù)挖掘模塊并進行需求分析。換言之,前景無限,目前專業(yè)人才短缺。
數(shù)據(jù)挖掘的應用
數(shù)據(jù)挖掘的應用場景很多。比如,數(shù)據(jù)挖掘能幫助零售商了解“誰是最有價值的顧客”、“什么產(chǎn)品可以交叉銷售或提升銷售”、“公司明年的營收前景如何”;可以幫助地球科學家了解“干旱和颶風等生態(tài)系統(tǒng)擾動的頻度和強度與全球變暖之間有何聯(lián)系”、“海洋表面溫度對地表降水量和溫度有何影響”、“如何準確地預測一個地區(qū)的生長季節(jié)的開始和結(jié)束?”等等。
數(shù)據(jù)挖掘應用了眾多領域的思想,包括來自統(tǒng)計學的抽樣、估計和假設檢驗;來自人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論等。
數(shù)據(jù)挖掘的核心思想
貫穿數(shù)據(jù)挖掘的的思想主要有四個:關聯(lián),分類,回歸分析和聚類。前兩條是為了尋找差異基因,后兩條是預測差異基因的可能的屬性。
數(shù)據(jù)挖掘基本步驟
第一步:數(shù)據(jù)清理(消除噪聲和不一致數(shù)據(jù))
第二步:數(shù)據(jù)集成(不同來源與格式的數(shù)據(jù)組合到一起)
第三步:數(shù)據(jù)選擇(挖掘所需的數(shù)據(jù))
第四步:數(shù)據(jù)變換(數(shù)據(jù)變換成適合挖掘的形式,如匯總,聚集操作)
第五步:數(shù)據(jù)挖掘(方法,建模)
第六步:模式評估(結(jié)果模型)
第七步:知識表示(可視化)
數(shù)據(jù)挖掘要學什么
數(shù)據(jù)挖掘涉及的內(nèi)容比較泛,與之相關的內(nèi)容包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、機器學習、信息檢索。
學習數(shù)據(jù)挖掘基礎:數(shù)據(jù)庫理論、數(shù)學基礎(包括數(shù)理統(tǒng)計、概率、圖論等)、熟練掌握一種編程語言(java,python)、會使用數(shù)據(jù)挖掘工具軟件(weka、matlab、spss)等。
數(shù)據(jù)挖掘的內(nèi)容包括分類、關聯(lián)分析、聚類和異常檢測等幾個方面。
數(shù)據(jù)挖掘常用算法
分類算法:C4.5,樸素貝葉斯(Naive Bayes),SVM,KNN,Adaboost
聚類算法:K-Means,EM
關聯(lián)分析: PageRank
……
詳情請參考《數(shù)據(jù)挖掘十大算法》