不可錯過,資料探勘的十大演算法講解!

一個優秀的資料分析師不僅要掌握基本的統計、資料庫、

資料分析方法

、思維、

資料分析工具

和技能,還要掌握一些資料探勘的思路,幫助我們挖掘出有價值的資料,這也是資料分析專家和一般資料分析師的差距之一。

不可錯過,資料探勘的十大演算法講解!

資料探勘主要分為三類:分類演算法、聚類演算法和相關規則,基本涵蓋了當前商業市場對演算法的所有需求。這三類包含了許多經典演算法。市面上很多關於資料探勘演算法的介紹都是深奧難懂的。今天我就用我的理解給大家介紹一下資料探勘十大經典演算法的原理,幫助大家快速理解。

資料探勘演算法分類

1、連線分析:PageRank。

2、相關分析:Apriori。

3、分類演算法:C4。5,簡單的貝葉斯,SVM,KNN,Adaboost,CART。

4、聚類演算法:K-Means,EM。

一、PageRank

論文被引用的次數越多,其影響就越大。

網頁入口越多,入鏈質量越高,網頁質量越高。

PageRank原理

網頁的影響=阻尼影響+所有入鏈集合頁面的加權影響之和。

一個網頁的影響:所有進入鏈的頁面的加權影響之和。

一個網頁對其他網頁的影響是:自身影響/連結數量。

並非所有使用者都是透過跳轉連結來上網的,還有其他方式,比如直接輸入網站訪問。

因此需要設定阻尼因子,代表使用者根據跳轉連結上網的機率。

PageRank比喻說明

1、微博

一個人的微博粉絲數量不一定等於他的實際影響力,還要看粉絲的質量。

如果是殭屍粉沒用,但是如果是很多大V或者明星關注的話,影響力很大。

2、店鋪經營

顧客較多的店鋪質量較好,但要看顧客是否是託。

3、興趣

對感興趣的人或事投入相對較多的時間,對其相關的人和事也投入一定的時間。被關注的人或事越多,其影響力/受眾就越大。

關於阻尼因子

1、透過鄰居的影響來判斷你的影響,但是如果你不能透過鄰居來訪問你,並不意味著你沒有影響力,因為可以直接訪問你,所以引入了阻尼因子的概念。

2、海洋除了河流流經外,還有雨水,但下雨是隨機的。

3、提出阻尼係數,或者解決一些網站顯然有大量的鏈(鏈),但影響很大。

出鏈例子:hao123導航網頁,出鏈多,入鏈少。

入鏈例子:百度谷歌等搜尋引擎,入鏈很多,出鏈很少。

二、Apriori(相關分析)

關聯挖掘關係,從消費者交易記錄中發現商品之間的關係。

Apriori原理

1、支援度

商品組合出現的次數與總次數之比。

五次購買,四次購買牛奶,牛奶支援度為4/5=0。8。

五次購買,三次購買牛奶+麵包,牛奶+麵包支援3/5=0。6。

2、置信度

購買商品A,購買商品B的機率有多大,發生A時發生B的機率有多大。

買了四次牛奶,其中兩次買了啤酒,(牛奶->啤酒)的可信度是2/4=0。5。

三次買啤酒,其中兩次買牛奶,(啤酒->牛奶)的可信度為2/3-0。67。

3、提升度

衡量商品A的出現,提高商品B出現機率的程度。

提升度(A->B)=置信度(A->B)/支援度(B)。

提升度>1,有提升;提升度=1,無變化;提升度1,下降。

4、項集頻繁

項集:可以是單一商品,也可以是商品組合。

頻繁的項集是支援度大於最小支援度的項集(MinSupport)。

計算過程

(1)從K=1開始,經常篩選項集。

(2)在結果中,組合K+1項集,重新篩選。

(3)迴圈1,2步。K-1項集的結果是最終結果,直到找不到結果。

擴充套件:FP-Growth演算法。

Apriori演算法需要多次掃描資料庫,效能低,不適合大資料量。

FP-growth演算法,透過構建FP樹的資料結構,將資料儲存在FP樹中,只需在構建FP樹時掃描資料庫兩次,後續處理就不需要再訪問資料庫。

比喻:啤酒和紙尿褲一起賣。

沃爾瑪透過資料分析發現,在美國有嬰兒的家庭中,母親通常在家照顧孩子,父親去超市買尿布。

父親在買紙尿褲的時候,經常會搭配幾瓶啤酒來獎勵自己。因此,超市試圖推出一種將啤酒和紙尿褲放在一起的促銷手段,這實際上大大增加了紙尿褲和啤酒的銷量。

三、資料探勘演算法:AdaBoost

AdaBoost原理

簡單來說,多個弱分類器訓練成強分類器。

將一系列弱分類器作為不同權重比組合的最終分類選擇。

計算過程

1、基本權重初始化。

2、獎勵權重矩陣,透過現有的分類器計算錯誤率,選擇錯誤率最低的分類器。

3、透過分類器權重公式,減少正確的樣本分佈,增加錯誤的樣本分佈,獲得新的權重矩陣和當前k輪的分類器權重。

4、將新的權重矩陣帶入上述步驟2和3,重新計算權重矩陣。

5、迭代N輪,記錄每輪最終分類器的權重,獲得強分類器。

AdaBoost演算法比喻說明

1、利用錯題提高學習效率

做對的題,下次少做點,反正都會。

下次多做錯題,集中在錯題上。

隨著學習的深入,錯題會越來越少。

2、合理跨境提高利潤

蘋果公司,軟硬體結合,佔據了手機市場的大部分利潤,兩個領域的知識結合產生了新的收益。

四、資料探勘演算法:C4.5(決策樹)

決策就是對一個問題有多個答案,選擇答案的過程就是決策。

C4。5演算法用於產生決策樹,主要用於分類。

C4。5計算資訊增益率(ID3演算法計算資訊增益)。

C4.5演算法原理

C4。5演算法選擇最有效的方法對樣本集進行分裂,分裂規則是分析所有屬性的資訊增益率。

資訊增益率越大,意味著這個特徵分類的能力越強,我們應該優先選擇這個特徵進行分類。

比喻說明:挑西瓜。

拿到一個西瓜,先判斷它的線條。如果很模糊,就覺得不是好瓜。如果很清楚,就覺得是好瓜。如果稍微模糊一點,就考慮它的密度。如果密度大於一定值,就認為是好瓜,否則就是壞瓜。

五、資料探勘演算法:CART(決策樹)

CART:Clasification And Regresion Tree,中文叫分類迴歸樹,可以分類也可以迴歸。

什麼是分類樹?迴歸樹?

分類樹:處理離散資料,即資料型別有限的資料,輸出樣本類別。

迴歸樹:可以預測連續值,輸出一個值,值可以在一定範圍內獲得。

迴歸問題和分類問題的本質是一樣的,就是對一個輸入做一個輸出預測,其區別在於輸出變數的型別。

CART演算法原理

CART分類樹

類似於C4。5演算法,但屬性選擇的指標是基尼係數。

基尼係數反映了樣本的不確定性。基尼係數越小,樣本之間的差異越小,不確定性越低。

分類是一個降低不確定性的過程。CART在構建分類樹時,會選擇基尼係數最小的屬性作為屬性劃分。

迴歸樹的CART

以均方誤差或絕對值誤差為標準,選擇均方誤差或絕對值誤差最小的特徵。

分類和迴歸數的比喻說明

分類:預測明天是陰、晴還是雨。

迴歸:預測明天的溫度。

六、資料探勘演算法:簡單貝葉斯(條件機率)

簡單貝葉斯是一種簡單有效的常用分類演算法,在未知物體出現的情況下,計算各類出現的機率,取機率最大的分類。

不可錯過,資料探勘的十大演算法講解!

演算法原理

假設輸入的不同特徵是獨立的,基於機率論原理,透過先驗機率P(A)、P(B)和條件機率計算出P(A|B)。

P(A):先驗機率,即在B事件發生前判斷A事件機率。

P(B|A):條件機率,事件B在另一個事件A已經發生的條件下發生的機率。

P(A|B):後驗機率,即B事件發生後重新評估A事件機率。

比喻說明:對患者進行分類

給定一個新病人,一個打噴嚏的建築工人,計算他感冒的機率。

不可錯過,資料探勘的十大演算法講解!

七、資料探勘演算法:SVM

SVM:SupportVectorMachine,中文名為支援向量機,是一種常見的分類方法,最初是為二分類問題設計的,在機器學習中,SVM是一種有監督的學習模式。

什麼是監督學習和無監督學習?

監督學習:即在現有類別標籤的情況下,對樣本資料進行分類。

無監督學習:即在沒有類別標籤的情況下,樣本資料按照一定的方法進行分類,即聚類。分類好的類別需要進一步分析,才能知道每個類別的特點。

SVM演算法原理

找到間隔最小的樣本點,然後擬合到這些樣本點的距離和最大的線段/平面。

硬間隔:資料線性分佈,直接給出分類。

軟間隔:允許一定量的樣本分類錯誤。

核函式:非線性分佈的資料對映為線性分佈的資料。

SVM演算法比喻說明

1、分隔桌上的一堆紅球和籃球。

桌上的紅球和藍球用一根線分成兩部分。

2、分隔盒子裡的一堆紅球和籃球。

盒子裡的紅球和藍球用平面分成兩部分。

八、資料探勘演算法:KNN(聚類)

機器學習演算法中最基本、最簡單的演算法之一,可以透過測量不同特徵值之間的距離來分類。

KNN演算法原理

計算待分類物體與其他物體之間的距離,預測K最近鄰居數量最多的類別是該分類物體的類別。

計算步驟。

1。根據場景選擇距離計算方法,計算待分類物體與其他物體之間的距離。

2。統計最近的K鄰居。

3。對於K最近的鄰居,最多的類別被預測為分類物件的類別。

KNN演算法比喻:近朱者赤,近墨者黑。

九、資料探勘演算法:K-Means(聚類)

K-means是一種無監督學習、生成指定K類的聚類演算法,將每個物件分配到最近的聚類中心。

不可錯過,資料探勘的十大演算法講解!

K-Means演算法原理

1。隨機選擇K點作為分類中心點。

2。將每個點分配到最近的類,從而形成K類。

3。重新計算每個類別的中心點。比如同一類別有10個點,那麼新的中心點就是這10個點的中心點,一個簡單的方法就是取平均值。

K-Means演算法比喻說明

1、選組長

每個人都隨機選擇K個組長,誰離得近,就是那個佇列的人(計算距離,近的人聚在一起)。

隨著時間的推移,組長的位置在變化(根據演算法重新計算中心點),直到選擇真正的中心組長(重複,直到準確率最高)。

2、Kmeans和Knn的區別

Kmeans開班選組長,風水輪流轉,直到選出最佳中心組長。

Knn小弟加隊,離那個班比較近,就是那個班。

十、資料探勘演算法:EM(聚類)

EM的英語是ExpectationMaximization,因此EM演算法又稱最大期望演算法,也是一種聚類演算法。

EM和K-Means的區別:

EM是計算機率,KMeans是計算距離。

EM屬於軟聚類,同一樣本可能屬於多個類別;K-Means屬於硬聚類,一個樣本只能屬於一個類別。因此,前者可以發現一些隱藏的資料。

EM演算法原理

先估計一個大機率的可能引數,然後根據資料不斷調整,直到找到最終確認引數。

EM演算法比喻說明:菜稱重

很少有人用稱重菜餚,然後計算一半的重量來平分。

大多數人的方法是:

1、先把一部分分成菜A,然後把剩下的分成菜B。

2、觀察菜A和B裡的菜是否一樣多,哪個多就勻一點到少。

3、然後觀察碟子裡的A和B是否一樣多,重複,直到重量沒有變化。

其中,資料探勘之後就需要把收集的有用的資料進行視覺化處理方便人們直觀感受資料的變化和重要性,通常資料分析師都會選擇一些視覺化輔助工具幫助自己更好的完成資料分析工作,比如基礎的視覺化工具有Excel、PPT和Xmind,但是對於企業來說,這些視覺化工具提供的功能都太單一了,不能很好的滿足視覺化效果,很多資料分析師會選擇Smartbi這款視覺化工具,集齊資料探勘、資料分析、資料視覺化功能於一體的資料視覺化工具,有著更方便的拖拉拽操作,能處理億級的資料量,還有著視覺化效果更好的自助儀表盤,能更好的滿足現代企業報表需求。

到這裡十大演算法已經簡單介紹完成了。事實上,一般來說,常用演算法已經被封裝到倉庫中,只要new生成相應的模型。

資料分析師不僅要學會怎麼收集有用的資料,也要對資料進行深度分析做出對企業更有利的決策,選擇視覺化工具Smartbi能有效的提升資料分析師的生產力。

這些是一些結合個人經驗和網上資料的心得體會,希望能對你學習資料探勘有幫助。

TAG: 演算法分類資料探勘分類器視覺化