統計學避坑指南:18個常見錯誤!

作者:求知鳥

轉自:知乎

本文總結統計學中經常犯的錯誤,知道這些常識,可以在與別人”嘴炮“時更具專業性。

01 -變數之間關係可以分為兩類:

函式關係:反映了事務之間某種確定性關係

相關關係:兩個變數之間存在某種依存關係,但二者並不是一一對應的;反映了事務間不完全確定關係;

02 -為什麼要對相關係數進行顯著性檢驗?

實際上完全沒有關係的變數,在利用樣本資料進行計算時也可能得到一個較大的相關係數值(尤其是時間序列數值)

當樣本數較少,相關係數就很大。當樣本量從100減少到40後,相關係數大機率會上升,但上升到多少,這個就不能保證了;取決於你的剔除資料原則,還有這組資料真的可能不存在相關性;

改變兩列資料的順序,不會對相關係數,和散點圖(擬合的函式曲線)造成影響;對兩列資料進行歸一化處理,標準化處理,不會影響相關係數;我們計算的相關係數是線性相關係數,

只能反映兩者是否具備線性關係。

相關係數高是線性模型擬合程度高的前提;此外相關係數反映兩個變數之間的相關性,多個變數之間的相關性可以透過複相關係數來衡量;

03 -

增加變數個數,R2會增大;P值,F值只要滿足條件即可,不必追求其值過小;

04 -

多重共線性與統計假設檢驗傻傻分不清?

多重共線性與統計假設沒有直接關聯,但是對於解釋多元迴歸的結果非常重要。相關係數反應兩個變數之間的相關性;迴歸係數是假設其他變數不變,自變數變化一個單位,對因變數的影響,而存在多重共線性(變數之間相關係數很大),就會導致解釋困難;比如y~x1+x2;x·1與x2存在多重共線性,當x1變化一個單位,x2不變,對y的影響;而x1與x2高度相關,就會解釋沒有意義。

一元迴歸不存在多重共線性的問題;而多元線性迴歸要摒棄多重共線性的影響;所以要

先對所有的變數進行相關係數分析,初步判定是否滿足前提---多重共線性。

05 -時間序列資料會自發呈現完全共線性問題,所以我們用自迴歸分析方法;

06 -

什麼樣的模型才是一個好模型?

在測試集表現與預測集相當,說明模型沒有過度擬合:在訓練集上表現完美,在測試集上一塌糊塗;原因:模型過於剛性:“極盡歷史規律,考慮隨機誤差”;擬合精度不能作為衡量模型方法的標準;

一個好的模型:只描述規律性的東西(抓住事務的主要特徵),

存在隨機誤差是好事,在預測時,就有了“容錯空間”

,預測誤差可能減小!

07 -

假設檢驗顯著性水平的兩種理解:

顯著性水平:

透過小機率準則來理解,在假設檢驗時先確定一個小機率標準——顯著性水平;用表示;凡出現機率小於顯著性水平的事件稱小機率事件;

透過兩類錯誤理解:為拒絕域面積

統計學避坑指南:18個常見錯誤!

08 -

中心極限定律與大數定理:

大數定理——-正態分佈的“左磅”,隨著樣本數的增加,樣本的平均值可以估計總體平均值;

中心極限定理——-正態分佈的“右臂”具有穩定性,大數定理說明大量重複實驗的平均結果具有穩定解決了變數均值的收斂性問題中心極限定理說明隨機變數之和逐漸服從某一分佈,解決了分佈收斂性問題。

09 -方差

方差能最大程度的反映原始資料資訊;

反映了一組資料相對於平均數的波動程度,相比於,其平方項更放大了波動,且差的平方在數學公式推導上有大用。

10 -使用最小二乘法條件:

自變數之間不能存在完全共線性;

總體方程誤差項服從均值為0的正態分佈(大數定理)

誤差項的方差不受自變數影響且為固定值;(同方差性)

11 -

最大似然估計與最小二乘法區別

最小二乘法是基於幾何意義上距離最小

最大似然估計是基於機率意義上出現的機率最大

最小二乘法:對資料分佈無要求

最大似然估計:需要知道機率密度函式

12 -

關於H0與H1

H0:原假設,零假設——零是相關係數為0,說明兩個變數無關係

H1:備用假設

如何設定原假設:

1)H0與H1是完備事件組,相互對立,有且只有一個成立

2)在確立假設時,先確定備設H1,然後再確定H0,且保證“=”總在H0上

3)原H0一般是需要反駁的,而H1是需要支援的

4)假設檢驗只提供原假設不利證據

即使“假設”設定嚴密,檢驗方法“精確”;假設檢驗始終是建立在一定機率基礎上的,所以我們常會犯兩類錯誤;

第一類:原H0是真,卻拒絕原假設;犯類錯誤

第二類:原H0是假,卻不拒絕原假設;犯類錯誤

通常只能犯兩種錯誤中的一種,且增加,減少

通常,類錯誤是可控的,先設法降低第一類錯誤機率

13 -

什麼是雙尾檢驗,單尾檢驗?

1) 當H0採用等號,而H1採用不等號,雙尾檢驗

2)當H0是有方向性的,單尾檢驗

14 -

P值

當原假設為真時,比所得到的樣本觀察,結果更極端的結果會出現的機率。

如果P值很小,我們拒絕原假設的理由越充分。

P的意義不表示兩組差別大小,p反映兩組差別有無統計學意義

顯著性檢驗只是統計結論,判斷差別還需要專業知識;

15 -

T檢驗與U檢驗

當樣本容量n夠大,樣本觀察值符合正態分佈,可採用U檢驗

當樣本容量n較小,若觀測值符合正態分佈,可採用T型檢驗

16 -

方差分析

主要用於兩樣本及以上樣本間的比較,又被稱為F檢驗,變異數分析;

基本思想:透過分析研究不同來源的變異對總體變異的貢獻大小,

從而確定可控因素對研究結果影響力的大小;

總變異可以被分解為組間變異與組內變異

組間變異:由於不同實驗處理而造成的各組之間的變異

組內變異:組內各被適變數的差異範圍所呈現的變異

17 -

直方圖:對資料進行整體描述,突出細節

箱線圖:對資料進行概要描述,或對不同樣本進行比較。箱線圖可以讓我們迅速瞭解資料的彙集情況(這個樣本,緊密的集合在一起;哇,這個樣本不那麼密集;這個樣本,大部分向左偏,哇,這個樣本大部分向右偏。)

但是請注意:

個直方圖比1000個p值更重要

,拿到資料先繪製散點圖、直方圖、箱線圖看看,再決定用什麼描述!

18 -

箱線圖

對於分位數的理解:霜線圖看資料分佈特徵統計學中,把所有數值由小到大排列並分成四等份,處於三個分割點位置的得分就是四分位數。所以,四分位數有三個!四指四等份!

第一四分位數:下四分位數;等於該樣本中所有數值由小到大排列後第25%的數字(所以下四分位數可以不是樣本中的數值,它是一個統計指標(就像平均數一樣,不一定是原資料的一點)

第二四分位數:中位數

第三四分位數:上四分位數

其中,下四分位數與上四分位數的距離叫四分位距!(IQR)

統計學避坑指南:18個常見錯誤!

一元迴歸不存在多重共線性的問題;而多元線性迴歸要摒棄多重共線性的影響;所以要先對所有的變數進行相關係數分析,初步判定是否滿足前提——-多重共線性。

希望透過上面的一些總結,可以對大家在資料分析工作中提供一些幫助。

TAG: 相關係數共線性四分H0位數