一文看懂95%置信區間

重磅乾貨,第一時間送達

來自 | CSDN部落格 作者 | bitcarmanlee

編輯 | 深度學習這件小事公眾號

本文僅作學術交流,如有侵權,請聯絡後臺刪除。

1。點估計與區間估計

首先我們看看

點估計

的含義:

是用樣本統計量來估計總體引數,因為樣本統計量為數軸上某一點值,估計的結果也以一個點的數值表示,所以稱為點估計。點估計雖然給出了未知引數的估計值,但是未給出估計值的可靠程度,即估計值偏離未知引數真實值的程度。

接下來看下

區間估計

給定置信水平,根據估計值確定真實值可能出現的區間範圍,該區間通常以估計值為中心,該區間則為置信區間。

2。中心極限定理與大數定理

中心極限定理:

在適當的條件下,大量相互獨立隨機變數的均值經適當標準化後依分佈收斂於正態分佈。例如我們要計算全中國人的平均身高。如果每次取10000個身高作為樣本,對應有一個樣本均值。如果再從總體中重複抽取n多次10000個樣本,就對應有n個樣本均值。隨著n增大,把所有樣本均值畫出來,得到的就是一個接近正太分佈的曲線。

大數定理:

取樣數趨近無窮時,樣品平均值按機率收斂於期望值。拋硬幣的次數越多,越接近正反各一半。

3。置信區間與置信水平

一般我們用中括號[a,b]表示樣本估計總體平均值誤差範圍的區間。a、b的具體數值取決於你對於”該區間包含總體均值”這一結果的可信程度,因此[a,b]被稱為置信區間。

一般來說,選定某一個置信區間,我們的目的是為了讓”ab之間包含總體平均值”的結果有一特定的機率,這個機率就是所謂的置信水平。

例如我們最常用的95%置信水平,就是說做100次抽樣,有95次的置信區間包含了總體均值。

4。標準差(standard deviation)與標準誤差(standard error)

標準差是描述觀察值(個體值)之間的變異程度(例如一個人打十次靶子的成績,這時有一個平均數8,有一個反映他成績穩定與否的標準差);

標準誤是描述樣本均數的抽樣誤差(例如十次抽樣,每次他成績平均數(7,8,6,9,5,6,7,7,8,9)的標準差,也就是抽樣分佈的標準差);

樣本的標準誤差為:

一文看懂95%置信區間

5。如何理解95%的置信區間

以上面的統計身高為例,假設全國人民的身高服從正態分佈:

不斷進行取樣,假設樣本的大小為n,則樣本的均值為:

由大數定理與中心極限定理:

注意σ1的計算方法為第4部分提到的標準誤差!

為什麼常用95%的置信水平:

一文看懂95%置信區間

對照上圖,用一句簡單的話概括就是:

有95%的樣本均值會落在2個(比較精確的值是1。96)標準誤差範圍內。

用數學公式描述就是:

6。計算置信區間的套路

從上面的例子來看,計算置信區間的套路如下:

1。首先明確要求解的問題。比如我們的例子,就是想透過樣本來估計全國人民身高的平均值。

2。求抽樣樣本的平均值與標準誤差(standard error)。注意標準誤差與標準差(standard deviation)不一樣。

3。確定需要的置信水平。比如常用的95%的置信水平,這樣可以保證樣本的均值會落在總體平均值2個標準差得範圍內。

4。查z表,求z值。

5。計算置信區間

a = 樣本均值 - z*標準誤差

b = 樣本均值 + z*標準誤差

用公式表示置信區間:

其中,x 表示樣本的均值,z值表示有多少標準差,s為樣本的方差。

下載1:OpenCV-Contrib擴充套件模組中文版教程

下載2:Python+OpenCV視覺實戰專案52講

下載3:Pytorch常用函式手冊

交流群

TAG: 置信區間樣本標準誤差標準差置信水平