建立批判性思維

假設檢驗流程

知道自己之前的判斷和行為錯了,立即歸零,直接從新開始就可以了,毫無意義的關聯,只會浪費時間,還贏不了現在。

悔恨自己的人生和固執於錯誤的假設都是沒有意義的。

  1. 流程:問題是什麼,證據是什麼,判斷標準是什麼,做出結論。

Ps:零假設總是表述為研究沒有改變,沒有效果,不起作用等,這裡就是不滿足標準。

假設檢驗的類型

①單樣本檢驗:檢驗單個樣本的平均值是否等於目標值。例如:某大學的學生平均身高是否大於全國平均身高167cm

②相關配對檢驗:檢驗相關或配對觀測之差的平均值是否等於目標值。例如:為了檢測減肥藥是否起作用,隨機抽樣出20名測試對象,記錄每個人服藥前和服藥後的體重。(同一組樣本。問題:有殘留效應)

③獨立雙樣本檢驗:檢驗兩個獨立樣本的平均值之差是否等於目標值。檢驗闖關遊戲教學方法是否有效,分別在兩組學生上進行效果測試。

(一)單樣本檢驗

(1)提出問題

背景: 某引擎公司,依據新排放標準,對以下10臺進行了檢測。公司引擎排放是否滿足新標準。

新排放標準:平均值<20ppm

10臺引擎排放水平:

15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9

第一步:給出描述統計值:平均值,標準差等(導入分析報,數據存到pd的一維數組中,計算值)

第二步:查看數據集的分佈

Ps1柱狀圖和直方圖的差別

柱狀圖:分類數據的離散數據

直方圖:頻率

Ps 2單尾檢驗和雙尾檢驗

單尾檢驗:備選假設包含小於號,左尾檢驗;備選假設包含大於好,右尾檢驗

雙尾檢驗:備選假設包含不等號

假設檢驗的類型:單樣本t檢驗的單尾檢驗中的左尾檢驗。

(2)證據

p值是在假設零假設成立前提下,得到樣本平均值的概率是多少

計算p值的工具(長按此處打開鏈接):https://www.graphpad.com/quickcalcs

(3)判斷標準

Α=5%

(4)做出結論

獨立樣本t(9)=-3.00 , p=.0074 (α=5%),單尾檢驗(左尾)

(5)置信區間

1)置信水平對應的t值(t_ci)

查t表格可以得到,95%的置信水平,自由度是n-1對應的t值

2)計算上下限

置信區間上限a=樣本平均值 - t_ci ×標準誤差

置信區間下限b=樣本平均值 - t_ci ×標準誤差

置信區間APA格式:置信區間類型,置信水平CI=(a,b)

(6)效應量

效應量是指處理效應的大小,例如藥物A比藥物B效果顯著。度量效應量有很多種,但大多數都屬於兩大主要類別。

  1. 第一種叫做差異度量
  2. 例如在對比平均值時,衡量效應大小的常見標準之一是Cohens d

Cohens d = (樣本平均值1-樣本平均值2) / 標準差

Cohens d 除以的是標準差,也就是以標準差為單位,樣本平均值和總體平均值之間相差多少。

2)第二種叫做相關度度量

例如R平方,表示某個變數的變化比例與另一變數的關係。可以用t檢驗的信息推出R平方的公式,這裡的t值從t檢驗中獲得的值,df是自由度。

r2=t2 / (t2+df),其中r2是指r的平方,t2是t的平方

如果r平方等於20%,表示我們可以說通過知道另一個變數能夠接受相關變數20%的變化情況

為什麼要給出效應量?

在判斷某個調查研究的結果,是否有意義或者重要時,要考慮的另一項指標是效應量。效應量太小,意味著處理即使達到了顯著水平,也缺乏實用價值。

所以,在假設檢驗中,我們給出了是否具有統計顯著性,也要給出效應量,一起來判斷研究結果是否有意義。

效應量報告格式:d=x.xx ,R2=.xx

(7)推論統計分析報告

1、描述統計分析

樣本平均值17.17ppm,樣本標準差2.98ppm

2、推論統計分析

1)假設檢驗

獨立樣本t(9)=-3.00,p=.0074(α=5%),單尾檢驗(左尾)

公司引擎排放滿足標準

2)置信區間

平均值的置信區間,95% CI=(17.11,17.23)

3)效應量

d=-0.94

(二)相關配對檢驗

斯特魯普效應

斯特魯普效應是當有與原有認知不同的情況出現時,人們的反應時間會較長。我們想要驗證斯特魯普效應。

描述統計分析

(1)導入數據集

  1. 數據對比

(1)提出問題

自變數是實驗數據的顏色和文字是否相同

因變數:實驗者的反應時間

所以,我們要考察的是自變數(字體內容和顏色是否相同)兩種情況下對因變數(反應時間)的影響。

假設第一組「一致」的均值為 u1 ,第二組「不一致」的均值為 u2

零假設H0:人們的反應時間不會因為字體內容和字體顏色是否相同(u1 = u2 )

備選假設H1:特魯普效應確實存在。( u1 < u2 )

檢驗類型:相關配對檢驗

抽樣分佈類型:查看差值數據集的分佈圖來確定分佈類型。——符合t分佈

檢驗方向:單尾檢驗——左尾檢驗,顯著水平為5%,t檢驗的自由度df=23

Ps:查看數據集分佈官網教程地址:

seaborn.pydata.org/tuto

(2)證據

在零假設成立前提下,計算樣本平均值的概率p

(3)判斷標準

alpha=0.05

(4)做出結論

(5)置信區間

自由度是n-1(23)對應的t值:為0.0634

(6)效應量

(7)推論統計分析報告

1、描述統計分析

第一組樣本數據:字體內容和字體顏色一致情況下,平均反應時間是: 13.89 秒,標準差是 3.47 秒

第二組樣本數據:字體內容和字體顏色不一致情況下,平均反應時間是: 22.62 秒,標準差是 5.09 秒

「不一致」情況下所用時間均大於「一致」情況,也就是當字體內容和字體驗證不一致時,實驗者的平均反應時間變長

2、推論統計分析

1)假設檢驗

相關配對檢驗t(24)=-8.35,p=7.32e-09 (α=5%),左尾檢驗

統計上存在顯著差異,拒絕零假設,從而驗證斯特魯普效應存在。

2)置信區間

兩個平均值差值的置信區間,95%置信水平 CI=[-8.80,-8.67]

3)效應量

d= - 1.67

(三)雙獨立樣本檢驗

鍵盤佈局問題

想在正式發布產品之前知道,哪個鍵盤佈局對用戶體驗更好?

如果一個鍵盤佈局對用戶打字時拼錯產生的影響較小,那麼這個佈局是符合用戶體驗習慣的。所以我們將目標定為用戶打字時拼錯字產生的影響。

描述統計分析

(1)提出問題

要研究的問題是:哪個鍵盤佈局對用戶體驗更好呢?

零假設:A版本和B版本沒有差別,也就是A版本平均值=B版本平均值。

備選假設:A版本和B版本有差別,也就是A版本平均值 ≠B版本平均值。

檢驗類型:雙獨立樣本檢驗。

抽樣分佈類型:查看數據集的分佈圖來確定分佈類型,可以看出AB版數據集的分佈均近似於正態分佈,因此為t分佈

檢驗類型:雙尾檢驗

(2)證據

(3)判斷標準

alpha=0.05

(4)做出結論

(5)置信區間

(6)效應量

(7)推論統計分析報告

1、描述統計分析

A版本打錯字數量 平均是5.08個,標準差是2.06個

B版本打錯字數量 平均是7.8個,標準差是2.65個

2、推論統計分析 1)假設檢驗 獨立雙樣本t(45)=-4.05 , p=.00019 (α=5%) , 雙尾檢驗

拒絕零假設,統計顯著。

2)置信區間 兩個平均值差值的置信區間, 95%置信水平 CI=[-2.76,-2.68]

3)效應量 d= - 1.32,效果顯著


推薦閱讀:
相關文章