建立批判性思維
知道自己之前的判斷和行為錯了,立即歸零,直接從新開始就可以了,毫無意義的關聯,只會浪費時間,還贏不了現在。
悔恨自己的人生和固執於錯誤的假設都是沒有意義的。
Ps:零假設總是表述為研究沒有改變,沒有效果,不起作用等,這裡就是不滿足標準。
①單樣本檢驗:檢驗單個樣本的平均值是否等於目標值。例如:某大學的學生平均身高是否大於全國平均身高167cm
②相關配對檢驗:檢驗相關或配對觀測之差的平均值是否等於目標值。例如:為了檢測減肥藥是否起作用,隨機抽樣出20名測試對象,記錄每個人服藥前和服藥後的體重。(同一組樣本。問題:有殘留效應)
③獨立雙樣本檢驗:檢驗兩個獨立樣本的平均值之差是否等於目標值。檢驗闖關遊戲教學方法是否有效,分別在兩組學生上進行效果測試。
背景: 某引擎公司,依據新排放標準,對以下10臺進行了檢測。公司引擎排放是否滿足新標準。
新排放標準:平均值<20ppm
10臺引擎排放水平:
15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9
第一步:給出描述統計值:平均值,標準差等(導入分析報,數據存到pd的一維數組中,計算值)
第二步:查看數據集的分佈
Ps1柱狀圖和直方圖的差別
柱狀圖:分類數據的離散數據
直方圖:頻率
Ps 2單尾檢驗和雙尾檢驗
單尾檢驗:備選假設包含小於號,左尾檢驗;備選假設包含大於好,右尾檢驗
雙尾檢驗:備選假設包含不等號
假設檢驗的類型:單樣本t檢驗的單尾檢驗中的左尾檢驗。
p值是在假設零假設成立前提下,得到樣本平均值的概率是多少
計算p值的工具(長按此處打開鏈接):https://www.graphpad.com/quickcalcs
Α=5%
獨立樣本t(9)=-3.00 , p=.0074 (α=5%),單尾檢驗(左尾)
1)置信水平對應的t值(t_ci)
查t表格可以得到,95%的置信水平,自由度是n-1對應的t值
2)計算上下限
置信區間上限a=樣本平均值 - t_ci ×標準誤差
置信區間下限b=樣本平均值 - t_ci ×標準誤差
置信區間APA格式:置信區間類型,置信水平CI=(a,b)
效應量是指處理效應的大小,例如藥物A比藥物B效果顯著。度量效應量有很多種,但大多數都屬於兩大主要類別。
Cohens d = (樣本平均值1-樣本平均值2) / 標準差
Cohens d 除以的是標準差,也就是以標準差為單位,樣本平均值和總體平均值之間相差多少。
2)第二種叫做相關度度量
例如R平方,表示某個變數的變化比例與另一變數的關係。可以用t檢驗的信息推出R平方的公式,這裡的t值從t檢驗中獲得的值,df是自由度。
r2=t2 / (t2+df),其中r2是指r的平方,t2是t的平方
如果r平方等於20%,表示我們可以說通過知道另一個變數能夠接受相關變數20%的變化情況
為什麼要給出效應量?
在判斷某個調查研究的結果,是否有意義或者重要時,要考慮的另一項指標是效應量。效應量太小,意味著處理即使達到了顯著水平,也缺乏實用價值。
所以,在假設檢驗中,我們給出了是否具有統計顯著性,也要給出效應量,一起來判斷研究結果是否有意義。
效應量報告格式:d=x.xx ,R2=.xx
1、描述統計分析
樣本平均值17.17ppm,樣本標準差2.98ppm
2、推論統計分析
1)假設檢驗
獨立樣本t(9)=-3.00,p=.0074(α=5%),單尾檢驗(左尾)
公司引擎排放滿足標準
2)置信區間
平均值的置信區間,95% CI=(17.11,17.23)
3)效應量
d=-0.94
斯特魯普效應是當有與原有認知不同的情況出現時,人們的反應時間會較長。我們想要驗證斯特魯普效應。
(1)導入數據集
自變數是實驗數據的顏色和文字是否相同
因變數:實驗者的反應時間
所以,我們要考察的是自變數(字體內容和顏色是否相同)兩種情況下對因變數(反應時間)的影響。
假設第一組「一致」的均值為 u1 ,第二組「不一致」的均值為 u2
零假設H0:人們的反應時間不會因為字體內容和字體顏色是否相同(u1 = u2 )
備選假設H1:特魯普效應確實存在。( u1 < u2 )
檢驗類型:相關配對檢驗
抽樣分佈類型:查看差值數據集的分佈圖來確定分佈類型。——符合t分佈
檢驗方向:單尾檢驗——左尾檢驗,顯著水平為5%,t檢驗的自由度df=23
Ps:查看數據集分佈官網教程地址:
https://seaborn.pydata.org/tutorial/distributions.html
在零假設成立前提下,計算樣本平均值的概率p
alpha=0.05
自由度是n-1(23)對應的t值:為0.0634
第一組樣本數據:字體內容和字體顏色一致情況下,平均反應時間是: 13.89 秒,標準差是 3.47 秒
第二組樣本數據:字體內容和字體顏色不一致情況下,平均反應時間是: 22.62 秒,標準差是 5.09 秒
「不一致」情況下所用時間均大於「一致」情況,也就是當字體內容和字體驗證不一致時,實驗者的平均反應時間變長
相關配對檢驗t(24)=-8.35,p=7.32e-09 (α=5%),左尾檢驗
統計上存在顯著差異,拒絕零假設,從而驗證斯特魯普效應存在。
兩個平均值差值的置信區間,95%置信水平 CI=[-8.80,-8.67]
d= - 1.67
想在正式發布產品之前知道,哪個鍵盤佈局對用戶體驗更好?
如果一個鍵盤佈局對用戶打字時拼錯產生的影響較小,那麼這個佈局是符合用戶體驗習慣的。所以我們將目標定為用戶打字時拼錯字產生的影響。
要研究的問題是:哪個鍵盤佈局對用戶體驗更好呢?
零假設:A版本和B版本沒有差別,也就是A版本平均值=B版本平均值。
備選假設:A版本和B版本有差別,也就是A版本平均值 ≠B版本平均值。
檢驗類型:雙獨立樣本檢驗。
抽樣分佈類型:查看數據集的分佈圖來確定分佈類型,可以看出AB版數據集的分佈均近似於正態分佈,因此為t分佈
檢驗類型:雙尾檢驗
A版本打錯字數量 平均是5.08個,標準差是2.06個
B版本打錯字數量 平均是7.8個,標準差是2.65個
2、推論統計分析 1)假設檢驗 獨立雙樣本t(45)=-4.05 , p=.00019 (α=5%) , 雙尾檢驗
拒絕零假設,統計顯著。
2)置信區間 兩個平均值差值的置信區間, 95%置信水平 CI=[-2.76,-2.68]
3)效應量 d= - 1.32,效果顯著