方差分析原理

對總體均值的假設檢驗,有三種情況:

1、總體均值與某個常數進行比較;2、兩個總體均值之間的比較;3、兩個以上總體均值之間的比較;

對於前兩種情況,用Z分布和T分布就能快速得到假設檢驗結果。如果比較的總體大於三個,繼續用它們也能夠得到比較結果,只是需要兩兩比較,耗時耗力。這種情況下,使用方差分析能夠一次性比較兩個及兩個以上的總體均值,看看它們之間是否有顯著性差異。常用的方差分析方法包括:單因素方差分析、多因素方差分析、協方差分析、多元方差分析、重複測量方差分析、方差成分分析等。

方差分析原理方差分析的原理通俗的解釋就是將試驗數據的總離散分解為來源於不同因素的離散,並作出數據估計,從而發現各個因素在總離散中所佔的重要程度。方差分析原理的推導過程可以回顧:方差分析:單因素方差分析,在這篇文章中以單因素方差分析為例,完整介紹了方差分析的公式推導過程,今天主要介紹方差分析的幾個比較難以理解的地方。名詞解釋因素:方差分析的研究變數;例如,研究裁判打分的差異,裁判就被稱為因素;水平:因素中的內容稱為水平;例如,總共有3個裁判打分,則裁判因素的水平就是3;觀測因素:又稱觀測變數,指對影響總體的因素;控制因素:又稱控制變數,指影響觀測變數的因素;假設檢驗原理以單因素方差分析為例,介紹方差分析原理,下圖是單因素方差分析表格。

表格中有k個水平,表示單個因素(變數)有k種情況,將數據分成為k組,每行為一組。根據這個表格,可以計算得到三個方差:總方差,組間方差和組內方差,總方差等於組間方差加上組內方差。組內方差代表的是偶然因素造成的數據差異;組間方差代表的是因素的不同水平造成的數據差異。如果單個因素的不同水平對於數據總體沒有影響,那麼組間方差與組內方差沒有顯著性差異;如果單個因素的不同水平對於數據總體有影響,組間方差和組內方差就會有顯著性的差異。用組間方差除以組內方差,得到F值,F值的分布服從F分布,所以F值在F分布上有對應的顯著概率p值。當p值大於假設檢驗的顯著性水平時,說明組間方差和組內方差沒有顯著性差異,也就是說因素的不同水平對於數據總體沒有影響;反之,當p值小於假設檢驗的顯著性水平,說明因素的不同水平對於數據總體有影響。假定條件1、多個樣本來自的多個總體是正態分布的。方差分析運用的是F分布,只有服從正態分布的總體才適用F分布進行假設檢驗,否則,檢驗結果是沒有意義的。2、單個因素的不同水平分組的方差要求齊性。前面介紹了,方差分析假設的是單個因素的不同分組數據之間沒有區別,換一種說法就是單個因素的不同分組對於數據總體沒有影響,也就是說不同分組的數據都來自同一個數據總體,方差相同。基於以上兩個假設,方差分析才能將方差的差異性推斷轉換成對兩個以上總體均值的差異性推斷。事後多重比較經過方差分析以後,如果檢驗結果顯示多個水平之間存在顯著性差異,那麼還需要進行事後多重比較。因為方差分析結果的顯著只能說明兩個以上總體的均值之間存在顯著性,但是不能分析出具體是那幾個總體的均值不相等,所以還需要進行兩兩總體均值的比較。

方差分析步驟

1、方差齊性減壓;2、計算各項平方和與自由度;3、列出方差分析表,進行F檢驗,並依據F值對應的p值做出判斷;4、事後多重比較;

方差分析模型

方差分析的基本思路是將數據波動(變異)分解為若干部分,除了有一部分代表隨機誤差,其餘每個部分的變異分別代表了某個影響因素的作用(包括交互作用形成的因素)。通過比較因素所致的變異與隨機誤差的大小,藉助F分布和F統計量做出推斷:該因素對因變數的影響是否顯著存在。F統計量=組間方差/組內方差。

以上是方差分析的基礎,下面我們用函數模型對上面的的思路進行解釋,你會發現是另一番景象。為了更好理解,我們引入一個例子進行說明:假設現在要比較三種職業的月收入有無差異,這三種職業分別是醫生、律師和軟體工程師。在這三類人群中進行隨機抽樣,各自得到一組受訪者,採集他們的月收入數據,然後進行檢驗。每位受訪者的收入數據可以表示為:

需要注意,隨機誤差通常服從均值為0的正態分布,這是很多數據分析過程的基礎。為了對三種職業的收入是否相等做出判斷,上式有被改寫成下面的形式:

這樣就將方差分析思路用函數模型的形式表示出來了,我們稱之為方差分析模型。現在定義醫生為第一種職業,且a1=2000,表示醫生這個職業對平均月收入有影響,使平均月收入提高了2000元。如果三種職業的平均月收入不相等,那麼三種職業對總平均月收入的影響是不相等的,有a1不等於a2不等於a3;反之,則三種職業對總平均月收入的影響完全相等。判定的量化依據就是三種職業的影響力差距ai與隨機誤差的比值。拓展單因素方差分析模型,多因素方差模型可以表示為:

上面的式子表示無交互作用的多因素方差分析模型,下面的則代表有交互作用的多因素方差分析模型(交互因素沒有寫全)。以上內容就是方差分析模型的建立思路。將方差分析用模型的形式理解以後,我們就可以使用回歸分析的方法對模型進行解釋,得到包含更多信息含量的結果。方差分析模型的解析過程將在後面逐步介紹,這些都有助於你理解和使用SPSS進行更為高級的分差分析。方差分析模型常用術語因素與水平因素也被稱為因子,就是指可能對因變數有影響的分類變數,而分類變數的不同類別就被稱為水平。顯然,一個進入分析的因素會有不止一個水平,例如,性別有男、女兩個水平,而分析目的就是考察或比較各個水平對因變數的影響是否相同。在方差分析中,因素的取值範圍不能無限,只能有若干個水平,但需要注意的是有時候水平是人為劃分出來的,比如身高被分為高、中、低三個水平。水平組合指各因素各個水平的組合,例如,在研究性別(二個水平)和血型(四個水平)對成年人身高的影響時,最多可以有2*4=8個水平組合。協變數協變數指對因變數可能有影響,需要在分析時對其作用加以控制的連續型變數。因素和協變數分別為分類變數和連續型自變數。當模型中存在協變數時,一般是通過找出它與因變數的回歸關係來控制其影響。交互作用如果一個因素的效應大小在另一個因素不同水平下明顯不同,則稱兩個因素間存在交互作用。當存在交互作用時,單純研究某個因素的作用是沒有意義的,必須區分另一個因素的不同水平研究該因素的作用大小。如果所有單元格內都至多只有一個元素,則交互作用無法進行分析,只能不予考慮。固定因素與隨機因素固定因素指的是該因素在樣本中所有可能的水平都出現了。換言之,該因素的所有可能水平僅此幾種,針對該因素而言,從樣本的分析結果中就可以得知所有水平的狀況,無需進行外推。比如要研究三種促銷手段的效果有無差別,所有樣本只會是三種促銷方式之一,不存在第4種促銷手段的問題,則此時該因素就被認為是固定因素。隨機因素指的是該因素所有可能的取值在樣本中沒有全部出現。換言之,目前在樣本中的這些水平是從總體中隨機抽樣而來,如果重複本研究,則可能得到的因素水平會和現在完全不同,這時,研究者顯然希望得到的是一個能夠「泛化」,即對所有可能出現的水平均適用的結果。例如研究廣告類型和投放的城市對產品銷量是否有影響,在設計中隨機抽取了20個城市進行研究,顯然,研究者希望分析結果能夠外推到全國的所有大、中型城市,此時就涉及將結果外推到抽樣未包括的城市中的問題,在這種情況下,城市就應當是一個隨機因素。
推薦閱讀:
相关文章