計量經濟學|虛擬變數
說實話計量的基礎知識也就那麼多了,在這些知識上,我們來看看一些具體的應用吧。
首先是二元變數,也經常被稱作虛擬變數或者啞變數 (Dummy Variable)。它的特點為只能取 0 1 兩個值作為變數值。這也就是說我們可以很方便的用它來進行分組。
最常用的例子就是男性和女性了啦,比如在問卷調查的過程中,我們設定一個 dummy variable female, 就可以比較兩性之間有沒有顯著差異了,例如,在常規的研究工作經驗對工資的影響時,我們通常可能會用如下回歸模型 但加入這個 dummy variable 後, 就可以研究性別是否會影響基礎平均工資啦。 的數值代表女性比男性平均工資高出來的部分。# 此處涉及常數項的意義,不記得的回去複習。
以上操作也僅僅是比較了截距上的組間差異,我們仍然假設不同組別間的斜率是一樣的。但通過變數間的交互,可以一同研究斜率的上存在的不同之處,比如 就考慮到了二者的截距差異。與之前相同, 值代表了基組對應的係數值而 值對應了對應組別與基組之間的差值。
這麼做計量意義上沒啥大問題,但可能有點點輿論上的問題,你至少給人留個選擇 "others" 而不是只能在 male 與 female 中二選一嘛,瞧瞧某知名不存在網站Facebook 這事就幹得挺好。 # 大霧
同樣,涉及民族、國別之類 demographic 信息時,也同樣可能分了不止兩組,比如教育層次就能分為"小學""初中""高中""大專院校"四種,理論上四個類別只需要兩個虛擬變數就好, 正好四個情況,但一般不這麼用,畢竟有大招: "情況數-1"。反正一個基態,剩餘表示為該組與基態的差別就好。
當然大招只在常見的有常數項模型中才能看得見,如果模型本身不設常數項則還得直接使用情況數。# 如果是使用stata的話,兩種方法結果略有差異。具體細節此處不詳述。
而交聯項大法則常見於不同組別之間,比如要比較黑人女性與白人男性差異,通常使用性別與種族兩個虛擬變數的交聯以得到。
光算出數值,整個計量步驟才走完第一小步,接下來更重要的是確定這個差別到底是不是顯著的。換言之我們需要對 值的顯著性進行檢驗。很明顯,回到之前講解假設檢驗的內容,需要進行以下步驟
1. 確定零假設
2. 構造統計量3. 查表找 p-value,與我們需要的臨界值進行比較4. 確定數據有什麼問題,為什麼又不顯著 # 大霧
5. 回到步驟 1
而在我們此處的問題中,需要的就是確認 是否為零。
如果只有一個虛擬變數的話那很簡單,t-test 或者 F-test 都能滿足需求。但有多個虛擬變數或者有多個虛擬變數交互項的情況下啊,就只能用 F-test 了,兩次回歸, 或者 用起來,沒啥大問題。反正考慮到 F-value 恆正而擬合優度隨變數數增加是不減的,也不信真有人能記錯 F-value 的構造方式。
然而說到虛擬變數怎麼可以不提鄒至庄的鄒檢驗(Chow Test),相比之前的步驟,鄒檢驗比較麻煩的一點是要進行三次回歸,首先對原模型進行回歸 在此基礎上得到全樣本 ,同時再對分組後的兩個子樣本分別進行相同步驟,得到 與 ,這樣就可以構造 F-stat, 為全樣本觀測值個數而 為參數個數 (本例中為3)。
不過這樣有個隱藏的bug,如果分組後某一個組的樣本個數少於參數個數 (應該沒誰會讓這事發生吧) F值的自由度會發生變化,猜猜會變成啥(●?●)。
虛擬變數的介紹就差不多啦,下次回來介紹工具變數~~
參考文獻
- Wooldridge J. Introductory Econometrics: A Modern Approach.(5th ed.) Cengage Learning
最後的最後,發現任何不足歡迎拍磚,我將用它慢慢蓋起知識殿堂
推薦閱讀: