計量經濟學｜虛擬變數

說實話計量的基礎知識也就那麼多了，在這些知識上，我們來看看一些具體的應用吧。

首先是二元變數，也經常被稱作虛擬變數或者啞變數 (Dummy Variable)。它的特點為只能取 0 1 兩個值作為變數值。這也就是說我們可以很方便的用它來進行分組。

最常用的例子就是男性和女性了啦，比如在問卷調查的過程中，我們設定一個 dummy variable female, $female = egin{cases} 0,& ext{if male}\ 1, & ext{if female}end{cases}$ 就可以比較兩性之間有沒有顯著差異了，例如，在常規的研究工作經驗對工資的影響時，我們通常可能會用如下回歸模型但加入這個 dummy variable 後, 就可以研究性別是否會影響基礎平均工資啦。的數值代表女性比男性平均工資高出來的部分。# 此處涉及常數項的意義，不記得的回去複習。

以上操作也僅僅是比較了截距上的組間差異，我們仍然假設不同組別間的斜率是一樣的。但通過變數間的交互，可以一同研究斜率的上存在的不同之處，比如就考慮到了二者的截距差異。與之前相同，值代表了基組對應的係數值而值對應了對應組別與基組之間的差值。

這麼做計量意義上沒啥大問題，但可能有點點輿論上的問題，你至少給人留個選擇 "others" 而不是只能在 male 與 female 中二選一嘛，瞧瞧某知名不存在網站Facebook 這事就幹得挺好。 # 大霧

同樣，涉及民族、國別之類 demographic 信息時，也同樣可能分了不止兩組，比如教育層次就能分為"小學""初中""高中""大專院校"四種，理論上四個類別只需要兩個虛擬變數就好，正好四個情況，但一般不這麼用，畢竟有大招： "情況數-1"。反正一個基態，剩餘表示為該組與基態的差別就好。

當然大招只在常見的有常數項模型中才能看得見，如果模型本身不設常數項則還得直接使用情況數。# 如果是使用stata的話，兩種方法結果略有差異。具體細節此處不詳述。

而交聯項大法則常見於不同組別之間，比如要比較黑人女性與白人男性差異，通常使用性別與種族兩個虛擬變數的交聯以得到。

光算出數值，整個計量步驟才走完第一小步，接下來更重要的是確定這個差別到底是不是顯著的。換言之我們需要對值的顯著性進行檢驗。很明顯，回到之前講解假設檢驗的內容，需要進行以下步驟

1. 確定零假設
2. 構造統計量3. 查表找 p-value，與我們需要的臨界值進行比較

4. 確定數據有什麼問題，為什麼又不顯著 # 大霧
5. 回到步驟 1

而在我們此處的問題中，需要的就是確認是否為零。

如果只有一個虛擬變數的話那很簡單，t-test 或者 F-test 都能滿足需求。但有多個虛擬變數或者有多個虛擬變數交互項的情況下啊，就只能用 F-test 了，兩次回歸，或者用起來，沒啥大問題。反正考慮到 F-value 恆正而擬合優度隨變數數增加是不減的，也不信真有人能記錯 F-value 的構造方式。

然而說到虛擬變數怎麼可以不提鄒至庄的鄒檢驗(Chow Test)，相比之前的步驟，鄒檢驗比較麻煩的一點是要進行三次回歸，首先對原模型進行回歸在此基礎上得到全樣本，同時再對分組後的兩個子樣本分別進行相同步驟，得到與，這樣就可以構造 F-stat， $F-statistic=frac{(SSR-(SSR_1+SSR_2))/k}{(SSR_1+SSR_2)/(n-2k)}sim F(k,n-2k)$ 為全樣本觀測值個數而為參數個數 (本例中為3)。