大數據告訴你中國男女比例並未失調，90後性別比均衡

陳衛翟振武

【內容摘要】當 1990 年代各種人口調查「過低的」生育水平難以置信時 ,其「過高的」出生性別比數據卻被廣泛接受。本文的主要目的是通過對 2000 年人口普查出生數據漏報的性別差異的分析 ,利用教育統計數據 ,重新估計 2000 年及 90 年代的出生性別比。結果表明我國實際的出生性別比並不像2000年普查數據反映的那樣嚴重偏高。我國實際的出生性別比和低年齡組性別比要比普查反映的水平低 5～9 個百分點。1990 年代在我國出生性別比偏高的部分中 ,女嬰漏報的作用高達 50 %以上。本文還根據 2000 年普查千分之一抽樣數據 ,考察了出生性別比的社會經濟差異。

【作者簡介】陳衛、翟振武 ,中國人民大學人口與發展研究中心教授。北京 :100872

伴隨著 1990 年代中國生育率的持續下降 ,出生性別比的偏高趨勢日益嚴重。當 1990 年代的人口普查和生育率調查得到的生育率「過低」而難以置信 ,並且學者們使用各種方法和模型來估計真實的生育水平時 ,同樣是這些調查得到的出生性別比水平卻得到了廣泛接受。比如 2000 年人口普查得到的總和生育率為 1. 22 ,而學者們的各種估計大致為 1. 6～1. 8 (於學軍 ,2002) 。但是 2000 年人口普查的出生性別比 116. 9 (國家統計局 ,2005) ,人們對此沒有過多懷疑。人口普查中出生人口的漏報導致了過低的生育率 ,而出生人口漏報存在顯著的性別差異 ,因此出生人口漏報對出生性別比的影響也是顯而易見的。本文的目的是進一步考察 1990 年代中國的出生性別比 ,通過教育統計數據來估計1990 年代出生人口漏報及其性別差異 ,從而推算 1990 年代的出生性別比。本文還將利用 2000 年人口普查原始數據分析出生性別比的影響因素。

文獻回顧

20 世紀 80 年代以來 ,中國的人口出生性別比出現了迅速而持續的升高、偏高趨勢 ;到 2000 年 ,中國各省的出生性別比除西藏和新疆外都顯著高出正常範圍 (國家統計局 ,2005) 。出生性別比的升高可以被看作是中國人口年齡性別結構轉變的重要特徵之一 ,它引起了中國學者、公眾、政府和國際社會的廣泛關注。大量的研究文獻對中國出生性別比持續升高現象 ,進行了實證分析和理論解釋( Hull ,1990 ;Jo hansso n and Nygren ,1991 ; Hull and Wen ,1992 ;曾毅等 ,1993 ;高凌 ,1993 ;塗平 ,1993 ;徐毅、郭維明 ,1995 ;賈威、彭希哲 ,1995 ;顧寶昌、羅伊 ,1996 ;劉爽 ,2005) ,主要圍繞中國出生性別比失常的表現、原因及後果(張翼 ,1997 ;劉爽 ,2006《; 人口研究》編輯部 ,2003 和 2006 ;蔡菲 ,2007 ;郭志剛 ,2007) 。

概括起來 ,對中國出生性別比偏高的直接原因的解釋包括三個方面 :女嬰漏報、性別選擇性流產和溺棄女嬰( Hull ,1990 ; Zeng Yi et al. ,1993 ;馬瀛通 ,1994 ;劉爽 ,2005) 。Coale and Banister (1994)

通過對 1990 年之前的人口普查和生育率調查數據的考察 ,認為這些調查的數據質量都非常高 ,出生性別比升高的主要原因是溺棄女嬰和性別選擇性流產。Hull (1990) 考察了 1982 年人口普查和1987年1 %人口抽樣調查中的出生性別比 ,提出了出生性別比升高的這三種解釋 ,並討論了它們各自的可能性。曾毅等的研究(1993) 對這三種原因進行了更為詳細的考察 ,認為 1980 年代後期中國出生性別比的上升幾乎全部可以由女嬰漏報和性別選擇性流產解釋,溺棄女嬰的影響幾乎不存在。他們通過逆向存活法估計了1990年人口普查中的出生漏報 ,女嬰漏報高達5. 94 % ,而男嬰漏報只有 2. 26 %。用這些漏報率對出生性別比進行調整 ,那麼 1989 年全年和 1990 年上半年合計的出生性別比將由 115. 4 下降到111. 4 ,降低了 4 個百分點 ,占偏高部分的 51.3 %。這是他們使用 1990 年人口普查 10 %抽樣數據的結果。如果用 1 %的抽樣數據 ,那麼女嬰漏報將解釋出生性別比偏高部分的 42. 6 %。如果用 1988年2 ‰生育節育抽樣調查數據 ,那麼女嬰漏報所解釋的比例將更高。

這些研究的共同特點是使用人口系統內的數據(國家統計局的人口普查和抽樣調查以及國家計生委的生育率調查數據) ,通過前後調查數據的一致性檢驗或各種分析技術來校正出生數據 ,從而估計各種原因的重要性。本文將利用另一個獨立存在的數據體系 ———教育統計數據 ,檢驗和估計 2000 年人口普查中低年齡組人口的漏報及其性別差異，推算 1990年代歷年出生人口及其性別構成 ,從而估計 1990 年代中國的出生性別比。

2 1990年代出生性別比估計

在先前發表的研究中 ,我們已經對教育統計數據質量的評估、用教育統計數據對人口普查數據的調整、出生人口及其性別分布的估計等都作了詳細的描述和分析(翟振武、陳衛 ,2007) ,本文就不再進一步說明。由於在利用教育統計數據對普查數據進行調整和生育水平估計時 ,我們得到了 1990 年代歷年的出生人口及其性別構成 ,因此也就得到了出生性別比。

在展示我們估計的出生性別比之前 ,我們利用教育統計數據先對普查低年齡人口性別比進行檢驗。

圖 1 顯示了 2000 年普查時 6～10 歲各年齡的性別比和他們在教育統計中記錄的性別比。假定 6～10 歲未上學兒童中 ,女童多於男童 (這一假定是合理的) ,那麼 6～10 歲在校生性別比應高於普查的性別比。但是如圖 1 所示 ,教育統計數據中 6～10 歲人口性別比不僅不高於普查的性別比 ,反而低了很多 ,這就證明了普查的低年齡人口性別比是不正確的。

那麼 ,通過教育統計數據反映和調整的低年齡人口性別比與普查有多大差異 ? 由於教育統計的小學生在校人數與人口普查在統計時點上是不同的，教育統計時點是每年的9月1日，而2000 年人口普查時點是11月1日 ,因此 ,為了這二套數據在年齡上進行匹配 ,我們將 2000 年普查數據的時點調整到 9 月 1 日 ,同時利用生命表存活率將各年教育統計數據中 9 歲或 10 歲在校人口數匹配到2000 年普查時的同隊列年齡。之所以使用教育統計數據中 9 歲或 10 歲在校人口數 ,是因為教育統計的小學在校生人數數據在9歲或10歲達到該隊列的最高紀錄 (圖 2) ,之前和之後年齡的人數或因尚未入學或因已經升學等原因而不能充分反映小學就讀人數。

表 1 對比了通過教育統計數據調整的和普查得到的2000年 0～9 歲人口的性別比。由於

我們當時得到的最近的 2003 年教育統計數據中9歲對應於2000年普查6歲 ,因此6歲以下(0～

5 歲) 數據就需要外推。我們分別用非線性和線性回歸擬合進行外推。進行非線性回歸時使用 6～22 歲數據 ,計算教育數據與普查數據的比值 ,然後對這些分年齡的比值進行非線性回歸擬合進而外推 ;而進行線性回歸時只使用 10 歲以下的數據 ,即計算 6～9 歲四個年齡組教育數據與普查數據的比值 ,然後對這些分年齡的比值進行線性回歸擬合進而外推 ( 翟振武、陳衛 ,2007) 。圖3顯示了通過教育統計數據匹配的和普查得到的 2000 年 0～9 歲分性別人口 ,根據這些數據計算得到了如表 1 所示的 2000 年 0～9 歲分年齡性別比。很明顯 ,年齡越小 ,兩者的差異越大。普查的 0～2 歲人口性別比要比教育數據的性別比高出7～8個百分點。

由教育統計數據調整得到的 0～9 歲人口 ,利用生命表存活率 ,我們可以將他們倒推至他們出生時的人數。按非線性回歸擬合外推而估計的是高方案出生人數 ,按線性回歸擬合外推估計的是低方案出生人數 ,而中方案則是高方案與低方案的平均數。同時 ,在估計出生人數時 ,分別按照 95 %～97 %的小學入學率進行了調整。由於幾個不同的入學率和不同方案組合的結果過於繁雜 ,需要明確選擇一套數據作為最佳的方案 ,因此 ,我們選擇了留有餘地的按照匹配的0～9 歲分性別人口入學率95%調整的數據。由於線性回歸外推的低方案存在著一定的風險 ,因此我們使用高方案和中方案的結果。表 2 顯示了高方案和中方案下1990年代歷年的分性別出生人數和出生性別比。

從表2中看出 ,我國出生性別比偏高是確定的事實。但是 ,是否達到了 2000 年普查所反映的如此之高的水平呢 ? 通過教育數據調整的普查低年齡組的性別比看出 ,我國實際的低年齡組性別比要比普查反映的水平低5～9個百分點。2000年普查的出生性別比高達117 ,而表2中2000 年的出生性別比為 110 左右，實際的出生性別比顯然要低得多。據此粗略估算 ,我國出生性別比偏高的部分中 ,有至少高達 50 %是女嬰漏報所致。1995 年 1 %人口抽樣調查的出生性別比為 115. 6 ,對比表 2 中1995 年出生性別比 ,可以計算出其偏高部分中有 52 %～63 %來自女嬰漏報 ;而 2000 年人口普查出生性別比(116. 9) 偏高部分中女嬰漏報所佔比例高達 68 %～73 %。

3 出生性別比的社會經濟差異

儘管 2000 年人口普查的出生性別比強烈受到出生漏報的性別差異的影響 ,分析出生性別比偏高的社會經濟差異 ,將有助於認識出生性別比偏高的特徵和影響因素。以往的研究已經得出了許多一致的、重要的結論 ,比如出生性別比偏高發生在二孩及以上出生人口和只有女孩的婦女、農村出生性別比偏高程度比城鎮更為嚴重、出生性別比與受教育程度呈倒 U 型關係等(塗平 ,1993 ;高凌 ,1995 ;張二力 ,2005 ;原新、石海龍 ,2005 ;楊菊華 ,2006) 。2000 年人口普查數據也顯示了類似的模式。

由於國家統計局出版的 2000 年人口普查數據匯總表中沒有出生性別比的社會經濟特徵數據 ,我們將根據 2000 年普查千分之一抽樣數據 ,根據婦女的人口學和社會經濟特徵 ,來考察中國出生性別比的模式和差異。從該樣本婦女的出生性別比特徵看 (表 3 中「雙變數」這一列) ,嚴重偏高的出生性別比(120 以上) 發生在年齡超過 30 歲、住在鎮、漢族、小學文化、從事服務業或農業這些類別的婦女中。中國的中南地區和東部地區比其他地區的出生性別比高出很多。孩子的人口學特徵對於出生性別比的影響最大。出生性別比偏高最嚴重的情況發生在二孩及以上或者前有孩子全是或多是女孩的婦女。最高階層的社會經濟群體 ,包括居住在城市、接受過高等教育、是幹部和技術人員的婦女 ,其出生性別比也偏高。正常的出生性別比僅僅發生在有限的一些群體中 ,包括沒有接受過任何教育、居住在西部地區、生育第一孩子 ,以及已生育過的孩子都是男孩但仍然繼續生育的婦女。

由於觀察到的雙變數關係可能會受到其他因素的影響 ,因此我們通過多變數分析在控制其他的

變數的情況下來檢驗在多大程度上上述所觀察到的模式仍然成立。表 3 展示了通過 logistic 回歸調整的出生性別比(模型 1 - 3 中的出生性別比) 。需要注意的是 ,出生性別比的測量和解釋應該謹慎 ,因為出生性別比的大小對抽樣方法和樣本規模較為敏感。納入分析的婦女樣本中僅有 11752 個新生兒 ,可能僅僅因為隨機波動或抽樣誤差就會導致出生性別比的較大差異。為了能夠在統計上顯著區分出生性別比 105 和 110 (5 %的顯著水平) ,樣本規模必須至少達到 14000 個新生兒。儘管樣本婦女各類的出生性別比的值在統計上不能完全推斷總體 ,但是通過各變數影響的模式與方向體現的出生性別比差異是有重要意義的。

從 Logistic 回歸模型的結果中可以看到一些在以往研究中沒有充分注意到的有趣而重要的結

論。在年齡、居住地和受教育水平方面 ,它們對出生性別比的影響的方向與雙變數分析的結果幾乎完全不同。在其他的社會經濟和人口學變數控制後 ,年齡與出生性別比呈負相關 ,即婦女年齡越輕 ,出生性別比越高 ;城市的出生性別比比農村高出許多 ;教育水平與出生性別比是正相關的 ,即婦女受教育水平越高 ,出生性別比越高 ,而且受教育水平的這種正相關具有統計的顯著性。由於年輕的、城市的以及較高受教育水平的婦女群體更可能有較低的生育意願和生育率 ,同時她們也更可能獲得先進的醫療設施和性別選擇的技術 ,因此 ,與其他特徵的婦女相比 ,性別選擇性流產更可能是她們產生異常高的出生性別比的原因。印度 ( Ret herford and Roy 2003) 和越南 (Belanger et al. 2003) 也有類似情況 :較高社會經濟的階層有著較高的出生性別比。

4 結論

在人們不能接受 2000 年人口普查得到的「過低的」生育水平時 ,其「過高的」出生性別比數據卻被廣泛接受。本文的主要目的是通過對普查的出生數據漏報的性別差異的分析 ,利用教育統計數據 ,重新估計 2000 年及 1990 年代的出生性別比。同時 ,根據 2000 年普查千分之一抽樣數據 ,考察了出生性別比的社會經濟差異。

根據調整的低年齡組分性別人口和分性別出生人口計算 ,我國實際的出生性別比並不像 2000 年普查數據反映的那樣嚴重偏高。我國實際的出生性別比至少要比 2000 年普查的出生性別比低 7 個百分點。其他低年齡組性別比要比普查反映的水平低 5～9 個百分點。在我國出生性別比偏高的部分中 ,女嬰漏報的作用至少高達 50 %;其餘的 50 %才是性別選擇性流產的作用。2000 年普查的出生性別比偏高部分中更有 70 %左右是女嬰漏報所導致的。這一事實對於恰當、正確地認識我國出生性別比問題及其後果 ,以及出生性別比與計劃生育的關係 ,具有十分重要的意義。