第870期:教育研究中定量方法的侷限性

(北京語言大學)

按:本文原載於《心理髮展與教育》1998年第1期。這雖是謝小慶老師21年前發表的文章,今天仍然具有現實意義。在這裏推出,是考慮便於感興趣的網友在手機上閱讀。感興趣的網友,還可以繼續閱讀第865《決策:從數學模型到法學模型》。

在教育科學研究中,主要有兩種方法:一是基於經驗和直覺之上的定性方法,一是基於理性和邏輯之上、藉助數學工具而實現的定量方法。隨着計算技術的不斷髮展,定量方法日益得到廣泛的應用。定量方法具有哪些優越性和侷限性呢?對此,筆者試圖進行一些深入的思考。

一、定量方法是定性方法的重要補充

定性方法是一種基於經驗和直覺之上的研究方法。在許多情況下,我們可以根據經驗做出正確的判斷,採取正確的教育措施。根據經驗,教師知道哪些內容學生不易理解,需要反覆講解;知道只有保持教材的適當難度才能吸引學生的注意力;知道對女生要慎用批評,等等。這些基於經驗的判斷往往是正確的。但是,由於不同的研究者各自的經驗、觀點、傾向、偏好不同,有時候對同一問題會得到非常不同的結論。例如,學制是“六三三”好,還是“五四二”好?“集中識字”的教學法好,還是“分散識字”的教學法好?客觀性選擇題能否考察出學生的綜合能力和寫作能力?對於這一系列問題,不同的研究者的看法相去甚遠,甚至截然不同。孰是孰非?僅憑各自的經驗只會爭論不休。爲了支持自己的觀點,雙方都可以舉出大量的個案,然而個案是不足爲據的。幾乎任何一個荒謬的命題都可能爲自己找到個案的支持,如“牛有二個頭”,“人有三條腿”等。即使在專家意見一致的情況下,也可能出現失誤。“地心說”、“燃素說”、“絕對時空觀”等許許多多最終被放棄的科學理論,都曾經得到專家們基本一致的認可。

這些時候,就需要藉助定量方法,需要藉助抽樣調查、假設檢驗這樣一些統計方法來做出判定。在這種情況下,定量分析可以幫助我們從各執一詞的爭論中擺脫出來。例如,通過對題目難度、區分度的統計,可以對試卷的質量作出較客觀的判斷。經常有這樣的情況:統計分析發現,經過專家一致認可的題目區分度很低,甚至出現負區分度。當結果反饋給專家們後重新討論時,專家們可能最後一致地認爲:當初命題時忽略了某些重要的考慮。

對於學制、教材、教法、教育測量中的許多問題,如果我們僅僅停留在根據研究者個人經驗的定性研究,停留在缺乏說服力的個案枚舉,我們的研究就很難深入,我們就會爭論不休。這時,定量分析可以幫助我們從這種各執一詞的爭論中擺脫出來。

二 定量方法可能被誤用

定量分析不僅可以幫助我們防止重大的失誤,而且可以幫助我們在互相對立和競爭的觀點中做出選擇。在這些情況下,定量分析具有重要的意義。然而,定量方法也很可能被不適當地運用,從而得到非常錯誤的結論。例如,通過對某校歷屆外國留學生漢語演講比賽獲獎情況的統計分析發現,在獲獎者中,亞裔學生佔70 %, 歐美裔佔30 % 。據此,研究者認爲,在漢語學習方面,與歐美裔學生相比,亞裔學生整體水平較高。進一步的分析發現,在所有參加比賽的留學生中,亞裔留學生佔90 %,歐美裔留學生僅佔10 %, 亞裔留學生的獲獎比例約爲8%,而歐美裔留學生的獲獎比例約爲30 %。結論完全是相反的。

又如,一項關於教學方法的實驗研究結果是:採用“結構法”進行教學的班級的漢語水平考試平均分爲238. 89 ,採用“功能法”進行教學的班級的漢語水平考試平均分爲242. 13 。據此,研究者認爲,“功能法”優於“結構法”。這一結論也是錯誤的。通過對兩班學生成績的t 檢驗得到的結論是:兩種方法沒有差異。分數差異是由隨機誤差造成的。

這類由於定量方法的不適當運用而得到錯誤結論的例子,在今天的教育研究文獻中時有發現。之所以出現這類誤用,原因就在於未能適當地把握定量方法運用的前提條件,就在於未能將定量分析建立在適當的定性分析的基礎之上。事實上,任何數學工具都只有在一定的前提條件下才能應用。在自己所研究的問題中是否具備了運用某種數學工具進行定量分析的條件?這個問題,只能由研究者根據自己對問題情境的理解而做出定性的回答。例如,最簡單的數學工具——加法就必須在一定的前提條件下才能應用。

當我們運用加法來計算各科成績總分時,就必須滿足下列兩個前提條件: ①表現在不同科目考試中的能力具有代償性,語文方面的不足可以由數學方面的優勢來彌補; ②不同科目的考試分數之間具有等值性,數學的10分恰好可以抵償語文的10 分。只有在這兩個條件成立的情況下,才能運用加法。今天,由於這兩個條件能否成立頗值懷疑,越來越多的人對在考試成績的計算中運用加法計算各科成績總分的作法提出質疑。

最簡單的加法尚不能隨便應用,其它更復雜一些的數學工具的應用往往需要更強、更嚴格的條件。定量分析如果不能基於合理的定性前提之上,就會被誤用或被不合理地予以解釋。

三、概率的邏輯基礎

今天應用於教育科學研究的定量方法中,大部分是基於概率理論之上的,如數理統計。然而,概率理論能否應用於教育科學研究,尚是一個頗值懷疑和非常棘手的問題。何謂概率?通俗講即“重複試驗中事件發生的可能性”。對於概率概念,“重複試驗”是一個非常重要的前提。例如,只有多次重複拋擲硬幣,纔可能得到正面朝上的概率。倘若是不可重複的試驗,倘若每次拋擲都會使硬幣的重量、質地、成分、形狀等發生變化,就無所謂概率。教育研究的對象是人,每個人不僅具有不同的遺傳特點,而且經歷、需要、慾望、情感、能力水平等各異。對不同的人進行的試驗、觀察或調查能否被視作重複試驗呢?能否被視作與將一枚硬幣多次拋擲相似的重複試驗呢?這個問題的答案至少不是不言而喻的。

退一步,既使我們接受了對人可以重複試驗的觀點,這種基於概率基礎之上的統計規律性能否成爲關於有個性的人的教育決策的依據呢? 這仍然是一個值得懷疑和需要討論的問題。即使根據我們的調查知道具有某一組神經生理特點的人中有90 %難以完成某一水準的學業,我們能否根據這一研究結果而預言一個具有這些神經生理特點的人不能完成學業呢?這裏,人的能動性是一個不容忽視的因素。不用說預言一個具有能動性、選擇性的人,即使是從大量拋硬幣中得到的統計規律,對於預測下一次拋擲硬幣的結果也是毫無意義的。

在將概率方法應用於教育研究時另一個值得注意的問題是“大數定律”問題。所謂“大數定律”是指在大量觀察中得到的小概率事件實際是不可能事件。這裏,多大爲“大量”?多小爲“小概率”?又需要基於對所研究問題的定性分析,這又是一個定性分析與定量分析的連接點。對同卵雙生子的研究,20個樣本點就可以被認爲是“大量”,而對於高考試卷的質量評估,2000個樣本點也未必算“大量”。對用於靜脈注射的藥品,1% 的污染即會被廢棄,對於鈕釦,1% 的次品則可能被接受。對於一項考試,10 % 的失誤(不夠格者被接受或夠格者被拒絕) 可能算是一個“小概率”,對於一臺用於閱卷的光電閱讀機來說,0.01 % 的失誤也難以接受。(參看復旦大學《概率論》第一冊,240 頁,此書一般被認爲是最具權威性的概率論教科書。)

歸根結底,概率方法是基於歸納邏輯之上的,然而,正如恩格斯所指出的:“按照歸納派的意見,歸納法是不會錯誤的方法,但事實上它是很不中用的,甚至它的似乎最可靠的結果,每天都被新的發現所推翻。”(恩格斯,第206 頁) 對於研究死的、被動的物尚存在着“不中用”的一面,對於研究能動的、有選擇性的人則具有更大的侷限性。

四 顯著性檢驗問題

在今天的教育研究中經常被運用的一種定量分析方法是顯著性檢驗方法,包括正態檢驗、t 檢驗、卡方檢驗、F 檢驗等。不少人對於顯著性檢驗方法存在誤解,誤以爲經過顯著性檢驗後科學性就得到了保證,自己的論點就不可動搖了。其實,顯著性檢驗只有基於一定的定性分析之上、在一定的問題情境之中才是有意義的,在許多情況下並不適用。

當我們需要對一種新的教學方法做出評價並決定是否推廣時,我們經常採用的方法是比較採用新方法的實驗班和採用傳統方法的對照班的學習成績,並進行顯著性檢驗。

這時,我們可能犯兩種錯誤,一種錯誤是“接受壞方法”,一種錯誤是“拒絕好方法”。當我們根據考試分數作出招生決定時,我們可能犯兩種錯誤,一種錯誤是“誤取庸人”,一種錯誤是“錯拒才子”。在統計學中將這兩種錯誤分別稱爲“第一類錯誤(或α錯誤) ”和“第二類錯誤(或β錯誤) ”。基於相同數量的觀測樣本,犯某一類錯誤的可能性的減少必然以犯另一類錯誤的可能性的提高爲代價。這很容易理解。選擇標準愈嚴格,就愈不容易犯“接受壞方法”或“誤取庸人”的錯誤,但就愈容易犯“拒絕好方法”或“錯拒才子”的錯誤。顯著性檢驗方法只能幫助我們將犯第一類錯誤的可能性降至最小。所謂“顯著性水平達到0. 05”是指犯第一類錯誤的可能性只有5% 。只有當我們在定性分析的基礎上確定了以不惜代價地追求避免犯第一類錯誤爲目標、確定了“寧可錯拒、絕不誤用”的政策之後,顯著性檢驗方法纔是有意義的。只有在這種情況下,假設檢驗方法才能幫助我們達到目標。在那些兩種錯誤的危害同等重要的情況下,當我們以“兩種錯誤均應儘量避免”爲目標時,在顯著性檢驗的同時,我們需要進行最優勢檢驗,確定我們爲了避免第一類錯誤所付出的代價是否太大。我們是否應不惜代價地儘量避免第一類錯誤?應用數學工具的條件是否具備? 對於這一類問題,定量方法是無能爲力的。從此我們可以看到,只有根據定性方法確定了目標之後,纔是定量方法的“起點”。

在今天的許多教育研究文獻中表現出對顯著性檢驗的誤解。最典型的錯誤是對皮爾森相關係數的顯著性檢驗。一些研究者根據檢驗結果達到0. 01 而認爲“相關非常顯著”。其實,這一檢驗結果只可以被解釋爲“相關非零”。對於能力性考試,通常要求信度係數達到0. 90 以。如果採用顯著性檢驗,在樣本較大的情況下,數值爲0. 10 的相關係數也可能達到0. 001 的顯著性水平。儘管這份試卷的信度係數達到“非常非常顯著的水平”,我們仍然只能認爲這是一份幾乎毫無信度可言的試卷。

五 相關分析

在今天的教育研究中經常被應用的一種定量分析方法是相關分析,包括迴歸分析、因素分析等。這些方法可以揭示出事物之間的相關關係。然而相關並不等於因果。學校早上八點上課,商店早上9 點開門,二者相關很高,但並不存在因果關係。心臟跳動與思維之間亦有很高相關,但二者亦不存在因果關係。人類的許多誤解都是源於錯誤地對事物之間的相關關係作出因果的解釋。“重物下落較快”這一錯誤看法就是由於人們對“質量大”和“下落快”之間的相關關係錯誤地作出了因果的解釋。“心臟是思維的器官”這一錯誤看法就是由於人們對心跳與思維之間的相關關係錯誤地作出了因果的解釋。

教育研究總是力圖揭示出教育活動與教育的社會成果之間的因果聯繫,從而爲教育決策提供依據。相關是因果關係的必要條件,但不是充分條件。定量方法只能揭示出事物之間的相關關係,但不能對這種關係做出因果的解釋。因此,揭示出“相關”即爲定量方法的“終點”,還需要藉助定性的方法來繼續對這種相關關係做出(或不做) 因果的解釋。

六 結論: 注意提高研究素養

今天,在教育研究中的確存在一種將定量方法神化的傾向,以爲一報告統計數字、一計算相關或進行顯著性檢驗,科學性就得到保證,有時候,甚至使數學工具成爲一種故弄玄虛的裝飾物,使一些完全不能成立的論點藉助數學的徽記而披上科學的外衣。這種傾向不利於教育研究的深入開展。

之所以產生這種傾向,一方面是由於一些研究者雖然掌握了一些數學工具,但缺乏對這些數學工具的真正理解,以至不能正確地判斷應用這些數學工具的前提條件是否具備,不能對藉助這些數學工具得到的研究結果給予合理的解釋;另一方面,是由於一些研究者缺乏教育方面的實踐經驗,在自己的研究工作中缺乏清晰的理論假設和基於經驗的直覺。爲了克服這種傾向,一方面,研究者需要加深對現代數學工具的理解,不僅知其然,而且知其所以然;另一方面,研究者應更多地深入教育實踐,提高自己的理論水平和定性分析能力。

參考文獻

[1]復旦大學,《概率論》,人民教育出版社,1979

[2]恩格斯,《自然辯證法》,人民出版社,1972

*************************

聲明:該文觀點僅代表作者本人,搜狐號系信息發佈平臺,搜狐僅提供信息存儲空間服務。
相关文章