河南省中考英語試卷性別公平性研究

作者：汪劍來源：《文學教育》日期：2018-05-02人氣：1454

一. 引言

公平性問題是中考這種規模的考試必須看重的問題，對河南省這種人口大省來說更甚。任何涉及不公平的因素都可能產生重大的社會效應。涉及公平性的因素很多，性別因素是其中容易被忽略的一個側面，但是同等能力但性別不同的受試，在某些題項上則可能存在明顯的差異性，在大樣本下觀測，這種差異性可能更顯著。

二. 項目功能差異簡介

項目功能差異檢測（DIF）是檢驗大規模考試的公平性的常用的一種統計方法。DIF是指，對于某個特定項目，如果在來自同一目標特質的兩批平行被試組中，顯現出不同的統計特性，那么該項目就存在功能差異。（董圣鴻，馬世曄，2001）“同一目標特質的兩批平行被試組”是指在測驗打算測查的能力（目標特質）上，兩組被試具有相同的水平。

在大部分西方發達國家，DIF檢測已是大規模測試研發的重要一環，在大規模測試實施前，都會進行一定規模的試測，并進行DIF檢測，據此剔除有瑕疵的題項。在國內測量領域學者在上世紀末已將該方法引介到國內并進行了一些涉及方法論研究（曾秀芹、孟慶茂，1999；董圣鴻，馬世曄，2001；曹亦薇, 張厚粲，1999）。也有部分學者對某些具體的測試進行了一些實證性研究，有部分學者已將該方法運用到語言測試的公平性研究中，如漢語水平考試（黃春霞,2004）（鹿士義,2004）, 高考英語考試（雷新勇，2007），英語專四考試（李清華，孔文， 2009）等。但是尚未見到從性別公平角度對中招考試進行的相關實證研究。目前河南省這個人口大省，每年參加中招考試的人數眾多，考生之間性別，背景等方面存在較大差異，因此對該考試進行性別偏差研究是非常必要的。

目前測量界已有多種檢測項目功能差異DIF的方法，在諸多方法中，MH (Mantel-Haenszel Procedure) 檢測法和SIBTEST (Simultaneous Item Bias Procedure)比較常用。因為SIBTEST存在眾多優勢，且本研究對象河南省英語中考試卷中包含的英語閱讀測試每篇閱讀任務帶有若干題目(可以視為項目束)，因此本研究選用SIBTEST方法進行。

三．研究設計

（一）研究對象

本研究研究對象為河南省2015年中招英語試題中的客觀題。本研究擬考察該卷中五個客觀題型中總共75個題項的性別公平性。五個部分分值共計95分（總分120），包括：20題聽力理解（單選題）、15題單項選擇（單選題）、包括10個題項的1篇完形填空題（單選題）、4個語篇的閱讀理解題（單選題，每個語篇5個選擇題）、10個詞語運用題（選詞填空題）。此外，因為完形填空和閱讀理解題，每個語篇都是多個題項，即多個題項根據考生對同一個語篇的理解來進行能力考察的，因此，本研究還對所有語篇進行性別方面的項目束功能差異檢驗。

（二）研究問題

問題1，河南省該年英語中招試卷中所有客觀題項在性別方面是否存在項目功能差異，即該試卷中是否存在對某一性別更有利的題項；

問題2，該年河南省英語中招試卷中在語篇方面是否存在項目束功能差異，即該試卷中包括完形填空和閱讀理解共計5個語篇中是否存在對某一性別更有利的語篇；

（三）研究樣本

本研究施測對象為兩所中學九年級共1000名同學，其中男生女生分別為500人（實際參加測試的學生為1200余人，因需要男生和女生實現一對一匹配，從中隨機選擇各500名）。

（四）研究工具

本研究使用應用廣泛的SIBTEST軟件，版本為SIBTest 1.7。先運行SIBIN，然后運行SIBTEST。得到的分析結果中，β為正值，表示對參照組有利；β為負值，表示對目標組有利。顯著水平定為0.05。

（五）研究步驟

第一，施測并整理數據。本研究用該真題對受試對象進行測試（在第一次月考中進行，避免太多學生已經接觸該試卷，從而造成考試信度不高的問題）；測試完畢后，用專用統計軟件對本次考試的所有實測情況進行統計（將所有考生的原始答案依據是否得分轉換為“0”、“1”數據），按照性別分類并命名為男生組和女生組，儲存備用。本研究假設有題項對女生組不利，女生組為目標組，男生組為參照組。

第二，用軟件處理數據。

（1）數據處理第一步：運用SIBTEST程序進行分析。第一次將所有的項目都列為懷疑有存在項目功能差異, 經篩選懷疑存在項目公平差異的題目包括：2道聽力理解，2道單項選擇題，2道完形填空題，2道閱讀理解題，1道詞語運用題; 把這些題項分別剔除, 對剩下的題目進行再一次操作, 反復進行,直到沒有DIF項目為止，這樣得到一個最佳的匹配變量; 把篩選出來的項目組成一個“懷疑分測驗組”,用上一步操作得到的最佳匹配變量,再運用程序運算,如果此時得到的項目的β值,仍然在0.05的標準之上,那么這樣的項目就是有DIF的項目。

（2）分別用SIBTEST軟件檢測5個語篇項目束功能差異。

第三，對得出的數據進行統計學意義的解讀：即根據數據，哪些題目體現出了統計學意義上的項目功能差異（DIF），對目標組有利或不利；哪些題目體現出了統計學意義上的項目束功能差異（DBF），對目標組有利或不利;

四．討論

（一）問題1的討論

試卷中第22題和第45題的β值分別為0.072和0.068，超過了0.05的界限，達到了顯著水平。表明這兩道題目存在明顯的性別項目功能差異，對目標組（即女生組）不利。

第22題：—Is this photo taken in Tibet？

—Yes. You can see beautiful snow mountain in the of the photo.

A. form B. background C. shape D. introduction

該題答案為B.

針對第22題的檢測結果，結合具體題目，筆者認為可能有兩種解釋：第一，題干中有一個”Titet”這個生詞，而這個詞經常出現在政治性語篇中，而男同學對政治性語篇比較敏感，所以清楚地知道這個詞的意思，這樣能更好地理解題干的語境，所以能更好地作答，選出正確答案；第二，男同學更可能對攝影這個話題感興趣，更能理解題干的意思，所以更可能選出正確答案。

第45題為完型填空部分的最后一個段落，上下文和選項如下：

The child replied, “My daddy is the 45 , and he is taking me home.”

45.A.guard B. driver C. pilot D. traveller

該題答案為C.

針對第45題的檢測結果，結合完型填空的上下文，筆者認為造成這種結果的原因可能在于：四個選項中，C選項應該是所有選項中在日常學習中出現詞頻最低的詞，但是“pilot”所代表的飛行員這個職業是很多男同學期望的職業之一，所以男生對該詞更敏感一些，所以更可能選對正確的答案，而女生更可能會選到干擾項B。

（二）問題2的討論

問題2結果顯示，該試卷中所有語篇中，雖然5個語篇里的單個題目表現出了一定程度的項目功能差異，但是任何一個語篇的項目束差異都沒有表現出突然增大或突然縮小。因此，我們可以得出結論：本次考試選用的5個語篇在統計意義上沒有對目標組明顯不利或有利，本次試卷的語篇選用沒有明顯的項目束功能差異，即本次考試的語篇選用對相同能力但性別不同的考生不會造成成績在統計學上的差異。

五. 結論

本研究發現：第一，本次試卷中的第22題和第45題兩道題目存在明顯的性別項目功能差異，對目標組，即女考生不利。但根據DIF顯著性的判斷標準，此類題目在選用時需考慮，但是仍可以采用；第二，本次試卷中的完型填空和閱讀理解共5個語篇（項目束）在性別方面沒有明顯的項目束功能差異，這五個語篇對某個性別的考生沒有明顯不利或有利。這說明本次考試的語篇較好，沒有造成性別層面的不公平現象。

本研究對2015年河南省中考英語試卷進行項目功能差異分析，分析改試卷在性別方面的公平性問題，是對該考試效度和信度的一個檢驗。本研究由于主客觀條件的限制，存在很多不足。比如，數據來源不是第一手的施測數據，樣本代表性不充分；另外對結果的解釋，更多憑借筆者的主觀猜斷，主觀性較強；再加上本研究局限于對二級題型進行了檢測，沒有涉及到該卷中的主觀題部分，因此僅憑這得出的結果，可能有失偏頗。

本文來源：《文學教育》：http://www.007hgw.com/w/wy/63.html

關鍵字：發表論文論文篇論文發表

上一篇：2017斯諾克中國錦標賽媒體服務分析
下一篇：中國新聞傳播史中的宗教報刊研究

欄目分類

熱門排行

推薦信息

期刊知識