作者簡介:劉玥,杭州師范學院心理學部博士研究生。成都;游森,中國教育學會副秘書長。上海
內容提要:教育質量檢測工具的公正性將影響到整個教育質量檢測結果的有效性和可效度。相關的教育測驗評價標準測量質量的工具_教學參考,如英國《教育與心理檢測標準》和《ETS質量和公正性標準》為保證測驗的公正性提供了參考。為滿足這種標準的要求,合理充分地運用測驗等值、項目功能差別剖析和低利害測驗中的不努力作答剖析等技術手段是保證教育質量檢測工具公正性的重要形式。結合我國的特性,建議從科學命題、合理實現等值設計和技巧選用、基于相關指標修訂工具、加強教育質量檢測工具監控等方面來保證教育質量檢測工具的公正性。
關鍵詞:教育質量檢測工具;公正性;測驗等值;項目功能差別;不努力作答
標題注釋:本文系國家社會科學基金“十三五”規劃2018年度教育學通常課題“中國基礎教育質量評估檢測工具標準規范研究”(項目編號:)階段性研究成果。
[中圖分類號]G464[文獻標示碼]A[文章編號]1002-4808(2019)08-0024-05
隨著我國義務教育質量檢測制度的完善以及各層面教育質量檢測的有序舉辦,教育質量檢測正積極服務于教育管理決策、教育教學的改進與提升。在這一背景下,教育質量檢測非常是教育質量檢測工具的公正性問題也日漸成為學術界和實踐領域關注的焦點。其實與傳統的學業成就性測驗相比,教育質量檢測屬于低利害測驗,測驗結果對個體沒有直接影響,而且公正性一直是教育質量檢測工具值得優先考慮的關鍵事項。由于它決定著能夠全面客觀地搜集到檢測對象的真實信息,最終實現檢測推動教育質量提升和均衡發展、服務教育決策的目的[1]。
一、教育質量檢測公正性期盼下的測驗工具要求
(一)教育測驗公正性的內涵
經濟合作與發展組織(OECD)在2012年出版的《教育的平等和質量:支持弱勢中學生和中學》一書中,對教育公正給出了包括兩個方面的定義:一是公正();二是全納()。要實現教育公正,一方面,在高利害的教育考試中(如中考),須要通過保障考試的公正性守護教育公正乃至社會公正;另一方面,對于低利害的教育質量檢測,也須要通過工具公正性的保障,著力保證檢測結果的可靠性和科學性,使其才能對教育教學變革發揮最大程度的作用。教育測驗公正性是指測驗要公正、平等地對待考生測量質量的工具_教學參考,測驗結果不受與測量構念(某一測驗所要檢測的全部知識、技能及能力等)無關的考生個體特點(如殘障、性別、種族、民族等)的影響[2]。
(二)教育測驗公正性的制度保障借鑒
為了實現教育測驗的公正性,相關機構所頒布的教育測驗評價標準提供了重要的制度保障。目前,國際上較為公認的標準有兩個,一是日本《教育與心理檢測標準》,二是知名教育考試機構英國教育考試服務公司(ETS)的《ETS質量和公正性標準》。這兩個標準都將教育測驗的公正性置于十分重要的位置。
1.日本《教育與心理檢測標準》
1985年出版的日本《教育與心理檢測標準》中,將公正性作為與測驗的制做、評估和文件存檔以及測驗的應用相并列的第二大部份,包括測試和測驗應用中的公正性、考生的權力和義務、多元語言背景考生的測試、殘疾考生的測試四個章節的內容。[3]這對我們的啟發是,對于教育測驗的公正性,應當從兩個維度來綜合考慮。第一個維度是測驗公正性的對象,即應該全面地剖析對象的特點,考慮到考生群體所具有的不同民族、性別、種族、語言背景及身體殘疾與否等。非常是對于一些較為敏感的群體,應該保證測驗分數對于所有的子群體都是公平有效的。比如,我國疆域廣闊,民族諸多,不同的民族有不同的生活風俗、語言文化。在進行全省范圍的教育質量檢測時,怎樣保證檢測工具考慮到了不同民族的特性,對于少數民族群體的檢測沒有包含與檢測目標無關的誤差,是保證教育質量檢測工具公正性應該認真思索的問題。第二個維度是測驗的整個過程,包括測驗設計、開發、施測、評分、分數合成、分數解釋等各個環節。應該在每一個環節中都考慮不同子群體的特性,實現真正的公正。
2.日本教育考試服務公司(ETS)的《ETS質量和公正性標準》
與《教育與心理檢測標準》相比,《ETS質量和公正性標準》[4]愈加具體,具有更強的操作性。在該標準中,公正性是第五章的內容。總的來說,2014年版的《ETS質量和公正性標準》為測驗工具的公正性提出了新的要求。比如,對產品或服務提供公正的可及性,對測驗提供注冊、施測和結果報告方面的公正性證據。這對我們也有一定的啟發。我國往年的測驗,大多偏重通過報告測驗成績來評價考生、教師和中學,甚少重視對于測驗質量本身的評價。雖然有關于測驗質量評價的研究,也多從內容要素、信度、難度、試卷厚度、題型等方面進行[5][6],極少從公正性的角度對測驗質量進行評價。日本教育考試服務公司對測驗質量的要求提醒我們,保證測驗本身的科學、公平和公平,才是運用測驗分數進行決策的前提。相關的教育考試機構除了對測驗的命題、施測等環節負有直接責任,更重要的是要同時提供包括測驗公正性在內的測驗質量的相關證據,促使測驗的公正性和有效性遭到大眾的監督,致使測驗的結果更具有公信力。
(三)教育測驗公正性到工具公正性
綜合以上兩個標準可以發覺,一方面,測驗所涉及的所有環節,都與測驗工具有關。測驗設計、測驗開發、測驗評分這幾個環節都以測驗工具為主要對象,可以通過一些程序性的操作規范和相關的統計檢測學指標,嚴格控制所開發的測驗工具的質量,保證其滿足公正性的要求;在前面的數據剖析環節中,又可以通過教育檢測中一些專門的技術和手段,對測驗工具的公正性進行進一步的后驗性評估,因而為分數的解釋和使用提供更可靠的證據。另一方面,為保證測驗公正性,提供測驗工具公正性的證據是測驗開發部門的主要責任和義務。因而,從已有標準對于教育測驗公正性的規定出發,我們覺得,保證教育質量檢測公正性的核心就是要保證教育質量檢測工具的公正性。
二、教育檢測專業視角下教育質量檢測工具公正性的技術保障
在教育質量檢測中,涉及各類各樣的教育測驗工具,既包括與學業成就相關的試題,也包括測試中學生品德發展水平和身心發展水平等非學業水平的量表、調查中學生課業負擔的問卷、調查中學生學習背景的問卷等。雖然教育質量檢測工具的標準直接關系到檢測結果的有效性和可效度,并且截止目前,一直沒有產生普遍一致的,專門針對教育質量檢測工具的評價指標和標準。國內的相關標準對我國教育質量檢測工具質量的研究和保障提供了重要的參考。從教育檢測專業的角度出發,僅針對教育質量檢測工具中的學業成就相關測驗,怎樣通過一些技術手段保障測驗工具的公正性,是本文接出來要注重介紹和闡述的方面。
(一)測驗等值
在教育質量檢測中,因為測試的內容較為廣泛而測試的時間極為有限,經常會用到矩陣抽樣的技術。這時會出現考察同一個內容的多個測驗方式,為了實現這種測驗分數之間的比較,常常須要使用測驗等值的方式[7]。除此之外,在教育質量檢測中,有時還須要對同一測驗內容不同年份的測驗結果進行比較,以得到個別群體的能力發展變化情況,這時也須要使用測驗等值的方式將不同測試時間得到的結果鏈接上去,使之具有可比性。
在教育質量檢測的等值中,一般應該包括以下四個步驟。一是確定等值目的。這跟測驗的整體設計有關,例如,在矩陣抽樣設計中,等值的目的就是將那些不同事生在不同題冊上作答的分數實現等值。二是設計數據搜集方法。設計數據搜集方法(等值設計),即確定采取何種形式對考生施行測驗。等值設計的基本原則就是促使所采集的數據能最有效地提供不同測驗版本的差別信息,也就是說,數據采集中的特殊設計使不同版本測驗之間得以構建聯系?;镜牡戎翟O計有單一組設計、隨機等組設計、平衡設計、非等組鉚測驗設計等。歸根究竟,這種設計區別就在于構建不同版本測驗之間聯系的方式不同,基本就是“鉚人”和“鉚題”兩種。在教育質量檢測中,普遍使用的是鉚題的形式。三是對考試分數進行等值處理?;诓煌牡戎翟O計和理論假定,早已有大量較為成熟的等值技巧。按照等值根據的理論,可分為精典檢測理論(CTT)等值和項目反應理論(IRT)等值;按照等值的直接操作對象,可分為測驗分數的等值和項目參數的等值;按照等值關系的假定是否為線性,可分為線性等值和非線性等值;按照等值測驗之間的關系,可分為水平等值和垂直等值;按照等值進行的步驟,可分為分別等值和同時等值。四是等值結果評價。等值完成后須要對等值結果進行評價,論證所恐怕的等值關系的可靠性和確切性。等值結果評價可以從測驗編制、施測、統計方式以及根據的等值假定等方面進行。評價的主要標準就是等值偏差。
(二)項目功能差別剖析
項目功能差別(DIF)指的是一個項目(題目)在不同團體中造成的差別,或則說是在兩個具有相同能力但有不同匹配的組別中造成的差別。從最初的公正性研究仍然到現今測驗的信信度研究,DIF的測量仍然在發揮著很重要的作用[8]。只有當導致DIF的緣由是兩組被試在與測驗所測的能力無關的知識或經驗上存在差別時,才會覺得具有項目誤差。諸如,以英文為母語的中學生和以法語為英語的中學生在同一個物理測驗中的分數差別,包含著因語言限制導致的誤差。并且,存在明顯的DIF是測驗不公正的必要而非充分條件。1986年夏開始,ETS對測驗的編制過程規定:必須對試卷進行項目功能差別的剖析,對試卷的常規剖析過程加入了一個項目功能差別指數[9]。
目前,關于DIF檢驗早已發展出好多相對成熟的技巧。剖析方式的類別主要有[10][11]:一是按照項目的計分方法,可分為適用于二級計分(如MH、、LRDIF和STND)和適用于多級計分項目的方式(如LRDIF、STND、、DLA、MLA等);二是依據技巧是否以參數恐怕為基礎,可分為參數方式(IRT和LRDIF)和非參數方式(、MH、STND等);三是按照匹配變量是否是真分數,可分為實際得分(比如STND、MH和LRDIF等方式)和潛在能力(IRT等)為匹配變量的方式。不同方式的概念、計算和解釋方面都不同。關于各類技巧的評價已有研究也沒有得出一致性的推論。在實際中常常須要使用多種方式,對一致性判斷為項目功能差別的題目進行重點考察。
(三)低利害測驗中的不努力作答剖析
與傳統的教育考試不同,教育質量檢測中的學業成就測驗結果通常不會直接報告給中學生個體,也不會對中學生個體的分班、升學等導致直接影響,因而屬于低利害測驗。在這些低利害測驗中,中學生可能沒有足夠的動機在整個測驗中都保持十分努力的狀態,很可能出現一些不努力作答的行為[12]。在現代檢測理論中,好多檢測模型的構建都默認中學生在作答題目時給與了每道題目足夠的努力程度。為此,假如在測驗中出現了不努力的行為,這么原有的檢測模型就不能處理這些情況,會導致一些有誤差的恐怕結果,比如考生的能力值會被高估等[12]。在教育質量檢測中,假如這些不努力的行為比列較大,也會對群體的匯總分數導致較大誤差[13],從而影響教育質量檢測結果的公正公平。為此,在大規模的教育質量檢測項目中,越來越多的研究者開始關注測驗中不努力作答的影響及辨識。假如才能通過恰當的剖析方式,找到富含較大比列不努力作答的題目,在工具修正或數據剖析的環節加以處理,將會進一步保障教育質量檢測的公正性。
已有的研究提出了四類方式辨識不努力作答的行為:自陳量表方式、個人擬合指標、混合IRT模型和基于反應時的方式[12][14]。其中,隨著計算機測驗的發展,基于反應時的方式得到了極大的發展和應用。這類方式大多通過設定閥值,之后將考生在題目上作答的反應時與閥值比較,判定作答是否屬于不努力作答。目前研究較多的方式包括正態閥值方式(NT10)、正確率和反應時的累積分布方式等,這兩種方式也被研究者證明表現較好。
三、中國教育質量檢測工具公正性保證的具體措施
(一)科學命題是保證公正性的基礎
在明晰測驗的目的和內容后,根據測驗新藍圖進行科學命題是教育質量檢測工具開發中至關重要的環節。首先,為了保證工具的公正性,測驗的開發團隊中應該包括不同背景的專家,即專家的地區、民族等應該盡可能覆蓋與測驗目標群體一致的范圍。比如,在中國基礎教育質量檢測協同創新中心對我國義務教育語文相關誘因檢測工具研制的過程中,命題的團隊不僅院校和研究機構的專家學者,還有來自全省各地教育教學一線的教研員和優秀班主任,具有廣泛的代表性[15]。通過提高工具研制團隊的代表性,可以促使不同背景的專家在命題的同時,考慮到各群體考生的特性、典型的思維方法和作答反應,因而對題目是否會存在誤差做出經驗性的判定,從而保證工具的公正性。其次,在教育質量檢測價值取向上,中國“以縣為主”的教育管理體制,東西部之間、城鄉之間存在教育不均衡現象[15]??紤]到這種差別,在工具研制階段,就應該充分考慮到檢測對象的異質性,在命題團隊的成立、命題人員的培訓、命題過程的把控等方面都加大對公正性的監督。諸如,何家軍早在2008年就提出了對于中考命題階段公正性的考慮[5]。諸如,“命題和審題人員應當受過專業培訓,對于測驗的使用地區可能涉及的公正公平性考量方針和新政,她們要十分熟悉?!钡?,這種建議在實際的教育質量檢測工具研制階段是否還能被采納,履行的程度怎樣,又是值得調查和反省的問題。
(二)合理實現等值設計和技巧選用是保證公正性的途徑
因為教育質量檢測中會普遍應用到矩陣抽樣的設計,因而須要使用測驗等值的方式對數據進行處理,以保證完成不同題冊的考生所得到的能力恐怕結果是可比的。另外,依照教育質量檢測的目的,除了要了解測試當初的實際狀況,還須要把握質量的變化發展趨勢,對不同年份的測評結果進行剖析比較,這也須要用到等值的方式[16]。為保證測驗等值的結果確切、可靠,應該采用合理的等值設計,并選用恰當的等值方式。
首先,在等值設計方面,應該在檢測工具研制階段制定科學可行的等值方案。諸如,在進行測驗設計時,因為鉚測驗(不同測驗中相同的題目)本身對等值結果有明顯的影響,因而應該盡量滿足鉚測驗的相關要求。那些要求包括:鉚測驗應該包含足夠多的題目,起碼為測驗總題量的20%[7];鉚測驗應該具有內容代表性,而且難度參數的均值與總測驗相等?;跈z測學理論,從整體上科學地構架整個教育質量檢測工具的測驗設計,也是保證工具公正性的重要途徑。但是,在實際中,因為缺少相關的檢測統計學知識,在測驗設計中不考慮等值,而在結果比較中又默認分數可比的現象比比皆是。諸如,假如五年的檢測工具中沒有共同題,出席測試的群體中也沒有子群體同時出席了兩個測試,這么雖然檢測的目標和內容相同,也不能對三年的整體狀況做出比較。又比如,直接將物理測試結果和科學測試結果相比較,也違反了測驗等值的前提假定。目前,大部份的國際測評項目大多采用共同題的方式來實現等值的目的。在中國傳統考試文化背景下,這些技巧是否合適?怎么更改建立?這種怎樣實現五年以上的發展趨勢動態剖析?那些都須要更深入的預研究和悉心設計[16]。
其次,在等值方式選用方面,應該基于已有的比較等值方式的研究推論,并結合教育質量檢測的等值設計及數據特性,選用適當的方式。比如,在一些國際小型教育質量檢測項目(如國際中學生評價項目PISA)中,多采用基于共同題的項目參數等值,另外,就會對預試中發覺的在不同語言或則不同年度間表現差別較大的群體,使用單獨恐怕的題目參數。為了確保等值方式的選擇愈發符合教育質量檢測的實際需求,可以采用模擬研究的方式,基于本次教育質量檢測實際的等值設計及數據結構形成數據,對各類等值方式進行比較和評價,因而找到對于某次教育質量檢測的實際數據最為確切的等值方式。
(三)基于相關指標修訂工具是保證公正性的重點
教育檢測學的發展為科學地評價工具公正性提供了可能。結合本文所介紹的項目功能差別剖析和不努力作答剖析等手段,可以對檢測工具做出愈發科學、準確的判別。結合這種指標的概念和算法,可以采用先驗或后驗的方法加以應用。先驗的方法主要是指在借助工具即將施測之前,通過分析預試數據在各指標上的特點,發覺可能存在項目功能差別或則容易誘發不努力作答的題目,對其進行刪掉或修訂。后驗的方法主要是指在借助工具即將施測以后,通過相關指標的估算,在后續的數據剖析高考慮有誤差的題目并給以處理。比如,可以在最后的剖析中刪掉項目功能差別較大的題目,刪掉判定為不努力作答的個體作答,也可以在最后檢測模型建立高考慮作答努力程度的影響等。目前,我國的教育質量檢測主要是采用先驗的形式。比如,在研制全省義務教育語文教育質量檢測工具時,無論物理測試題,還是問卷題,除專家多輪次初審外,都經過兩次以上預測試及修訂,確保了所有題目具有良好的檢測參數和良好的質量保障[16]。這才能在很大程度上避開出現富含項目功能差別的題目。并且,在實際的檢測施行中,因為其具有低利害的特性,會有好多中學生出現不努力作答的行為,這將大大影響結果的確切性,甚至影響地區之間、年度之間比較的推論。為此,在數據搜集以后,通過后驗的方法對數據進行清除,并刪掉有問題的題目防止入庫,總結這類題目的特點以幫助下一次的工具研制,也是須要注重的方面。希望還能通過這種技術手段,進一步保證教育質量檢測工具的公正性。
(四)強化教育質量檢測工具監控是維護公正性的制度保障
日本的《教育與心理檢測標準》和《ETS質量和公正性標準》對我國教育檢測工具公正性的監控提供了挺好的借鑒。目前,自2015年《國家義務教育質量檢測方案》實施以來,我國早已持續舉辦了4年的全省義務教育質量檢測工作。為了積極響應國家呼吁,全省各地也對舉辦區域性的教育質量檢測做出了積極嘗試。但是,因為教育質量檢測是一項專業性較強的工作,目前好多地區尚不具備獨立開發高質量檢測工具,通過標準化流程施行檢測等條件。為了嚴格把控教育質量檢測工具的質量關,著力保證檢測工具的公正性,有必要在借鑒美國先進經驗的基礎上,擬定適用于我國的教育質量檢測工具公正性標準,作為教育質量檢測領域的行業標準。從教育質量檢測工具的研制流程到相關的檢測學指標等方面,對公正性做出具體規定。比如,可以要求工具研制部門對即將投入使用的工具開具質量報告,報告中應明晰包括富含質性評價和量化指標的對工具公正性審查的結果。對無法出示質量報告或則質量不合格的工具,將不予采用,雖然早已投入使用,其結果也不能得到廣泛認可和應用。希望通過這一措施,強化教育質量檢測的行業規范,著力保證教育質量檢測工具的公正性。
參考文獻:
[1]陳晨.基礎教育質量檢測中的公正性問題:日本NAEP的新政與實踐[J].外國中中學教育,2011(2):11-15.
[2],,onin.forand[M].DC:,2014.
[3],.forand[M].DC:,1985.
[4].ETSforand[M].:,2014.
[5]何家軍.新課程中考質量評價標準體系研究[D].上海:華東師范學院,2008.
[6]付慧宇.中考試題質量評價體系初探[J].北京師范學院學報(基礎教育版),2011(2):70-72.
[7]KOLENMJ,RL.Test,,and[M].3rded.NewYork:,2014:2-3.
[8]汪文義,張華華.統計檢測視角下考試公正推進教育公正的對策[J].山東師范學院學報(自然科學版),2017(4):383-393.
[9].ETSforand[M].:,1986.
[10]于媛穎.多種DIF測量方式的比較研究[D].上海:上海語言學院,2004.
[11]張勛,李凌艷,劉紅云,等.IRT_Δb法和修正LR法對矩陣采樣DIF檢驗的有效性[J].心理學報,2013(8):921-934.
[12]WISESL.:ScoreofTestData[J].in,2015,(28)3:237-252.
[13]RIOSJA,GUOH,MAOL,etal.ofon-:ToorNot?[J].of,2016,17(1):74-104.
[14]
,AA,K.TheofonIRT[J].of,2015,52(3):339-358.
[15]王燁暉,張岳,楊濤,等.義務教育語文相關誘因檢測工具研制的探求與思索[J].語文教育學報,2018(5):12-16,20.