科研简报
高考语文作文试题的城乡公平分析
作者:黄晓婷 韩雨婷 吴方文 发布时间:2019-01-08
摘要:

本研究通过模拟实验,从4种不同的项目功能差异检验方法中甄选出最适合用来分析高考语文作文试题城乡公平性的一种,即基于PCM的Conquest内置DIF检验法。使用这种方法对2015年高考语文作文试题进行实证检验,结果表明该题不存在显著的城乡差异。本文中的模拟实验方法为从国际经验中选取适合我国的方案积累了一定经验。项目功能差异检验则可以为提高命题质量,确保试题公平性提供实证依据。

  一、研究背景

  近年来,社会对高考公平性的关注已经逐步由程序公平扩展到了考试内容对不同群体学生是否公平上来。特别是高考语文作文题的公平性,曾引起媒体的热议。例如,2015年的陕西省高考语文作文题为就女大学生举报在高速路上违反交规的父亲引发的争议,给女儿、父亲或其他相关方写一封信。有一种观点认为这道题对于不了解高速公路及高速上不能打手机等规定的农村学生不公平。

  国际上已有很多成熟的统计模型来估算试题对于不同群体难度是否存在显著差异。项目功能差异(Differential Item Functioning, DIF)检验[1]是最合适、也是目前最常用的鉴别试题是否存在对某些群体不公平情况的方法。具体来说,DIF是指不同群体(如不同性别、族裔或地区等)的被试,在能力相同时,在某试题上得分几率的差异。当差异较大时,即DIF指数的绝对值在统计上显著大于临界值时,被试在该题上的得分就不仅仅取决于他/她的知识或能力,而是在很大程度上还取决于被试所属的群体,该题对不同的群体就不公平。例如,在上面提到的作文题中,如果学生得分的高低仅与其作文水平相关,则试题没有DIF;但如果学生因为生活在偏远农村,不熟悉高速公路等背景知识,从而无法正常完成作文,则可能出现显著的DIF

  实际上,在国际上较为知名的大型标准化考试中,计算项目的公平指数已经是题库建设和维护的一项常规性工作,但我国在这方面的实证研究还较少。其中一个重要的原因在于已有的统计模型都是针对国外标准化考试的,试题绝大部分为客观题(如单项选择题、是非判断题等),且试题的评分等级通常只有5个左右。而在我国的高考中,主观题占据了相当的比重,且评分等级常常多达20个,作文题的评分等级理论上多达61级,数据结构与国外标准化考试存在显著的差异。因此,已有的统计方法不一定适用。针对上述问题,本研究先通过模拟实验,从已有的DIF检验方法中甄选出最优方案,再以2015年语文高考的实证数据为例,检验作文的城乡公平性。

  二、研究方法

  目前,国际上已经有很多种计算DIF的方法,各种方法都有以下步骤:

  第一步,获得测试数据。

  第二步,明确要对比的群体,即目标组和参照组。

  第三步,确定匹配变量。由于DIF不是直接对比两组被试的得分高低,而是对比不同组中能力相同的被试在某道试题上的得分情况,因此,需要先估算被试的能力,再对同样能力的被试进行对比。被试能力,通常就是DIF分析中的匹配变量。匹配变量有两类:测验总分(即原始分),或是由项目反应模型(item response model)估算的被试的潜在真实能力(即潜变量)[2]

  第四步,估算DIF指数。根据是否使用项目反应理论或其他测量模型,检验DIF的方法可以相应地分为两类:参数检验方法(使用项目反应理论或其他测量模型的方法)和非参数检验方法(不使用项目反应理论或其他测量模型的方法)。表1展示了每个类别中的一些常用的检验方法。

  表1 常见DIF检测方法

匹配变量  

类别

常用方法

观察分数

非参数  

GMH、P-MH、P-STND  

参数

P-LDDIF、LDFA

潜变量

非参数  

P-SIBTEST  

参数

基于PCM(Conquest内置DIF检验方法)、   基于HGLM、GRM模型的方法

  第五步,对于统计方法识别出来的有显著DIF的试题,还需要进一步分析可能的原因和对应的修改办法。

  1中罗列的方法都适用于一般标准化考试中的选择题和分步计分题。但是要用来分析高考作文题时,需要先解决两个问题。

  第一个问题是找到匹配变量。过去的标准化考试往往是单一维度的,也就是说所有的试题都在测量同一种潜在能力。此时,匹配变量可以采用总分或由项目反应理论计算出的潜在能力[1]。近年来,越来越多的测试是多维度的。当每个维度有相当数量的试题时,研究者可以用该维度的总分或该维度能力潜变量估值作为匹配变量。在高考语文中,测试学生作文能力的题仅有1道作文题。如果简单地用语文总分或语文能力潜变量,很可能无法较为准确地匹配能力相同的考生。当测试中没有相同类别的试题时,匹配变量只能用所测能力最接近的试题组来代替。除作文题外,高考语文试卷在内容上还包含阅读和表达两大类;从题型来说,也有选择题和开放题[2]两类。我们分别计算了不同内容的得分、不同题型的得分与作文得分的相关系数,结果如表2所示。从表2可以看出,开放题与作文成绩的相关性最高,基本达到了匹配变量的使用标准,因此,我们将12道开放题的成绩(或由此估算出的潜在能力)作为匹配变量。

  表2 不同内容、题型与作文题得分的相关系数

阅读

表达

选择题

开放题

作文

0.377

0.355

0.362

0.420

  第二个问题是模型是否能处理多评分等级的项目。在常见的标准化考试中,单项选择题是0/1计分,分步计分题大多数采用0~5之间的整数,很少有超过10个分值级别的。但在高考作文中,总分为60分,理论上就有61个评分等级。在已有的理论研究和实证分析中,尚未尝试过分析这种形态的数据。因此,我们无法直接判断哪种模型能最精确地检验出DIF

  为了选出检验高考语文作文题是否存在DIF的最佳方法,我们从不同参数类型和匹配变量类型中,各选取1~2种较为常用的方法,通过模拟研究,来比较哪种方法能更灵敏、更精确地检测出类似高考作文分数的数据中的DIF。具体来说,我们选取了以下4DIF检验的方法:P-MH[3]P-STND[4]P-SIBTEST[5]和基于PCMConquest内置)的DIF检验方法[6]

  在模拟研究中,除了这4种方法外,还有2个重要的控制条件。一是DIF的大小。由于不知道高考作文题是否存在DIFDIF的效应值多大,我们设定了3种情况,即很小(可忽略,效应值为0.1)、中等大小(效应值为0.5)和严重DIF(效应值为0.8)。第二个控制条件是试题的评分等级数。高考作文题虽然理论上有61个等级,但在实际测试中,并非所有等级都会被经常使用。没有使用到或很少被使用的分数等级往往会被合并。因此,我们在模拟研究中也设置了3种不同的分数等级:100~9分)、210~20分)和410~40分)。这样,结果对于其他10~20级评分的开放题也有借鉴意义。综上,模拟研究采用了4×3×3的完全随机设计(即4DIF检验方法、3DIF大小、3种分数等级)。

  模拟过程如下:

  1)参考高考试题的难度分布,固定20个项目的难度参数。

  2)将其中1题设为作文题,分别加上0.10.50.8DIF

  3)随机生成16524个被试的能力参数(同实证数据的样本量),随机将1/3的被试分为目标组(农村),2/3为参照组(城市)。

  4)根据被试能力、组别和项目难度,生成作答数据。

  5)采用倾向性匹配法,根据“作文题”以外的19道题的得分情况,将两组被试进行匹配。

  6)随机抽样。当样本量太大时,任何微小的差异都会被检测出来,从而放大“I类错误”的概率。因此,样本量并非越大越好。根据董圣鸿等人的模拟研究[7]SIBTEST方法的样本量在1000~2000时,就能得到很好的DIF检出效果。因此,本研究对能力匹配后的5718对样本进行随机抽样,最后得到1000对样本(城乡被试各1000人)。

  7 分别采用P-MHP-STNDP-SIBTESTConquest内置DIF检验方法,对随机抽样得到的作答数据进行DIF检验,记录每一次运算的结果。

  8)在每种条件下(4×3×3,共36种),重复试验100次。

  在得到对模拟数据的DIF检验结果后,我们依据该方法犯“I类错误”概率和统计检验力来比较4种方法的优劣。所谓“I类错误”,就是指把一些没有DIF的项目错误地检测为存在DIF的情况。如果某种DIF检测方法犯“I类错误”的概率较高,那么这种方法会把某些高质量的、没有DIF的项目误判为存在DIF,对DIF真正原因的检测带来很大的困扰。统计检验力则是指某种方法正确检验出实际存在DIF的能力。

  在模拟研究中,我们主要采用统计软件R和项目反应模型软件ConQuest来进行数据分析。其中,使用P-MHP-STND方法时,采用了R语言的自编程序;使用P-SIBTEST方法时,采用了R语言中的mirt包;使用基于PCM的方法时,采用了ConQuest软件。

  三、模拟研究结果分析

  模拟研究的结果见表3~5。表3展示了当DIF很小,在统计上可以忽略不计时,4种方法犯“I类错误”的概率。P-STND和基于PCM的方法表现较好,没有出现“I类错误”。P-SIBTEST最差,“I类错误”率在处理41级计分时高达98%P-MHP-SIBTEST出现“I类错误”概率较高的原因可能是χ2统计量对样本量变化敏感,当样本容量较大时,微小的差异都会造成显著的检验结果。

  3 DIF 可忽略时(DIF=0.1),4种方法犯“I类错误”的概率

检测方法

犯“I类错误”的概率

10等级

21等级

41等级

P-MH

0.71

0.36

1.00

P-STND  

0.00

0.00

0.00

P-SIBTEST  

0.96

0.97

0.98

基于PCM的方法

0.00

0.00

0.00

  4显示了DIF为中等大小时,4种不同方的统计检验力。可以发现PCM的方法在处10级、21级和41级计分的项目中都表现最佳。

  P-STND在处1021级计分的项目时也达到了100%的检出率,但在处41级计分的项目时,出率略低于基PCM的方法。P-MH方法则在处理10级计分项目时稍显不

  表4 存在中等DIF时(DIF=0.5),4种方法的统计检验力

检测方法

统计检验力

10等级

21等级

41等级

P-MH

0.85

1.00

1.00

P-STND

1.00

1.00

0.97

P-SIBTEST

0.96

0.97

0.99

基于PCM的方法

1.00

1.00

1.00

  从表5我们可以看出,当DIF较大时,基于PCM的方法再次显示了最强的统计检验力。P-STND在这种情况下,和基于PCM的方法不相上下。另两种方法尽管都有所提高,但仍然低于P-STND和基于PCM的方法。

  表5 存在较大DIF时(DIF=0.8),4种方法的统计检验力

检测方法

统计检验力

10等级

21等级

41等级

P-MH

0.95

1.00

1.00

P-STND

1.00

1.00

1.00

P-SIBTEST

0.97

0.97

0.99

基于PCM的方法

1.00

1.00

1.00

  由此可见,基于PCM的方法在各种情况下都最为灵敏和准确。这种方法对DIF参数的估算与我们设定的值十分接近(如表6)。经过100次重复模拟,当项目为10级计分时,这种方法对DIF指数的估值是0.1051,标准误为0.0081,与设定值的差异在统计上不显著。从全表来看,当真实的DIF值(设定值)较小时,这种方法倾向于高估DIF指数,计分等级越多,高估倾向越明显。当真实的DIF值(设定值)较大时,这种方法倾向于低估DIF指数,计分等级越多,低估倾向越明显。但估计值与真实值的差异都不显著。由于基于PCM的方法犯“I类错误”的概率更小,统计检验力更高,估计较为精准,因此是检测高考作文题是否存在DIF的首选。

  表6 不同条件下基于PCM的方法对DIF大小的估算结果

等级数

真实DIF大小

0.1

0.5

0.8

10等级

0.1051

0.483

0.7742

(0.0081)

(0.0217)

(0.0129)

21等级

0.111

0.4904

0.7726

(0.0089)

(0.0111)

(0.0144)

41等级

0.1128

0.4855

0.7665

(0.0081)

(0.0105)

(0.0142)

  注:括号中的数据为标准误。

  四、实证研究分析

  模拟实验表明基于PCM的方法在前述4种方法中最适合用来检验高考作文题是否存在DIF。因此,我们用这种方法对2015年高考语文作文题进行了分析。从东北部某省的考生中随机抽取16524个样本(该省总样本量的5%),其中城市学生5718名,农村学生10806名。初步的统计描述结果显示,城市学生平均作文成绩为40.44分,农村学生平均作文成绩为39.95分。尽管两组学生成绩差异的t检验显著,但实际效应值非常小,仅为0.114

  随后,使用2015年语文试卷中的12道开放题作为锚题,对考生进行能力匹配。运用ConQuest内置的程序进行运算。结果显示,12道开放题加1道作文题(共13题)的总体信度为0.66[3]。试题与分步计分模型(PCM模型)的拟合良好。DIF指数为0.012,也就是说作文题对城镇学生比对农村学生难度差异为0.012,这一差异非常微小,实际的效应值低于Paek指出的临界值0.426,因此可以忽略。因此,2015年高考语文作文试题不存在显著的城乡差异。

  五、研究结果与讨论

  公平是高考的基本要求,确保试题对不同群体考生公平是高考命题和题库建设十分重要的环节。DIF分析可以为试题的公平性提供实证依据。在本研究中,通过模拟实验对现有的DIF检验方法进行了甄选,并尝试运用选出的最佳方法分析实证数据。

  本实证研究还存在一些局限性:一是对学生城乡背景的划分基于户籍。随着我国城镇化的飞速发展、人口向县城集中等因素,用学生实际生活所在地来划分会更加科学。二是在上面的分析中,只关注了城乡DIF,而性别DIF、民族DIF等也是保证试题公平性不可忽视的部分。统计方法为检验DIF提供了手段,未来还需要对存在DIF的试题进行深入的质性分析,寻找造成DIF的可能原因。只有在命题中避免了这些因素,命题质量才能不断提高。

  参考文献

  [1] HOLLAND P W, WAINER H. Differential item functioning [M]. Hillsdale, NJ: Erlbaum, 1993.

  [2] POTENZA M T, DORANS N J. DIF assessment for polytomously scored items: A framework for classification and evaluation [J]. Applied Psychological Measurement, 1995, 191: 23-37.

  [3] MANTEL N, HAENSZEL W. Statistical aspects of the analysis of data from retrospective studies of disease [J]. Journal of the National Cancer Institute, 1959, 224: 719-748.

  [4] MANTEL N. Chi- square tests with one degree of freedom; extensions of the Mantel-Haenszel procedure [J]. Journal of the American Statistical Association, 1963, 58303: 690-700.

  [5] DORANS N J, KULICK E. Demonstrating the utility of the standardization approach to assessing unexpected differential item performance on the Scholastic Aptitude Test [J]. Journal of educational measurement, 1986, 234: 355-368.

  [6] SHEALY R, STOUT W. A model- based standardization approach that separates true bias/DIF from group ability differences and detects test bias/DIF as well as item bias/DIF [J]. Psychometrika, 1993, 582:159-194.

  [7] 董圣鸿,马世晔.三种常用dif检测方法的比较研究[J].心理学探新,2001,21 (1):43-48.


  [1] 有一些方法会多次循环,排除所有有DIF的试题,用DIF-free的试题作为匹配变量。

  [2] 不含默写式的填空题。

  [3] 信度不太高的主要原因可能有两个方面,一是题量较少,二是开放题和作文题都受评分员的较大影响。