科研简报
提升我国高考科学化和专业化水平——来自美国ACT考试的经验和启示
编辑:王建 发布时间:2016-04-12
摘要:

美国ACT(American College Test)考试,素有美国“高考”之称,是美国使用最为广泛、研究最为深入的大学入学考试,至今已有50多年的历史。ACT考试属于学业成就测验,是以中学所学课程内容为基础、侧重于对中学所学内容掌握程度的测试,与我国高考内容比较接近。探讨ACT考试评价体系的研制过程与方法,借鉴其促进考试科学性和公平性的有效经验,对提升我国高考专业化水平具有很好的启迪意义。

20149月,国务院颁布《关于深化考试招生制度改革的实施意见》(以下简称《实施意见》),提出了深化高考考试内容改革的一系列要求:“依据高校人才选拔要求和国家课程标准,科学设计命题内容,增强基础性、综合性,着重考查学生独立思考和运用所学知识分析问题、解决问题的能力。改进评分方式,加强评卷管理,完善成绩报告。加强国家教育**、国家题库和外语能力测评体系建设。”同时启动了高考综合改革试点。美国ACTAmerican College Test考试,素有美国“高考”之称,是美国使用最为广泛、研究最为深入的大学入学考试,至今已有50多年的历史。ACT考试属于学业成就测验,是以中学所学课程内容为基础、侧重于对中学所学内容掌握程度的测试,与我国高考内容比较接近。探讨ACT考试评价体系的研制过程与方法,借鉴其促进考试科学性和公平性的有效经验,对提升我国高考专业化水平具有很好的启迪意义。

一、ACT考试评价运作的科学化程序

美国ACT教育集团成立于1959年,是一个在教育和职业发展领域提供测评、研究、信息以及项目管理服务的独立的非营利性机构,现有雇员超过1500人。1959年秋季举办第一次ACT考试,当时有75,460人参加,2015年美国国内有超过190万高中生参加ACT考试,约占当年全美高中毕业生总数的59%,美国50个州和首都哥伦比亚特区4,300多所学院和大学都认可并接受其考试成绩,将其作为招生录取的重要标准。同时,ACT还为大学招生单位和考生提供关于学业指导、专业和职业选择、大学课程安排、奖学金授予等方面的有效信息。ACT考试作为以课程为基础、测量学生升入大学所必需具备的学术能力的标准化考试,之所以成为衡量学生学术能力的客观标尺,关键在于其采用专业化标准和科学化程序开展研制工作,通过了严格的设计、审核、试测、分析、预测、校准、评估等核心步骤,确保了测量的可靠性和有效性。

1.考试设计理念和运作程序

ACT考试的核心是测查学生是否为修读大学学业做好了知识与技能方面的准备College Readiness。所谓“大学准备”是指一个学生升入大学并取得成功,即不需要补习而在中等后教育课程第一年学习中获得学分所必需具备的学业成就水平,而这一水平是由大学准备标准College Readiness Standards和准备基准College Readiness Benchmark共同决定的。其中,大学准备标准描述了学生升入大学所必需掌握的核心技能和知识,大学准备基准是基于全国性样本进行评估后获得的分数线,意味着一个学生的成绩在此基准之上会有较大可能地完成中等后教育。ACT通过一套科学的评估框架和运作程序,确保测量评价的准确性和可靠性,包括全国课程调查以及经常的外部标准审核、证据基础、持续研究和监测评估,不断提高测试内容效度和预测效度(参见图1)。

 

测试是否检测到所要测查的内容

测试准确地预测到了学术表现

 

  

全国课程调查

预测效度

内容效度

 

 

大学课程学习表现

标准审核

测试蓝图

 

 

测试分数/结果

 

 

大学准备标准

大学准备基准

 

 

 


    学生和高中

告诉我知道什么和成功要做什么

中等后教育

告诉我知道学习什么和将怎样导向成功

 

                      1 ACT考试评价的框架与运作程序

 

2.考试内容与结构

    ACT考试由四个部分构成:(1)旨在测量考生书面英语理解与分析能力的英语测试;(2)旨在测量考生定量推理能力的数学测试;(3)旨在测量考生理解、分析、推理和解决问题能力的阅读测试,阅读测试的内容涵盖自然科学、社会科以及文学和艺术;(4)旨在测量考生运用图表、表格和研究总结等方式解释、分析、评估、推理和解决问题能力的科学测试。还有非必选的40分钟的英语写作,属于给材料的作文,测试学生的英语写作能力。全套ACT考试,共计215道题,其中英语测试有75题,数学测试60题,阅读测试40题,科学测试40题,考试时限为175分钟。在美国本土、领地、波多黎各和加拿大一年有6次考试,其他地方有5次国际考试。

3.课程调查

    为了选择出特定的知识与技能用于评价,ACT重点调查研究三方面的资源:一是研究各州公布的课程框架,以了解712年级的教学目标与教学内容;二是审阅各州批准的712年级各科教材目录,以了解中学的教材内容;三是进行全国课程调查。ACT35年开展一次全国课程调查,询问教师在课程中都教给(或没教给)学生哪些知识和技能,以及他们认为在当前或未来课程学习中对学生取得学业成功最重要的学科主题。调查还询问教育工作者当前关心的教育话题,如对学生的大学学术准备或ACT大学准备标准、2010年颁布的具有全国统一性质的课程标准“共同核心州立标准”的实施意见。

最近的一次调查是在2012年进行的,样本来自全美公立和私立的小学、初中、高中和大学,包括教授英语/写作、数学、阅读、科学的9,937名教师。调查发现:(1)高中教师感觉的高中毕业生大学学术准备情况和大学教师感觉的大学一年级学生的准备情况存在较大的差距,说明基础教育和中等后教育体系之间的课程缺乏衔接和连贯性;(2)许多课堂需要更好或更有保障地使用计算机,使学生更有效地适应大学或职业准备标准要求和新的评价方法;(3)州、地方和学校执行“共同核心州立标准”的努力程度存在差异,说明还没有足够的教师准备在课程和课堂上进行必要的变革。通过调查,ACT形成并继续推动以下发展议程:(1)在ACT大学准备标准和“共同核心州立标准”之间建立清晰的联系;(2)尽可能地利用新技术,提供更有意义的结果报告;(3)在题库中把科学作为关键内容领域;(4)注重以证据为中心的设计,通过研究来验证ACT考试对大学入学准备的反应和对大学学业水平的预测效度。

4.试题编制

作为教育测评机构,ACT致力于所有测试在原理和准确度方面的公平性,支持和遵循“教育公平测试实践准则”(美国考试实践联合委员会,2004)和“教育测量专业责任准则”(全国教育测量委员会,1995。前者是为教育测试和数据开发、管理和使用者制定的准则,规定了以下四个领域的公平标准,包括开发和选择适当的测试、管理和评分、报告和解释测试结果并通知考生;后者要求测试开发人员研制和提供测评产品与服务,尽可能避免由于与测量结果无关的特性,如性别、民族、种族、社会经济地位、残疾、宗教信仰、年龄或国籍产生的偏见。这些准则贯穿于ACT整个试题研制过程中,从考试设计和规范到试题编写和审核、试测、题目选择和形式建构等各个环节。

   1)测试规范。测试规范是编制试题的蓝图,主要由两部分组成:一是由考试来测量的内容和技能认知水平的说明;二是试卷中考题统计特征的说明。为了让考试有效和公正,确保规范仅包括满足考试目的实际需要的知识和技能,并能够对学术准备较好和较弱的学生做出有效的区分。

   2)试题编写。招募并培训试题编写者,通过向题目编写者(作为内容专家,许多是很活跃的高中和大学任课教师)提供内容领域的具体指南,包括测试规范(如对公平的关注、准确的标准等)、内容和风格要求(如考题的内容和范围、考题类型、技能水平、期望的难度、字数、格式和语言)以及可接受的题目的案例,同时考虑试题编写者能够代表全美人口民族、性别和地理背景方面的多样性,确保编写出反映多种视角的试题。ACT工作人员则对这些考题的公正性、利益和年级水平的适当性以及语法的准确性及测量特征等遵循规范的情况进行全面审查,避免涉及对某些社会群体不熟悉,包含可能被认为冒犯或歧视任何群体的语言、角色、情境的内容。

   3)外部审核。由代表地理区域、民族和性别多样性的任课教师、大学教师、课程专业人员组成的外部内容专家组,以及反映民族、性别和地理背景多样性和对测试项目公正问题保持敏感的外部公正专家组共同审核试题的准确性、年级水平的适当性、教育的重要性以及对所有考生的公平性,ACT工作人员然后进一步修改每一个考题使之符合专家的反馈意见,以保证所研制的试题与大学准备标准的一致性及不存在偏向某一特殊群体的现象。

   4)试用和统计分析。通过公正、课程、年级水平适当性审核的考题在考试中作为不计分的部分进行试测,ACT工作人员对试用的每一个考题进行统计分析,看是否包含统计上的非常态现象,鉴定考题是否在技术上良好和难度水平适当,审查在统计上非常态的考题,确定是否修改准备下一次试用或删除。

   5)试题库。如果一个考题成功通过试用,它就能被放进试题库里备用,新试卷的考题从基于内容标准和统计特性的题库中选择,每张试卷应在多元文化和性别代表性上保持平衡,并有效地区分出不同表现水平的学生,被选出来的考题也要确保学生有足够的时间完成整场考试。

6)附加的外部审核。ACT工作人员将试卷作为一个整体审查内容准确性和风格,再请新一批外部内容与公正专家就是否存在攻击、公正描述、多样性和平衡、语言公正、基于课程的内容和技能、不公正的考试和考生压力等方面进行评审。根据专家的反馈意见,在管理使用之前对考试形式进行必要的修改。总之,ACT研发一套新试题需要两年或一年半的时间,每道考题出现在正式考卷之前至少经过16次的独立审查,确保每个学生的学业成就水平得到准确和公正的评价。

5.试题形式

    ACT考试普遍使用客观题,除作文题外,一律为多项选择,认为编制较好的多项选择题具有以下优势:(1)能够在较短的时间内考查较为宽泛的内容,具有效率优势;(2)能够实现多重目标,尽管非常适于考查记忆性的内容,但也能够较好地评价高层次的思考技能;(3)通过改进可以减少猜测,通常具有较高的信度和效度;(4)受考生的欢迎;(5)阅卷经济和时间成本低,同时也比较容易采用计算机考试的方式。考试包含的少量开放题open ended,如建构性试题constructed response,如作文)或表现性任务performance-based如科学实验),则要求有十分清晰的评分标准。

6.计分方法

ACT考试中的多项选题的成绩(英语、数学、阅读和科学)的原始分(答对的题目数量)转化为量表为1—36的标准分,总分是这四项标准分数的平均值(小数四舍五入),最低1分,最高36分,还同时报告英语的用法/结构和修辞技巧,数学的预备代数/初级代数、中级代数/解析几何、平面几何/三角函数,阅读的社会研究/自然科学、文学艺术七个方面的子分数,原始分转化为1—18分的标准分。如果一个学生参加了写作考试,将由两个训练有素的专家采用六点计分法独立评阅,基于学生表现出来的能力和判断的证据、提出和坚持问题的立场、组织和表达观点的逻辑、用标准书面英语清晰和有效表达的状况,并作为一个整体进行评价,每个阅卷者的评定分数范围为1—6分,两人评定分数合计为该学生写作考试的原始分数(2—12分),报告结果时转化为1—36的标准分并单独计分,同时报告观点与分析、发展与支持、组织、语言运用和惯用法等各个领域的分项分数。

ACT考试中的多项选择题阅卷采用电子扫描设备,最大限度地减少错误评分的可能性。如果一个学生认为评分有误,可以提出书面申请,进行人工评分;如果一个学生认为写作考试评分有误,可以提出申请,作文将被两位不了解初始分数的新专家评阅并重新赋分,新分数在最终确定前经过ACT工作人员写作专家的裁定才能生效。ACT保留取消考试成绩的权利,在考试管理过程中出现非正常情况,如伪造身份、**、同一考场考生答卷的非正常雷同或其他不准确反映考生教育成就的考试分数等,都有可能导致ACT取消考试成绩。

7.大学与职业准备标准和基准

ACT1997年开始开发大学与职业准备标准,即学生在考试中的得分范围代表着其可能知道和能够做什么的说明,从而用于大学入学和课程安排决策。在深入研究的基础上,ACT工作人员认为分值范围112131516192023242728323336能够较好地区分学生的学业水平,并从高中和大学英语、数学等专业邀请全国知名教师和研究人员提供独立、权威的评审意见,确定特定的分值范围是否准确地反映了学生可能已经掌握的知识和技能,并与下一步即将学习的内容建立起联系。这种评审通常每三到四年进行一次,并确保标准中所描述的知识和技能能够反映课堂教学内容。ACT也定期通过分析数据和相应的考题进行内部评估,确保标准反映每一个分值范围所测量的知识和技能,反映从最低分到最高分不断增加的复杂技能和理解的累积性进展,对标准的说明做出微调。      

大学和职业准备基准是学生修读大学学分课程并取得成功所要求的最低考试分数,是基于学生在大学学习中的实际表现通过实证研究得来的,样本充分考虑到大学课程和机构类型多样化2013年根据214所机构和23万多学生考试分析后,确定英语、阅读、数学和科学的基准分别为18分、22分、22分和23分,满足了基准的学生在相应大学课程学习中获得B或以上的机率大约为50%,获得C及以上的可能性为75%左右。2015年全美参加ACT考试的1,924,436名高中毕业班学生中,满足三项或四项ACT大学准备基准的学生比例达到40%,完全没有达到基准的比例为31%。大学准备基准能够让学生认识到他们高中毕业时是否具备升学所要求的技能基础,研究者和政策制定者还能够用来监测学校、地区和州教育进展,中学则可以用来检验学生升学准备情况,必要时及时采取干预措施,或者作为教育咨询或生涯规划的工具。

    8.评分量表和常模

    ACT常模是代表美国12年级开始参加考试、准备进入两年或四年制大学的12年级学生的考试分数。198810月,ACT开始对全国超过10万名高中学生进行学术技能研究,研制评分量表和提供代表全国的常模。每年报告的常模是基于最近三年的高中毕业班学生参加ACT考试成绩确定的,开发出累积性的百分位数。一位考生得分对应的百分位排名,代表分布中有多大比例的全国高中毕业的考生相同或低于此分数,从而可用以评估个人的相对优势和弱势。各种稳定性和效度研究表明ACT报告的分数的涵义及其在大学课程学习结果预测能力方面,显示出不同试卷和不同年度评分量表的一致性。

    9.等值方法

ACT每年研发新试卷,即使每套题都遵循相同的内容和统计规范,但题目在难度上还略微不同。为控制这些差异,即后来使用的试卷必须与以前的试卷是等值的,根据评定量表对考生报告的分数应具有相同的涵义,这样不同试卷和日期的考试是可以比较的。ACT从全国每年的六次考试中抽取一次考试的考生样本作为等值的样本,随机抽取每张试卷的考生超过2,000多人,以初始研制评分量表的试卷作为锚题(共同题),采用等百分位等值方法使在另一份考卷中获得的分数与评定量表等值。

    10.信度和效度

信度是测量分数和真分数一致性的估计,测量标准误差反映考试分数错误或不一致性的程度,两者密切相关。ACT开发的评分量表具有大体稳定的标准误差,如果用正态分布曲线来估计,大约2/3可能被误测考生的分数会少于1个标准差。面对参加多次考试即重考(ACT允许最多参加12次考试)的人数越来越多,2009年高中毕业前重考比例为41%2015年上升为45,数据显示拥有真实潜力的学生重考确实能够增加总分,如在2015年重考高中毕业生中,57%的学生总分在第二次考试中有所改善,但22%的下降,21%的没有变化。从这个意义上说,考试次数的增加倾向于能够提高平均总分,然而,深入分析发现增加的分数往往更多的是测量误差而不是实际学术能力的收益,在10次考试后就可能达到天花板。

    效度是体现测试结果解释的相关性、有用性和有价值的程度,主要包括内容效度和预测效度。ACT测验蓝图的设计和编制题目的程序,定期的全国课程调查和学科专家、心理测量人员和其他专业人员的审核,保障了ACT考试聚焦于高中和大学课程的内容效度。学生考试成绩和大学课程等级数据的长期追踪研究表明,ACT考试分数和高中的平均成绩点数GPA、大学成绩等级之间的统计关系显示了良好的预测效度,有助于预测谁能够在大学一年级甚至进入二年级取得学业成功(参见表1)。

1 ACT大学准备基准和大学一年级学业水平的关系

项目

英语

数学

阅读

科学

所有学科

满足基准

未满足基准

满足基准

未满足基准

满足基准

未满足基准

满足基准

未满足基准

满足基准

未满足基准

升入大学比例(%)

78

56

81

63

79

62

82

67

83

67

大学一年级课程获得B及以上等级的比例(%)

写作I66

写作II

63

写作I45

写作II

49

中级代数(62

大学代数(53

有限数学(46

微积分(52

中级代数(29

大学代数(31

有限数学(27

微积分(28

美国历史(63

心理学(64

美国历史(36

心理学(39

生物(64)

化学

(66)

生物(32)

化学

(39)

 

 

大学一年级GPA3.0及以上的比例(%)

51

28

61

35

54

33

62

39

67

39

 

    二、ACT考试评价对提升我国高考专业化水平的启示   

    ACT考试作为评价学生基础教育课程内容掌握程度和综合能力的标准化测试,设计和编制的科学化程度较高,试题难度和分数评定量表稳定,得到了多数大学的信任,其影响范围已不仅限于美国,正走向全球越来越多的国家ACT考试理念、设计、编制与实施方面的经验值得我们认真研究与借鉴。

    1.重新认识高考的功能定位,实现基础教育和高等教育的有效衔接

    ACT考试诞生于第二次世界大战后美国社会转型时期,大学面对申请注册人数的陡增而缺乏指导入学和课程设置的测试工具,以确保来自多样化教育和族群背景的学生取得成功。作为创始人的爱荷华大学教授E. F.林奎斯特在1959年阐明了ACT考试存在的目的和意义:不同于SAT考试(美国大学理事会1926年开始举办的学术能力评估测试)侧重考查学生的学术潜能,过于强调选拔和排斥功能,ACT考试则侧重考查学生为进入大学所做的学业准备情况,即判断学生进入大学学习所具备的知识和能力,并根据这种知识技能储备和职业兴趣来判断适合他们的大学和专业。ACT通过全国课程调查制定了大学准备标准,实现中学、大学课程内容框架的一致性,当然与高中课程的相关程度更高。虽然以中学所学课程内容为依据命题,但试卷中不会直接考查对所学知识的机械记忆或死记硬背,而是强调应用所学内容分析解决问题的能力。

《实施意见》提出深化高考内容改革,要依据高校人才选拔要求和国家课程标准,科学设计命题内容,增强基础性、综合性,着重考查学生独立思考和运用所学知识分析问题、解决问题的能力。首先,**作为考试工具的开发者和标准的执行者,了解高校的人才需求和高校课程内容的基本框架,并从考试的可操作性出发,联合高校形成国家课程标准之外的人才选拔标准或入学标准。其次,高考命题应当关照基础教育特性,制定与课程标准相匹配的学业成就评价标准,题目开发强调考查学生活学活用、分析问题与解决问题能力等在大学学习中所必备的核心能力。再次,实施综合性考试命题形式,随着高中学业水平制度的建立和完善,借鉴ACT将中学所学课程内容融合为语言、数学、阅读、科学四大部分的经验,从学科的整体高度出发,注重反映学科的知识结构体系,体现学科中各部分内容的联系和融合,增强高考考试内容的综合性。

    2.加快高考测试理论、技术和方法创新,提高高考科学化水平

    ACT考试设计和命题以先进的教育测量理论和方法为指导,如目前在教育测量领域被奉为圭臬的项目反应理论、计算机自适应考试等,通过全国课程调查确保考试所测量的知识与技能是授课教师们一致认可的内容,且这些知识与技能对于学生在大学相应内容领域学习获得成功是至关重要的。恪守教育测量的行业规范和专业伦理,并贯穿于从考试设计、试题编写和审核、试测、题目选择和形式建构等各个环节,每道试题都要经过内容专家和公正专家的严格审核,各科目考试的考核点、试题类型、覆盖面和比例等方面都进行明确的规定,确保不同考卷之间各类题材、体裁的合理分布与统一,确保所有各套试卷在总体难度上基本对等,成绩经过量表化和等值处理,使得各次考试得分之间具有可比性。在题型方面,客观题的使用非常普遍。除作文题外,一律为多项选择题,采用计算机阅卷,评分客观、迅速,成本效益高,同时也较容易采用计算机考试的方式。

    我国现行高考命题一直采取入闱命题的形式,即专家集中开会命制当年试题的会议任务型命题方式,这种考试命题组织形式相对封闭,容易出现内容的偏向性、不公平,也难以确保每次高考试题难度基本相当,实行多次考试存在等值性问题。提高我国高考的科学化程度,关键在于提高命题质量。一是完善高考命题质量保障体系。建立健全高考命题质量标准、规范和程序,扩大命题队伍,广泛招募命题教师,甚至通过网络开展社会征题,形成工作流程、试卷生成程序、学科命题手册、试题入库标准等规范,加快建设国家高考题库,保证最后生成的试卷在难度、区分度等方面的一致性。二是采用标准分计分法,研制评分量表,确保每一科目考试所测得的考生信息在分数转换前后守恒,并建立起分数与能力水平的对应认知;利用等值技术使同一测验或多次考试的不同套题之间考试结果具有可比性,并显示出不同试卷和不同年度评分量表的一致性。三是完善高考效度检验体系。现行高考命题质量评价主要由考试部门提供考后数据统计分析,其所提供的主要是试题的内部效度证据,应该增加服务对象,研究测试结果与考生中学学习、大学入学后成绩的一致性,将预测效度作为高考效度的重要指标。

    3.基于研究和数据支撑增强服务功能,加快教育**专业化建设

    ACT作为一个以帮助人们取得教育和工作场所成功为使命的非营利组织,拥有一支高水准的专业技术团队,包括测验方法的基础研究人员、每个具体测验项目的负责人及专家、政策研究人员,其中设有150余人的独立的研究与发展部门,将基于研究和证据基础上的逐步更新和功能增强作为持续改进的哲学,凭借其强大的项目研发和数据支撑基础,为学生实现从高中向大学过渡提供信息支持和解决方案,从考前、考中和考后提供全方位的服务,考前为考生提供考生手册、样题和练习资料,考中为残疾考生提供特殊服务和装置,为因家庭经济原因无力交纳考试费的考生减免考试费用等,考后为考生、家长和学校提供面向不同群体的数据分析报告和周到的延伸管理服务。

我国教育**大多为具有一定行政职能的事业单位,有少数属于国家行政部门,对考试本身的评价和系统研究、数据开发和证据积累以及由评价延伸的服务存在严重不足。编制大规模考试是一项高度专业化的工作,高考的研究基础、组织实施、信息服务、机构设置等问题需要逐渐完善,发展方向应该是由专业化的**或公司承担高考命题与组织工作。随着我国事业单位分类改革的推进,按照“考试和招生相对分离”的原则,教育**必须由管理型向研究、管理和服务型转变,在行政部门的监控下独自承担考试设计、考试实施、数据开发、信息服务甚至失误等责任,在理论研究、标准建设、技术发展、组织体系、队伍素质等方面加快专业化建设,不断提高高考命题质量、水平及其评价服务能力。


* 作者简介:王建,家教育发展研究中心战略研究室副主任北京大学中国教育财政科学研究所客座研究员