精品精品国产高清a毛片色_heyzo色综合中文字幕无码_精品国自拍第一页_东京热91_老牛影视国产精品

010-62118953/62168438(辦公時間:周一至周五:9:00-11:30、13:30-17:00; 周六(考試日):8:00-12:00)

mets@mets.org.cn

微信公眾號

logo

行業(yè)新聞

考試通知:[9-19] 2024年下半年醫(yī)學英語水平考試紙筆考試報名

行業(yè)新聞

席小明:中國教育考試的前景與發(fā)展途徑

4602 2021.02.08
  • 編者按

“十四五”時期是我國加快推進教育現(xiàn)代化、建設高質量教育體系和教育強國的重要階段,也是教育考試事業(yè)深化新時代教育評價改革、建設中國特色現(xiàn)代教育考試制度、提升國家教育考試治理體系和治理能力現(xiàn)代化的關鍵時期。為深入探討“十四五”時期我國教育考試事業(yè)的發(fā)展方向和實現(xiàn)路徑,本刊邀請專家圍繞教育考試事業(yè)發(fā)展愿景展開筆談,希冀能為教育考試在“十四五”時期高質量發(fā)展提供有益參考。


  • 作者

席小明,VIPKIDS International首席測評和學習產品官,美國教育考試服務中心新產品研究開發(fā)部原執(zhí)行總監(jiān)。


  • 摘要

中國教育考試在“十四五”期間應在研發(fā)不同用途的教育測評、將學習軌跡追蹤和高風險考試相結合、拓展人工智能技術的應用3個方面著力。為推動中國測試品牌走向世界,應注重培養(yǎng)跨學科復合型測試人才,積極鼓勵和扶持民間測試機構參與發(fā)展測試行業(yè),制定適合中國國情的測試標準。


  • 關鍵詞

教育考試;高風險考試;過程評價;測試機構;測試標準;測試人才


  • 正文



一、中國教育考試的發(fā)展方向


1.1 研發(fā)不同用途的測評

  目前,中國大規(guī)模、高風險的終結性教育評價比較普遍,比如中考、高考、研究生考試等。2020年推出的《深化新時代教育評價改革總體方案》提出“改進結果評價,強化過程評價,探索增值評價,健全綜合評價”。這一要求表明,中國的教育評價改革在繼續(xù)提高終結性評價質量的基礎上,還要對過程評價、增值評價和綜合評價給予更多的重視。現(xiàn)階段中國低風險的過程評價主要由授課教師開發(fā)、實施和使用,對那些與教學大綱結合相對緊密的科目來說,在教學環(huán)境中使用教師自己開發(fā)的測評非??扇?,但需要注意的是,開發(fā)測評的教師要具備一定的測評知識和較高的專業(yè)素養(yǎng),這樣才能有效地使用過程評價的結果反饋來指導教學。對一些能力測試而言,如語言能力和軟技能等,由教師和第三方專業(yè)測評公司合作開發(fā)過程評價,進而推廣使用,也不失為一條有效的路徑。這樣既可以利用授課教師的學科專業(yè)素養(yǎng)及對學生比較了解的優(yōu)勢,也可以依托測評公司的測試專業(yè)化推出更加有效的過程評價。


1.2 將學習軌跡追蹤和高風險考試相結合

  隨著科技在電子教育學習產品中越來越廣泛的使用,在學習過程中追蹤學生的知識拓展和能力提高成為可能。關于在學習中嵌入測評是否能取代高風險考試的問題,測評領域有2種不同的觀點:一種觀點認為,學習和測試的邊界將越來越模糊,直至電子學習產品中嵌入的由人工智能輔助或驅動的測評可以不斷地提供積累疊加的證據,并完全取代標準化高風險考試[1];另一種觀點認為,高風險考試和形成性評價目的不同,考試內容和形式存在一定差異,因此二者不能混為一談,有必要并存[2]。

  學習軌跡的追蹤與高風險考試有如下區(qū)別:第一,學習軌跡的追蹤在提取信息的公平性和可比性方面面臨挑戰(zhàn)。高風險考試具備標準化考試的優(yōu)勢,即對所有考生而言,考試內容相同或類似,考試形式、過程都有嚴格的質量控制,從而保證考試結果的效度、信度、公平性,以及基于考試成績的高風險決策的公平性。第二,學習和測試的目的不同,學生使用的策略也不同。學習過程中,教師會鼓勵學生冒險、試錯、探索不同的解題途徑;而參加高風險考試,學生的首要目的是在規(guī)定的考試時間內最大程度地展現(xiàn)自身的知識和能力,以取得最好的成績[2]。第三,學習過程中的測評和高風險考試所考查的知識和技能的側重點不同,顆粒度或稱細分度通常也不同。在標準化考試中,由于考試的時間長度和可行性的限制,以及基于信度、效度和考試公平性等方面的考慮,往往不會考查太細分的知識和技能,而且有些技能也難以用標準化的形式測評;學習過程中的測評則可以側重比較細分的知識點和技能,以及比較難測的技能,如團隊合作精神和創(chuàng)造性思維等。如果學習過程的測評和高風險考試所使用的知識能力框架結構不同,二者不能聯(lián)系起來,那么把這2類測評信息結合起來使用的難度就非常大。

  盡管存在上述挑戰(zhàn),學習過程中的測評如果按照相對標準的知識能力框架嚴格精心地設計,就可以具備標準化考試無法提供的優(yōu)勢。Randy Bennett認為學習中的測評有2類:第一類是隨意的、連續(xù)的、與某個特定的教學大綱完全吻合的測評,第二類是嚴格設計的、在規(guī)定頻率下使用的、與特定教學大綱不完全吻合的測評[2]。筆者認為:第一類測評可以用在特定的教學環(huán)境中,為教學和學習提供反饋信息,除考查傳統(tǒng)的知識技能外,還可以考查解題思路、創(chuàng)造性思維、參與程度和團隊合作精神等。這類測評還可以描畫出學生的學習習慣和耐力,以及基于特定教學大綱的進步軌跡。第二類測評則有可能與高風險考試結合使用,動態(tài)追蹤學生的進步軌跡,以及預測學生未來的發(fā)展?jié)撃?。但是,使用第二類測評,要解決的首要問題是為各個科目建立統(tǒng)一的知識能力框架,包括粗放的以及細分的知識能力,并闡述它們之間的關系和發(fā)展軌跡,從而對學習過程中的測評和標準化考試起到指導作用,如中國英語能力等級量表(China’s Standards of English Language Ability)[3]和歐洲共同語言框架(Common European Framework of Reference for Languages: Learning, Teaching, Assessment)[4]都對不同級別的語言能力水平進行了框架性的描述,可以用來指導語言水平考試的設計和開發(fā)。基于能力水平框架開發(fā)的更細分的知識能力描述可以幫助我們設計更好的學習過程測評。其次,要加強對學習軌跡的描述和發(fā)展?jié)摿Φ念A測的信度、效度及公平性研究,建立適合學習軌跡的理論框架。此外,還要開展學習環(huán)境、學生背景和成長軌跡之間關系的研究,由此才可以對學生進步的軌跡和發(fā)展?jié)撃苡懈鼫蚀_的詮釋。

  學習軌跡追蹤和高風險考試相結合,可以從學習過程中的測評和標準化考試中提取不同類別的證據,學習過程中的測評側重測量學生的動態(tài)成長和發(fā)展?jié)撃?,而標準化考試則主要考查學生在某一特定階段的整體水平。近年來,中國的互聯(lián)網技術、人工智能技術、數(shù)字化教學和學習的發(fā)展迅速,為學習過程中的測評提供了可能。運用電子檔案追蹤學生的學習軌跡[5],并研究如何與一次性考試相結合,不僅能測試學生在某一個時間點的水平,而且能描畫出學生的學習習慣和耐力、進步軌跡及進步空間。在作高風險決定時,綜合考慮學習過程中的測評信息和標準化考試成績將會日漸成為測試界具有變革意義的共識,具體而言,就是以標準化考試提供的信息為主,以學習過程測評為輔,在學生標準化考試成績未達到但接近規(guī)定分數(shù)線時,可以適當考慮學習過程測評中所反映出來的學生發(fā)展?jié)摿?,從而作出相對合理靈活的決定。


1.3 拓展人工智能技術的應用

  人工智能技術在教育考試中的應用由來已久,特別是在自動評分領域的應用最為廣泛,如作文、口語及數(shù)學考試中都有很多使用自動評分系統(tǒng)的例子;但是,目前最好的作文自動評分系統(tǒng)也只是用語法、詞匯、拼寫及簡單的篇章分析來預測人工評分[5],口語自動評分則基于發(fā)音、流利程度、詞匯、語法等比較淺層的分析。現(xiàn)階段用人工智能技術評閱作文和口語的篇章結構、內容和連貫性的挑戰(zhàn)相當大[6];自動批閱其他科目(如科學)的答題內容,人工智能技術還停留在簡單地核查陳述的正確性層面,復雜內容的自動分析技術還非常落后。

  人工智能在測量模型領域也應用已久,如IRT測量模型最初應用在自適應考試中,然后被應用于自適應學習系統(tǒng)中。在命題方面,人工智能技術普遍應用在數(shù)學測試和語言的低級技能(如詞匯、語法等)測試中,而對一些較復雜的題型目前還沒有成熟到可以支持自動命題。研究者普遍認為,在語言測試領域,可以有所突破的一個方面是使用人機交互系統(tǒng)支持考生和機器對話。人機交互系統(tǒng)在口語測試中的使用已有很多研究[7],但目前都還不夠成熟,不能運用到大規(guī)模標準化測試中,這是未來口語聽力能力測試的一個重要發(fā)展方向。

  在追蹤測試中,人工智能技術在學生的應試行為及提供測試結果反饋方面的應用還不太多,主要原因是自動反饋技術還不夠成熟。在過程分析方面,使用鍵盤監(jiān)控(keystroke logging)技術,可以通過即時記錄、回放學生寫作文的過程,包括打字速度、句子編輯、段落編輯和停頓等來分析或猜測學生的寫作策略[8];但是,有一些寫作策略的分析還只是停留在猜測層面,需要在學生寫完后用訪談或其他形式進一步證實。在結果反饋方面,作文及限制性口語的自動反饋技術發(fā)展的時間較長,也相對比較成熟[5, 9-11]。但是,針對口語各個維度的分析及開放式口語的反饋方面,目前的技術還不夠成熟,尤其是在開放式口語中找出發(fā)音、語法和用詞錯誤等方面還面臨很大挑戰(zhàn);此外,在分析作文和口語的篇章結構、語用和連貫性并提供有用的反饋等方面,人工智能技術的局限性更大[5-6, 11]。對這些技術的完善將是人工智能反饋技術的發(fā)展方向。


二、測試行業(yè)的發(fā)展趨勢


      從科舉考試開始,考試在中國教育的發(fā)展中一直發(fā)揮著重要作用,可以說考試是教學的風向標。為了培養(yǎng)面向21世紀的人才,提高中國人才的全球競爭力,從考試改革入手帶動教育其他方面的變革是一個很好的切入點。筆者認為,建立專業(yè)的國際測試品牌是提高中國教育產業(yè)國際競爭力的一條必經之路。為建立國際測試品牌,應該鼓勵設立民間測試機構,成立民間測試機構的會員聯(lián)盟,以及制定業(yè)內共同遵守的測試行為準則。


2.1 鼓勵設立民間測試機構

  目前中國大型教育類考試基本由教育部所屬機構及各地教育考試院設計、開發(fā)及實施。第三方考試多與國際教育相關,如SAT、ACT、TOEFL、IELTS等出國留學考試,也有一些服務于中國本土用途的考試,如劍橋少兒英語考試、ETS HEIghten批判性思維能力考試等,這些考試都是由國際知名測試機構,如美國大學理事會(College Board)、美國ACT公司、美國教育考試服務中心(Educational Testing Service)、劍橋大學考試委員會(Cambridge Assessment)及英國文化教育協(xié)會(British Council)等開發(fā)的。除官方及國際測試機構外,目前中國還沒有具有影響力的民間測試機構和測試品牌,這與中國教育考試長期由政府主導推行的傳統(tǒng)密切相關,也與國內專業(yè)測試人員的儲備不足相關。相比之下,國際知名測試機構吸納了來自世界各地的尖端人才,人員專業(yè)素質普遍較高。通過建立民間測試機構招募全世界教育測試人才,不僅可以滿足中國國內考試需求,而且可以把測評推向海外,建立國際品牌;官方考試機構也可以更積極地招募一些國際專家,利用國際團隊補充目前國內人才建設和儲備的短板,不斷提高本土測試人員的專業(yè)水平和國際視野。官方考試機構可以集中力量承辦公立學校的中考、高考、研究生考試等與國家教育政策緊密相關的考試,對私立學校、民辦學校和一些教育機構使用的考試、社會化考試及低風險測評則可以放開,鼓勵民間測試機構參與良性競爭,以促進測試行業(yè)的發(fā)展。

  目前,民間測試機構或技術公司給政府提供的服務大多集中在技術平臺的設計、承建、維護及人工智能技術的支持等領域。隨著民間測試機構的發(fā)展,政府可以加強與其在考試設計、命題、評分和數(shù)據分析等方面的合作;同時,通過對其服務進行監(jiān)控以保證考試質量。在海外,政府和教育部門主要采取公開競標的方式選擇第三方測試公司的服務,政府和教育部門所屬專業(yè)測試人員的主要任務是制定標準、明確服務范疇、提供詳細的說明,并指導驗收工作。這樣既可以鼓勵行業(yè)競爭,也可以高效低成本地使用第三方公司的專業(yè)人員,通過項目監(jiān)管驗收保證考試質量。


2.2 成立民間測試機構的會員聯(lián)盟

  鼓勵民間測試機構發(fā)展可以促進測試領域的發(fā)展和繁榮,但如果沒有監(jiān)管就可能造成魚龍混雜的狀態(tài)。很多測試都具有高風險性,如果不能保證質量,就會影響考生的升學、就業(yè)乃至升職,損害他們的利益。尤其需要指出的是,目前大多數(shù)分數(shù)使用用戶和教師的評價素養(yǎng)偏低,對測試使用的信度和效度要求以及反撥作用了解不夠。在這種情況下,如果沒有行業(yè)規(guī)范,則可能造成質量差的測評充斥市場,或導致對測評的濫用。

  成立民間測試機構的會員聯(lián)盟,對測試行業(yè)進行一定的監(jiān)管可以起到規(guī)范行業(yè)行為的作用。會員聯(lián)盟可以是一個相對靈活的組織,由專業(yè)人員對入會機構的從業(yè)人員資質進行審核,以保證人員配備的專業(yè)化達到一定標準。這些加入會員的機構也應該在測試設計、開發(fā)及使用時自覺地遵循國際通用測試行業(yè)標準(如美國《教育與心理測量標準》[12]),并通力合作開發(fā)適合中國國情的測試標準以供成員機構遵循[13]。


三、測試人才培養(yǎng)


      中國教育測評領域的發(fā)展離不開人才,為此需要花大力氣培養(yǎng)專業(yè)的測試人才。


3.1 開設實踐性測試研究方向的碩士生培養(yǎng)項目

  目前,中國高校開設教育測評研究方向的研究生項目不僅數(shù)量少,而且偏重理論研究。根據語言測試領域的專家調研,中國高校語言測試研究生項目中有關命題實踐和測試社會影響力等方面的課程設置非常少[14]。一方面,通過研究生項目培養(yǎng)的測試及統(tǒng)計專業(yè)人才偏重理論、方法論和研究,對考試實踐知之甚少,如考試框架設計和命題,評分標準設計及驗證,針對不同用途考試的分數(shù)標尺如何設立,各種分數(shù)計算模型如何構建,整套試卷的綜合難度和區(qū)分度如何控制,單個試題質量如何分析,等等;另一方面,教育考試機構聘請的命題和考后評卷人員以教師為主,這些教師很少有人接受過專業(yè)的測試理論和技術培訓。這2方面因素導致中國測試領域人才緊缺。為此,筆者建議高校的測試學碩士生培養(yǎng)應側重于學科的實踐性,重點開設測試學研究方向,設置考試設計、考試命題、評分標準設計及驗證、考試測量模型、考試數(shù)據分析、考務管理及人工智能技術評估等相對實用的課程,從而幫助考試機構培養(yǎng)和儲備專業(yè)測試人才,助力中國的測試行業(yè)實現(xiàn)科學化、專業(yè)化,增強國際競爭力。博士生培養(yǎng)項目可以注重于理論研究,以保證測試領域基礎學科的長期發(fā)展。此外,建議在博士生和碩士生培養(yǎng)項目中設置測試社會責任學[9]、測試與教育改革等課程,這樣可以影響并鼓勵測試人員跳出技術與內容的舒適圈,依托其專業(yè)背景,積極參與教育改革和教育政策的制定,推動測試公平合理的使用,增加測試專業(yè)人員在重大教育決策中的話語權。


3.2 培養(yǎng)跨學科測試復合型人才

  由于受到科技及交叉學科的深度影響,測試行業(yè)需要大力培養(yǎng)教育、科技、認知科學和腦神經科學等領域的復合型人才,以保證科技及其他影響教育的行業(yè)對教育的推動作用實現(xiàn)最大化。舉例說明,目前全球通曉測試和人工智能的復合型人才非常稀缺,如果懂測試的人員缺乏人工智能技術知識,就不利于其與人工智能技術專家的深度合作,并妨礙其對技術的使用作出正確判斷;反之,人工智能技術專業(yè)人才如果不具備教育測試背景知識,就不能抓住教育測試領域人工智能運用的需求和痛點,人工智能技術就不能被合理運用于測試領域。高深晦澀的人工智能領域有可能讓教育領域用戶對人工智能望而卻步,也有可能不加批判地全盤接受。由計算機/電子工程系和教育系聯(lián)合培養(yǎng)教育領域人工智能綜合性人才,不僅能保證教育人工智能技術的飛速發(fā)展,而且有利于人工智能公司和用戶之間進行更加良性、積極、有效的溝通,鼓勵用戶合理地使用人工智能教育測試產品。因此,加強跨學科測試復合型人才的培養(yǎng)已成為當務之急。此外,在跨學科測試復合型人才尚未培養(yǎng)出來之前,可以全職或兼職聘請教育測試人工智能領域既有理論背景又有深厚實踐經驗的國際知名專家,這樣也可以快速提升中國教育測試領域的整體實力。


四、結束語


      建設高質量教育體系是中國未來5年對教育提出的要求,教育考試作為高質量教育體系的重要組成部分,也應在提高質量上下功夫。我們要把握住教育測試的未來發(fā)展趨勢,注重培養(yǎng)跨學科復合型測試人才,積極鼓勵和扶持民間測試機構參與發(fā)展測試行業(yè),建立具有國際競爭力的測試品牌,推動中國的測試走向世界。


——摘自《中國考試2021年第1期》