又鬧幺蛾子?揭秘:ETS究竟是什麼樣的存在?
昨天(6.10號)考試的寶寶你們心塞了嗎?
昨天,由於ETS的考試系統無法連接到美國的伺服器(後查明是普林斯頓市的一處伺服器故障),中國大陸多處托福考點無法拿到考題,考試被迫延遲。對於不願意延遲參加考試的同學,官網也給出了退費和免費重考的選擇。
消息一出,朋友圈、微博一片哀嚎和吐槽……但也有同學留言說太高興了,正好自己沒怎麼複習……咳咳,這位同學,我欣賞你的生活態度~
Anyway, 昨天考試的同學還是要留意後續的通知和安排,NEEA聯繫方式如下:
ETS這種幺蛾子也不是第一次鬧了,然鵝我們能怎樣,能怎樣……
縱使ETS虐我們千百遍,我們依然對它如初戀……
那麼這個讓我們又愛又恨的ETS究竟是怎麼樣的存在呢?讓我們一起看看拜訪過ETS總部的新東方老師們怎麼說吧:
ETS總部之旅
作為一名多年教授托福考試的老師而言,能夠去到美國ETS的總部學習培訓,就好比一個虔誠的信徒能夠去到聖城朝聖一般。4月,新東方來自全國的16位教學管理者滿懷期待,深入美帝,來到了ETS位於普林斯頓的老巢,一心想從這家全球考試巨無霸機構中獲取真經。
獲取真經(偷題?)你想太多了!新東方可是一個有底線、有節操的教育機構,是一個時刻把教學放在首位的、倍受業界尊重的教育企業。本次出訪真正的目的是為了參加為期一周的主題為「Development and Design of Large Scale Assessment」的培訓,是為了讓我們的教學團隊能夠更為深入細緻地去洞察考試的動機,也讓我的教學更加地有針對性,從而讓我們所培訓的學生能夠真正達到在美國生活和學習的語言能力要求。
整個培訓分別從心理測評、測試規範、測試設計及計分的有效性評估、測試內容公平性、測試分數範圍界定及等值化等諸多方面的內容進行了學習和討論。當然最值得大家關注仍然是關於ETS如何進行算分的話題。對此我將從以下幾個方面來為大家進行獨家揭秘。
1
ETS是全球統一閱卷么?
ETS在整個試卷的製作過程中,非常關注Fairness這樣一個核心要素。而公平原則其中非常重要的一個體現就是確保全球的做題結果都是由統一的閱卷人來進行批改。尤其是ETS將托福改革成iBT之後,更是加速了利用網路進行統一閱卷評分的進程。
2
閱卷評分人員都是ETS的官方人員么?
ETS管理著諸多考試項目,僅僅是托福項目在中國每年就有超過20萬人報考,這也意味著僅是從閱卷評分這個層面就需要投入大量的人力。但是從ETS總部有限的辦公區域來看,我們可以料想到它是不可能去配備那麼多官方人員來閱卷的。
關於這個問題,評分員能力系統項目的負責人Jennifer Geoghan女士也給出了明確的回答。ETS的評分員並非僅限於ETS官方人員,而是面向美國本土的人員通過特定的流程進行招募的。
只要是在美國本土工作的人員都可以申請成為評分員,他們不需要在ETS辦公,甚至可以在家裡閱卷,但是為了確保評分的科學性和準確性,所有的評分人員都必須參與評分培訓,並且最終通過認證測試。申請人通過資質審核後,會先進入到線上培訓環節成為一名Train rater。當培訓者熟練掌握所有的評分標準之後,就會進入線上評分環節,培訓者必須利用大量的模板文章進行對比式評分,直至自己的打分和目標打分完全一致方能通過測試,成為一名Certify rater。
而在整個過程中,ETS的官方評分員充當的就是一個裁判和導師的角色,也正是利用這樣的模式才確保了專業人員的高效利用,同時也確保了評分的科學性和準確性。
3
電腦評分(e-Rater)究竟是如何工作的?
電腦評分這個概念,很早就已經運用於寫作考試中,這並非什麼新興產物。自從2010年1月開始,iBT的寫作評分系統就進行了調整。由原來的2個評分員評分,取算術平均分作為raw score原始分,改為1個評分員和1個電腦評分系統(e-Rater)評分,取算術平均分作為原始分的方式。
儘管之後也有很多出題機構也學習了這種評分方式,但是最終都因為評分效果不理想而最終放棄,這也正是很多人對ETS的電腦評分質疑的原因。但是在本次ETS的培訓中,幾乎每一位ETS的官方人員都會不斷地提及Human Scoring & Automated Scoring的概念。想必大家也能猜想到結果了,ETS對於利用電腦評分的操作是樂此不疲的,而且對於評分的結果是極度信任的。
其實來到ETS之前,我對電腦評分這件事情也是心存顧慮的,總擔心這樣的評分方式不夠智能,會過於機械化地得出結果。但是當我們來到ETS聽完專家的講解後,我明白了ETS利用電腦評分的意義所在。
一方面,我們之前對於電腦評分的認識並不夠全面,總是覺得僅僅是利用一些具有糾錯功能的軟體來進行評分。而真正意義上的e-Rater更像是一個基於強大數據系統支持的一個運算系統,它能夠將輸入的文章內容和資料庫裡面的內容進行比照式批閱,這樣就極大地增強了閱卷評分的靈活度和廣泛度。而ETS作為全球最大的測試服務機構,他有著得天獨厚的優勢,那就是它每年都能夠積累大量的文章數據,而且能夠不斷進行更新迭代,這能使得他的電腦評分系統的智能化不斷地提升。相比而言,其他測試機構的電腦評分系統卻虛有其表,沒有大量數據內核作為支持,所以自然無法得到一個理想的評分效果。
另一方面,電腦評分有著它獨特的優勢,那就是具備足夠的客觀性。它不存在閱卷的疲憊度,永遠能夠關注每一個評分標準,考慮到文章中的每一個細節和每一個特徵;它沒有情緒,所以也就不存在主觀映像,對於同一篇文章永遠只會給出一個不變的分數;它能對於每一篇文章所給出的分數都能給出具體的解釋,這是人為評分無法做到的。
對於托福考試而言,關於語言輸出部分的口語和寫作兩個項目都會涉及到電腦評分,而且評分結果是計入到真實成績的。只不過算分方法並不是機械地將評分員評分和電腦評分進行求平均計算。我們其實可以更形象地把他們理解成為分工協作,聯合判分。
首先,E-Rater負責Linguistic的部分,關注的是文章的邏輯、語法、用法、架構、辭彙等要素,而人工負責內容和含義的理解,他們在評分目標上各有分工。其次,閱卷人和電腦是獨立判分,他們彼此看不到對方的分數。當兩者的分差介於動態區間值時分數有效,判分結束;當兩者的分差大於動態區間值時,人工評分和電腦評分均無效,將會引入新的判分組進行重新評分。如果仍然判分無效,將會指定給ETS官方閱卷人主管直接判分,但這種情況很少出現。
以上僅僅是本次ETS之行的一個側影,也希望能夠通過這樣的一些體驗能夠讓大家對這個神秘的出題機構有進一步的了解。
目前,所有新東方在線知心托福網課中均可體驗到ETS正版e-rater的評分服務,讓同學們更為直觀地感受到口語和寫作部分的評分細節,也能夠依次為參照不斷地提升自己的英文水平。我想這也才是我們和ETS合作的真正的宗旨:考試並非目的而是手段,希望各位考生能夠在備考的過程中,真正體會考查意圖,對照提升自己的各項能力,讓高分成為一個順理成章的結果。


※《歡樂頌》是史上黑留學生口語水平最狠的一部電視劇!
※看電影聊票房《摔跤吧!爸爸》
TAG:新東方在線托福 |
※是幺蛾子?是山寨?還是別樣的時尚?
※老虎棒子雞?WE即將對決EDG,這個出征海報是搞啥幺蛾子?
※還記得FAKE克萊嗎!這傢伙又出現在賽場搞什麼幺蛾子?
※妖怪哪裡逃?看完了時裝周,才知道誰是真女神,誰是幺蛾子
※這些女明星的短褲真有型!網友:就不能好好穿嗎,非得整點幺蛾子?
※岳雲鵬的助理沖沖又出幺蛾子,小嶽嶽:是什麼緣分讓我們在一起?
※《這就是街舞》又有幺蛾子?這到底應該怪誰?
※王迅婚姻又出幺蛾子?面對小嬌妻這一做法,網友們的反應竟是這樣
※這是要把人類全消滅嗎?美國又弄幺蛾子,這次出手的是核武器!
※「鬼吹燈」系列:不出幺蛾子,照著拍,真的就是五星
※電影《愛情公寓》又鬧幺蛾子,是蹭情懷還是真抄襲?網友:沒底線
※在好萊塢闖蕩的白靈又鬧幺蛾子,衣不蔽體,網友:丟的是國人的臉!
※於正又出幺蛾子,新片佘詩曼做配角,網友不禁吐槽:女主也太丑了吧!
※哪裡來的「幺蛾子」?
※這些大學 究竟在整些什麼幺蛾子
※投保即挖礦:FCoin又在搞什麼幺蛾子?
※是另類,還是幺蛾子?設計師的心思你永遠猜不透!
※機場就是一個什麼幺蛾子都會出現的地方啊……
※哈里王子婚事叫停?難道梅根又出什麼幺蛾子!
※後來的你們,還能整出啥幺蛾子?