託福口語是機器打分還是人工打分

本文已影響 2.04W人

大家比較關心託福口語的打分方式，下面小編就和大家聊聊這個話題。

【託福口語】託福口語評分時人工還是機器

託福口語本次改革引入自動評分系統，其實這項計劃早就在準備中了，這從ETS這份官方報告當中就可以看出，其實現在所使用的引擎已經是5.0版本的引擎，下面我們就來看一下託福口語機器評分的要點。

19年託福改革後，我們可以非常肯定地告訴大家，託福口語一定是機器批改，至少機器批改參與了每一位同學的評分過程。ETS官方公佈的數據，最新版本的託福口語機器評分系統Speech Rater與人工評分的相關性係數是0.81。說實話，官方單純的拿這麼一個統計學系數擺在我們的面前，對於考生或者是託福資深教師而言是沒有感覺的，這個係數到底是偏高還是偏低，究竟什麼數值範圍值得我們進行參考，根本就無從比較。

真人教師來覈查的機率不是100%的，所以儘量不要在結尾處留太多的空白。這樣機器肯定首先就會給考生扣分。但是爲了防止教師來覈查，復聽，建議考生在備考託福口語的時候，學會掌控時間，儘量不要超時太久。再給考生一個小建議：在託福口語考試中，儘量不要停止說話，如果沒話說就多說點套話，在平時的練習中，針對機經上的重點話題進行準備。

隨着越來越多的年輕學生在世界範圍內學習英語作爲第二語言(English as a Foreign Language)，爲青少年語言學生(Young Language Students)設計的標準化語言考試 (比如托福考試)。

變得越來越受歡迎。鑑於這一快速增長的趨勢，需要更好地理解年輕學生的語言發展模式和語言表現的語言特徵成爲語言學教師的需求。根據2014年，兩位口語測評學者Bailey&Heritage的研究，語言發展模式和語言表現對於語言學評估的創建提供指導和指導至關重要。ETS於是系統地進行實證研究：在青少年語言學生中檢查其英語語言能力(English Language Proficiency)的進展以便驗證青少年語言學生評估任務和評分標準，併爲基於測試結果的提供有效性證據(Kane，2013)。

在目前ETS採用的機改Speech Rater的系統中，對於託福口語測評是何以科學、公正以及客觀地對考生們進行評價的呢?根據ETS最新的一項研究, 自1996年就有語言學學者(Ginther et al., 2010; Towell, Hawkins, & Bazergui, 1996) 使用平均話語長度(mean length of run) 這項指標來對考生們的流利度進行測評。

通俗易懂的說法，就是在托福考試中你的所有"huh", "uh", "erm", "um", and “well" (filled pause)都會被計數，當頻率高到一定程度，就會被認爲是弱流利度，另一種就是沉默(silent pauses), 在整個口語回答的過程中如果出現長間斷，那麼系統會自動把你的口語歸爲弱流利度。而託福口語考試的不同任務(task)其對考生們的語言能力和認知能力都有所不同，因此在進行口語獨立任務(independent speaking task)設計和口語綜合任務(integreated speaking task)設計的過程中。

在這項研究中，青少年(YLS)與成人考生(Adult learner)的流利度水平在兩個任務的機評效果中都出現了較爲穩定的表現。因此我們可以得出客觀結論，在口語流利度方面，考生們在口語獨立任務和口語綜合任務之間較少會出現流利度偏差。

最新的5.0引擎當中，最新版的引擎已經極爲接近於真人閱卷者進行了評分，在ets官方所發佈的資料當中，真人評分和機器評分的相關係數已經達到了0.81，換句話說也就是，ETS在告訴大家：我們這套系統已經做得挺好了，已經敢拿出來給你們看一看了。最爲影響最終分數的3個影響因素，他們分別是：平均沉默時長，單詞重複率，和語速。

今天我們再來看另外8個重要的影響因素。

很顯然在這裏排名第4位的影響因素，就是Total acoustic model score for all words with model trained on native data，看了這段生澀的語言，說實話無老師也有點要吐了。這個名詞，還真有點不是特別好解釋。總而言之，這個其實涉及到ETS在評分過程當中具體的一個流程，也就是在Speech Rater進行評分的時候，其實有一個關鍵性的步驟，就是讓機器來識別，考生本人所說的英語是否是地道的英語，這個主要是從發音和節奏來進行判斷，就是當你的口語越接近於地道的發音，那麼你的分數越高，反之亦然。這個影響係數達到了0.81，因此也就有了下面第2條影響因素，Total acoustic model score with model trained on nonnative data。

如上的4條，是所有的影響係數高於0.7的影響因素，接下來所列出的7條，影響係數全都低於0.7且高於0.5，這也就意味着對於最終分數的影響，沒有前面4條影響那麼大，但是同時也比較重要。

其中4條高於0.6的影響因素分別是，

Average of chunk length in seconds——平均意羣的長度

titions——重複程度

Score point with the highest grammatical similarity score——語法的相似程度

Total no. different lexical types——詞彙的多樣性

Average of chunk length in seconds——平均意羣的長度，歸屬大類Fluency——流暢：影響因子0.66，

這意味着，句子如果全都是三個詞，類似於I like you的簡單句，那麼得分一定會偏低，但是如果能多用一些固定搭配、或者一些修飾性的成分，使得這個句子一方面不脫離口語化，不會像書面語那麼複雜，同時句式的內容也可以比較豐富和飽滿，那麼得分就會提高。當然這一條的解讀還可以有很多的層次，無老師在此就先不一一展開了。

titions——重複程度，歸屬大類Fluency——流暢：影響係數0.61。

把重複程度放在流暢程度當中，說實話有點奇怪，既然放在流暢程度這個大類當中，估計在這裏面所表述的是，你是否會出現結巴的情況，也就是會連續反覆同一句話。

託福口語評分標準

口語“are rated by three to six raters”指的是每道題只有一位考官打分，但不同題目的打分考官可能不同，一位考生的六道題目最少會有三位考官，最多會有六位( 每道題一位)。最後評分不會特別偏重某類題型，比如說獨立或綜合。所以，總體而言，ETS 的評分用一個詞來講是：holistic，即，考慮考試口語內容的整體性。也就是說，ETS 口語評分標準不會因某個具體方面而出現偏重，如，在不影響理解的前提下，語音語調不好不會成爲扣分原因。在holistic 這一標準下，ETS 的最重要考慮因素是：intelligible, 可理解爲可以順暢的讓考官聽懂考生的表述內容。在holistic 和intelligible 兩個標準之外，對答題內容而言，有如下三個評分維度：

cture

ent

uage

Structure，即結構，總體來講，ETS 評分官特別希望考生能夠在答題部分給出清晰的結構。其中結構要求主要包括：

1)主題句thesis statement：在開頭部分明確地表明自己的觀點。

2)過渡詞：在中間部分有明顯的邏輯連接詞或表過渡的信號提示詞。

3)結論：如果時間允許，做簡單地總結。

content, 即內容。ETS 有如下要求：

1)主題明確：明確地給出觀點。

2)簡單明瞭：不要過多的使用bigwords 和複雜句型;用考生經常使用熟練的詞彙。

3)細節論點到位：獨立話題例子論點和細節提供詳細;綜合話題涉及聽力和閱讀部分分別提到的具體信息，如，Task5 的聽力部分女學生提到自己很忙，困惑於時間的安排，最近需要：準備考試，寫2 篇論文，還有一個志願者活動要參加。ETS 對於細節的期待是：希

望考生可以將學生需要完成的事情：準備考試，寫2 篇論文，還有一個志願者活動要參加這些細節都囊括到自己的回答部分中。所以，可以看出，ETS 十分看重考生對聽力和閱讀部分細節信息的整理和轉述。

language，即語言，語言的要求包括：

1)流暢：對語速的要求並不是越快越好。最好考生是sustained speed, 即能夠以穩定的速度順暢的表達自己的觀點，中間偶有小的停頓可以接受。

2)語音：發音標準是前提，語音語調地道對分數有一定的積極影響。ETS 給出評分參考是：只要不影響評分官的理解，即使語音語調不好，也不會扣分或影響分數。

3)允許語法錯誤：ETS 口語評分原則中明確指出考生的表述中可以存在小的語法錯誤，但是語法錯誤不允許重複出現。

很多考生對於口語評分經常會抱有疑問，進而會選擇複議。而口語成績的複議成功率是有跡可循的。

託福口語評分標準哪一個點最重要?

託福口語評分採取 Holistic Rubric Standing(整體評分制)，即同時參照以下三個標準進行整體打分:Delivery(語言表達)、Language Use(語言使用)、Topic Development(話題展開)。但是，對多數中國考生來說，主要問題是 Delivery(語言表達)不夠清晰、流暢，所以學習重心應該放在提高流暢性和清晰度上面。

託福口語是機器打分還是人工打分

猜你喜歡

熱點閱讀

最新文章