PTE作為一個機考，到底怎麼評分？有人知道不？

06-19

PTE作為一個機考，到底怎麼評分？有人知道不？

眾所周知，pte的評分是交叉評分的。那麼今天我先來從大的方向上說一下pte四個板塊：聽說讀寫是如何相互影響的。

看待pte評分的時候我們不要把思維固定成口語部分就是口語，寫作部分就是寫作。相反，可以從下面這個歸類來看待pte真實的聽說讀寫是什麼。

以下被歸類的題型都代表他們提供此項的分值！

口語：read aloud, repeat sentence , describe image, retell lecture, answer short question. （口語分數單獨只有口語部分決定）.

寫作：除開寫作本身題目外，還有fill in the blanks(閱讀下拉菜單四選1那個），summarize spoken text , fill in the blanks(聽力填空）, write from dictation.

閱讀：除開閱讀本身題目外，還有read aloud , summarize written text, highlight incorrect words, highlight correct summary.

聽力：除開聽力本身題目外，還有repeat sentence, retell lecture, answer short question.

小結，不可單獨看待各項得分哦！例如寫作如果沒有達到目標分數，應該多去分析一下除開essay意外的題型，他們的分值貢獻更大！

我們都知道雅思托福是單項評分，比如，口語就是測口語，寫作就是測寫作。但是PTE卻相反，PTE的一些單項題目不僅測聽力，同時還在測口語，一道題可能同時會對寫作和閱讀都有影響。下面就給大家詳細的說一下每個題型都測什麼。

PTE滿分為90分，學術英語考試的最低分為10分，最高分為90分。分數量以四分為單位遞增。例如，10分之後為14分 18分等等。PTE的最終得分(Communicative Skills)也就是考試最後的聽。說，讀寫得分，主要來源於該考生的語言運用技能分（Enabling Skills Scores），語言運用技能分分別來自於，語法grammar,口語流利程度oral fluency，發音pronunciation，拼寫spelling，辭彙vocabulary和語篇編寫written discourse六個部分。

四個大項的最終得分會由六個小分來決定，比如說某個考生的Speaking得分會跟他的流利度和發音緊密相關。Listening得分會與辭彙，拼寫，語法，語篇編寫有關。Writing就會與語法，拼寫，辭彙和語篇編寫有關。Reading會跟語法，拼寫，辭彙和語篇編寫有關，所以說及時某個同學的某一項技能很差，其他技能發揮的很好的話，最後也是可以得到滿意的分數的。

根據6個小分得出來的聽說讀寫分數，無疑更能讓考生了解自己究竟欠缺在哪裡，在每次考試成績出來後，也能直觀的了解自己在哪些地方進步了，哪些地方還需要提升。而雅思在這方面就沒有這麼人性化，許多同學口語考試完畢感覺自己考的很好，出來的分數不滿意，也完全不知道這是為什麼，備考往往陷入迷茫。

我們分析PTE考試的特點，不是紙上談兵或者憑空猜測，而是基於大量老師、學員測試的結果反饋，經過歸類、篩選、對比、總結，逐漸摸透其題型特點和打分機制，從而掌握所有題型答題要點，讓學生們可以有的放矢地提高複習效率，因此受益。

我們在之前的文章中已經提到過PTE考試「簡單」這個最大的特點，那我們再來具體分析看看,和其它考試相比PTE有哪些不同之處造成了難度上的差異。我們從打分機制和題型特點兩個部分來看：

首先，最最重要的一個特點是PTE考試的打分機制：機器評分。

不要小看這一個差異哦。這意味著你所有聽說讀寫的成績都是由一台「沒有人性」的電腦給出，或者用一個現在特時髦的詞，叫做「人工智慧AI」的系統進行評分。也就意味著說，其實每一個考生在PTE考場都是在和人工智慧做一次比試，不管是憑真本事也好，憑套路也罷，目的就是最終要打敗人工智慧達成你的目標。想想還是挺激動的吧！

更令人激動的是，你面對的這個PTE人工智慧系統是存在一定漏洞的——它有bug！這個其實很好理解。人工智慧發展到現在已經在某些領域小有成就，比如圍棋和無人駕駛。但說到底，現在的人工智慧都只是弱人工智慧，它畢竟不能和人腦相提並論。在不同的應用場景中，人工智慧能不能很好地解決問題取決於有沒有合適的電腦擅長的演算法來幫助人們完成任務。而PTE人工智慧打分系統，至少在現階段，不是一個能夠完美地給出所有解決方案的系統。就好比說，你看Siri也有很多問題回答不出吧。另外，google很牛了吧？你在google翻譯，經常還是會看到令人啼笑皆非的翻譯結果。說到底，PTE的打分系統就是這樣，你說它能順利完成大部分打分任務吧？它的確可以。但你說它能百分百準確判斷所有考生的英語水平嗎？至少目前普遍認為的答案是：不完全能。

然後，我們再來看PTE考試的題型特點就很容易明白了。簡單來說，就是要便於機器打分。因此，PTE考試題型有以下三個特點：統一內容、限定範圍、極少更新。

統一內容指的是：PTE考試有一些題型完全不讓你自由發揮，一定要按照它給你的內容進行答題。比如說，最典型的就是READ ALOUD：給你的一段話是什麼，你就要讀什麼。雖然是考口語，但是不需要你自由發揮，按照它給的內容一模一樣地讀就完成了。

限定範圍指的是：這些題型給你一定自由發揮的空間，但是要求也非常嚴格，不能漫無邊際放任自流，需要在PTE題目要求的範圍內答題。比如口語中的Describe Image，Answer Short Questions和寫作中的Summarize Written

Text。這些題目雖然說沒有完全一樣的標準答案，但是你的答案必須要在電腦評分認可的一個區間範圍之內，不能讓它認為你的回答過於離經叛道。

有的同學會問：那電腦怎麼判斷我的答案是在範圍內還是範圍外？或者說這個範圍是哪裡來的？評判標準到底是什麼？這和我們說的第三個特點——極少更新密切相關。

原因在於，如果想要人工智慧給出一個相對正確的判定結果，必須要輸入大量的訓練樣本。在這些大樣本的基礎上，它才能通過機器學習的過程，實現所謂的智能評分。試想一下，一個新的Describe Image題目，考生給出了一個全新的回答，電腦能夠一下就判斷出來說這個回答應該給多少分嗎？一個新題必要的訓練樣本數量是成千上萬的，然後電腦才能慢慢地分析出答案的好壞優劣，給出一個自己可以接受的範圍。

因此，PTE考試評分機制限制了PTE題庫快速更新的可能——因為短時間內沒有足夠多的樣本量來給評分系統學習。同時，PTE題庫像雅思考試那樣一次大量更新題目的情況也比較難以實現。一個題目新增評分尚且如此困難，如果大面積更新的後果可能就是失控。很多人注意到PTE考試有過幾次疑似評分故障，雖然我們也沒有確鑿的證據，但是同時結合幾次大量新題出現的時間點，這似乎不能僅僅用巧合來形容。

當然，PTE考試也有大量聽力和閱讀的選擇題，這些題本身就有唯一標準答案，所以也就更加方便電腦進行閱卷批改，我這裡也不把它們作為PTE考試的題型特點做進一步介紹了。另外，所有這裡提到的題型都會在後面具體的文章中做進一步的分析展開。