沒有想像中公正！用AI改考卷的結果是…亂寫的論文也能得高分

匯流新聞網記者王佐銘／綜合報導

數據顯示，以自然語言處理作為基礎的人工智慧論文評分系統，目前在美國至少有21個州已納入正式考試的評分工作。而這些機器評卷員的背後，有大量數據資料作為依據，而且就算一天閱卷無數，也不會因為疲勞或各種情緒來影響閱卷的效率或公正…真的是這樣嗎？有資料表示,這些AI評卷員，好像沒有大家想像中公平。

AI閱卷，之所以沒有想像中的公平公正，首先遇上的第一個問題就是「偏見的演算法」。要知道，長期以來，教育產業一直都在努力消除對不同語言背景的學生所產生的潛意識偏見，但這個問題在人工智慧評卷系統中，卻是非常嚴重。美國非營利性考試服務中心(ETS)所提供的E-rater機器評分系統，目前正為GRE、TOEFL等考試提供評分參考。而ETS也是這麼多機器評分系統提供商裡面，極少數會提供偏差研究報告的服務中心。

ETS表示，其實評分系統有演算法偏見是非常普遍的問題，但大多數提供商卻不會像他們這樣公開。經過多年研究，ETS發現評分系統竟然意外「偏愛」中國學生，而且給的分數整體都會比人評卷員更高分；而非裔美國人、阿拉伯裔學生或西班牙留學生等群體，卻容易受到機器產生的偏見，得到的分數也會比較低。對此，ETS特別在2018年深入研究演算法，也終於發現了當中的問題點。

以美國研究生入學考試(GRE)為例，中國學生因為篇幅比較長，而且會在論文使用非常多複雜的詞彙，這讓機器誤判為論文水準高於平均水準，因此給了更高的分數；就算這些複雜句型在人類評卷員眼裡，跟論文主旨並沒有太多關係，甚至可以看出是套用了背好的範本。反之，因為非裔美國人、阿拉伯裔留學生的語言風格比較簡單直接，導致他們在機器評分系統中很難獲得比較高的分數。而這些偏見也直接反映在分數上，進行測試時，一群水準相當的學生裡，E-rater機器評分系統幫中國學生的平均分為1.31分，而非裔美國人卻只得到了0.81分。不過，有參加GRE的人不用擔心，因為這個系統目前也只是人類評分員的輔助工具，最後論文成績還是會交給人類決定。

如果演算法偏見只是影響了分數高低，那對考試公正性的影響倒也沒這麼大，但是機器評分系統還有一個非常嚴重的缺點，就是無法辨識這篇論文是不是「東拼西湊」。幾年前，麻省理工學院的預科主任Les Perelman帶著一群學生藉由論文語言生成器BABEL硬生生拼湊出幾篇論文。這幾篇論文跟一般論文不太一樣，雖然用了不少高級詞彙、複雜句型，但大多數的內容卻前後不搭，甚至能用「狗屁不通」來表示。他們把這幾篇論文提交到幾個不同的機器評分系統，結果竟然意外獲得不錯的成績。

事實上，現在已經有不少教育領域人士對於這些機器閱卷員感到質疑，就連澳洲也表示暫停在標準考試引進機器評分系統。但不能否認的是，機器閱卷員的確是未來可以發展的方向，藉由機器評估論文，不但可以為國家教育系統省下人力與物力，未來可以提供學生與教師即時學術回饋，提高教育效率，只是在完全做到公平公正之前，這些機器閱卷員，還是只能當輔助工具。

消息來源：Netimperative、AdAge.com
照片來源：pixabay

《更多CNEWS匯流新聞網報導》

台南傑出經理人名單出爐台南遠東飯店總經理周麗華獲殊榮

免費招待櫻桃烤鴨台南遠東飯店週年大手筆回饋

【文章轉載請註明出處】

沒有想像中公正！用AI改考卷的結果是…亂寫的論文也能得高分

匯流新聞網

DIGITAL

高齡嬤「長皮蛇」卻尿失禁叫不醒竟暗藏更要命疾病在背後

曾阻止惡意軟體被稱英雄！網路安全專家自寫程式遭起訴最終法官這樣判

延伸閱讀

AI大模型導入智慧駕駛與座艙應用　帶動感測器、記憶體需求成長

AI翻轉手機產業　MIC：AI手機預期2027年滲透全球達42%

AI新時代　MIC揭生成式AI邊緣運算的應用發展趨勢

會員登入

DIGITAL

高齡嬤「長皮蛇」卻尿失禁叫不醒 竟暗藏更要命疾病在背後

曾阻止惡意軟體被稱英雄！網路安全專家自寫程式遭起訴 最終法官這樣判

延伸閱讀

AI大模型導入智慧駕駛與座艙應用 帶動感測器、記憶體需求成長

AI翻轉手機產業 MIC：AI手機預期2027年滲透全球達42%

AI新時代 MIC揭生成式AI邊緣運算的應用發展趨勢

高齡嬤「長皮蛇」卻尿失禁叫不醒竟暗藏更要命疾病在背後

曾阻止惡意軟體被稱英雄！網路安全專家自寫程式遭起訴最終法官這樣判

AI大模型導入智慧駕駛與座艙應用　帶動感測器、記憶體需求成長

AI翻轉手機產業　MIC：AI手機預期2027年滲透全球達42%

AI新時代　MIC揭生成式AI邊緣運算的應用發展趨勢