[論文學習]AI 偵測器對多元學生族群失效: 結構性偵測極限的數學框架分析-平芜编程栈

這篇論文的核心問題是：現有 AI 文本偵測器（特別是「黑箱」商業工具如 Turnitin）在大學評估情境中，為何對多元學生族群產生高假陽性率（false positive rates），並造成不成比例的傷害？

這種失效是否只是特定工具的工程缺陷，還是存在更深層的結構性限制，即使未來技術再進步也無法完全克服？

實證證據：多項研究顯示偵測器準確率低（Weber-Wulff et al., 2023 測試 14 個工具皆未達 80% 準確率），並對非母語英語學生（NNES）有嚴重偏差（Liang et al., 2023：TOEFL 作文中 61% 被誤判為 AI 生成）。其他研究也指出不一致性與高假陽性問題。
理論差距：先前理論分析（如 Sadasivan et al., 2023；Chakraborty et al., 2024）將偵測簡化為「已知單一人類分布 vs. 已知 AI 分布」的簡單假設檢定。但大學真實情境中，評估者通常不知道個別學生的寫作分布（寫作風格、能力、語言背景等），這使得「零假設」（null hypothesis）成為複合假設（composite null）——每個學生i都有自己的未知分布pₜᵢ。
更廣泛意義：AI 工具普及下，學術誠信壓力增加，但盲目使用偵測器可能導致不公、心理傷害，並加劇教育不平等。論文希望提供數學框架，解釋為何「人口多樣性」（population diversity）是獨立於 AI 模型品質的根本障礙。

論文強調，這不是否定學術誠信的重要性，而是呼籲從結構角度重新思考解決方案。

論文的主要成果是透過總變異距離（Total Variation Distance, TV）的變分不等式，推導出三個關鍵理論結果，證明任何單次文本（one-shot）偵測器都面臨不可避免的大小-功率權衡（size-power trade-off）。

1. 平均情況下的大小-功率權衡（Result 1）

若學生族群中比例 π(Θ_δ) 的寫作分布與 AI 輸出在 TV 距離 δ 以內，則任何具功率 β 的偵測器，其族群平均假陽性率 α 至少為：

α ≥ π(Θ_δ) × (β - δ)

2. 最壞情況界限（Result 2）：針對重疊子群體，假陽性率更難控制。

3. 子群混合界限（Subgroup Mixture Bound）：將理論量與可觀察的族群特徵（如語言背景、學科）連結，提供實證偏差的理論基礎。

這些結果顯示：人口多樣性造成的分布重疊，是結構性限制，與 AI 模型是否進步無關。即使 AI 文本與人類文本更接近，也只是加劇問題，而非唯一原因。

論文還提出實務建議，包括分層假陽性率審計程序（stratified FPR auditing），機構可使用既有學生資料進行。

公平性與公平影響（Disparate Impact）：非母語者、特定學科學生、寫作風格較正式或簡潔者更容易被誤判，因為其分布更接近當前 AI 輸出特徵（低 perplexity、低 burstiness）。
邊緣情況：小型班級 vs. 大型班級；高度結構化任務（如報告） vs. 開放式創作；不同語言/文化背景。國際學生比例高的機構風險更高。
與 stylometry（文體測量）比較：類似「無註冊作者驗證」問題，強調參考樣本的重要性。
限制與 nuance：界限是下界（lower bound），實際表現可能更差；參數 π 和 δ 需機構實證估計；不適用於多樣本或有學生歷史寫作資料的情境。