Claude 會收語言稅?研究曝翻譯中日韓內容消耗最多近三倍 Token

鏈新聞abmedia

AI 研究者 Aran Komatsuzaki 近日在 X 平台發布一項實驗分析,曝光主流大型語言模型 (LLM) 的分詞器 (tokenizer) 存在嚴重的「非英語語言稅 (non-English tax)」問題。其中 Anthropic 旗下 Claude 模型對中日韓語言的素材甚至需消耗高達將近三倍的 token,引發社群議論。

實驗方法:用一篇經典論文量化語言成本差距

Komatsuzaki 以經典文章《The Bitter Lesson》為素材,將其翻譯成中文、印地語、阿拉伯語、韓語、日語等多種語言,再分別送入各大模型的 tokenizer 計算 token 消耗數量。實驗以 OpenAI 英文版本為基準 (1.0×),透過標準化倍率比較各模型對不同語言的處理效率。

Token 數量直接決定 API 使用費用與回應延遲,token 越多代表成本越高、速度越慢,因此 tokenizer 的效率差異,實際上就是使用者荷包與使用體驗的差距。

Komatsuzaki 也附上了他自己設計,能計算 token 用量的網站:

AI 也有種族歧視?Claude 語言稅最高,印地語首當其衝

OpenAI vs. Anthropic 逐語言 Token 消耗倍率長條圖

數據顯示,OpenAI 各語言的 token 倍率普遍控制在 1.4× 以內,而 Anthropic (Claude) 的差距則極為顯著:

印地語:3.24× (Claude) vs. 1.37× (OpenAI)

阿拉伯語:2.86× (Claude) vs. 1.31× (OpenAI)

俄語:2.04× (Claude) vs. 1.31× (OpenAI)

中文:1.71× (Claude) vs. 1.15× (OpenAI)

換言之,一名印度開發者若使用 Claude 的 API 處理印地語內容,實際支付的費用可能是同樣英文任務的三倍以上,且回應速度也會因 token 數膨脹而顯著下降。

六大模型橫向比較:中國本土模型反超、Gemini 表現最佳

六大模型跨語言 Token 消耗倍率熱力圖

Komatsuzaki 隨後發布的貼文進一步擴大比較範圍,納入 Gemini 3.1、Qwen 3.6、DeepSeek V4、Kimi K2.6 等模型,結果顯示:

Gemini 3.1:1.22× (對非英語用戶最友善)

Qwen 3.6:1.23×

OpenAI:1.33×

DeepSeek V4:1.49×

Kimi K2.6:1.76×

Anthropic:2.07× (對非英語用戶最不友善)

數據能看出,中文在 Qwen (0.85×)、DeepSeek (0.87×)、Kimi (0.81×) 上的 token 消耗則低於英文基準,顯示中國本土模型已針對中文進行深度優化。Komatsuzaki 本人則在回覆中坦言:「我沒想到 Claude 如此糟糕且不平衡。」

社群擔憂:「成本落差」是 AI 普及化過程的嚴重問題

實驗結果在 X 社群中引發強烈共鳴,許多非英語開發者表示,在實際使用中,相同的中文或韓文文件用 Claude 處理,費用確實遠高於 Gemini。

討論也延伸至技術根因:tokenizer 的效率差異主要源於訓練資料以英語內容及拉丁文字為主,導致模型對其他文字系統的理解程度較低,每個字元或詞彙需要消耗更多 token。即便全球印地語使用者多達數億人,但相對稀少的高品質訓練素材加上形態複雜的文字結構,使其成為 AI 使用成本最高的族群。

部分網友則認為,Anthropic 的主要客群偏向英語企業用戶與程式碼開發場景,因此對多語言優化缺乏動力,反觀 OpenAI 則較擅長處理語言內容,直言:「AI 本應是民主化的平等技術,但非英語使用者卻在為語言歧視買單。」

如今,這場圍繞 tokenizer 設計的爭議,已不只是技術問題,更反映出 AI 產業在全球擴張過程中的失衡。

這篇文章 Claude 會收語言稅?研究曝翻譯中日韓內容消耗最多近三倍 token 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

OpenAI 首席財務官(CFO)建議將首次公開募股(IPO)延後至 2027 年,因成長放緩;執行長(CEO)則偏向 2026 年第 4 季

根據 Odaily,OpenAI 首席財務官 Sarah Friar 曾私下建議將該公司的首次公開募股(IPO)延後至 2027 年,理由是未能符合上市公司財務報告標準;而執行長 Sam Altman 則目標是將上市時間提前至 2026 年第四季度。ChatGPT 的每週活躍用戶在

GateNews13分鐘前

Bakkt 完成 DTR 收購,並在營收成長與策略重整中推進

Bakkt 已完成對 Distributed Technologies Research 的收購,這項舉措旨在將原生於人工智慧(AI)的穩定幣基礎設施整合到其核心金融服務中。 現代化全球結算 Bakkt Inc. 已完成對 Distributed Technologies 的收購

Coinpedia35分鐘前

伯克希爾 CEO:大型資料中心建設為公用事業創造重大成長機會

根據 Berkshire Hathaway 執行長 Greg Abel 於 5 月 3 日舉行的年度股東大會上的說法,大規模數據中心建設以及由此帶來的電力需求正在為公用事業公司創造顯著的成長機會。Abel 表示,該公司在部署 AI 方面維持審慎的態度,u

GateNews41分鐘前

Anthropic 談判擬向英國新創 Fractile 購買推論晶片,估值超過 10 億美元

根據 Beating,Anthropic 正在洽談從位於倫敦的初創公司 Fractile 購買推論晶片;該公司正尋求超過 1 億美元的融資,估值超過 10 億美元。Fractile 成立於 2022 年底,採用基於 SRAM 的架構以降低推論的功耗以及

GateNews1小時前

OpenClaw 釋出 v2026.5.2,並從 npm 進行外掛程式遷移至 ClawHub,修復 200+ 個錯誤

根據 Beating,開源的個人 AI 助理 OpenClaw 於 5 月 3 日發布 v2026.5.2,這是一項重大的工程維護更新。核心變更在於將外掛系統從 npm 遷移至自建的發佈平台 ClawHub。此更新包含超過 200 項錯誤修復,並引入了 t

GateNews1小時前

美聯儲理事鮑曼:監管機構必須考慮如何應對 Anthropic Mythos 等新技術

PANews 5 月 2 日消息,美聯儲理事鮑曼表示,監管機構必須考慮如何以最佳方式監管像 Anthropic 的 Mythos 這樣的新技術。「一方面來看,這種能力使企業能夠處理其自行識別出的漏洞,從而增強網路安全,」鮑曼表示,「但另一方面來看,如果被惡意使用,它可能被用來辨識並利用弱點。」在評估針對這項強大新技術的防護措施之際,Anthropic 已限制其最新人工智能模型的發布。該模型也促使川普政府官員開始考慮可能對金融穩定構成威脅的網路攻擊。

GateNews1小時前
留言
0/400
暫無留言