Claude 的中文语言分词成本比英文高 65%,OpenAI 仅高出 15%

Gate 新闻消息,4 月 29 日——AI 研究员 Aran Komatsuzaki 通过将 Rich Sutton 的开创性论文《The Bitter Lesson》翻译成九种语言,并在 OpenAI、Gemini、Qwen、DeepSeek、Kimi 和 Claude 的分词器上进行处理,对六个主要 AI 模型的分词效率进行了对比分析。以 OpenAI 上英文版本的分词数量作为基准 (1x),研究发现了显著差异:在 Claude 上处理相同内容时,中文所需分词数为 1.65x,而在 OpenAI 上仅为 1.15x。印地语在 Claude 上的结果更为极端,超过基准 3 倍以上。Anthropic 在这六个测试模型中排名最低。

关键在于,当相同的中文文本在不同模型中进行处理——且都以同一个英文基准进行测量时——结果出现了惊人的分歧:Kimi 仅消耗 0.81x 个分词 (甚至少于英文),Qwen 为 0.85x,而 Claude 需要 1.65x。这个差距揭示的是纯粹的分词效率问题,而不是语言本身的问题。中文模型在处理中文时表现出更高效率,这表明差异源于分词器的优化,而非语言本身。

对用户的实际影响十分重大:分词消耗的增加会直接推高 API 成本、延长模型响应延迟,并更快耗尽上下文窗口。分词效率取决于模型训练数据的语言构成——如果模型主要在英文上训练,它会更高效地压缩英文文本;而数据代表性较低的语言则会被分成更小、更不高效的片段。

Komatsuzaki 的结论强调了一个基础原则:市场规模决定分词效率。更大的市场会获得更好的优化,而代表性不足的语言面临显著更高的分词成本。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

يشير باحث DeepSeek متعدد الوسائط إلى نموذج رؤية جديد في 29 أبريل

في 29 أبريل، نشر باحث فريق DeepSeek متعدد الوسائط شياوكونغ تشن على X: "الآن، نراك"، مرفقًا بصورةين لحصان/حوت شعار DeepSeek—واحدة بعيون مغلقة، والأخرى بعيون مفتوحة. يبدو أن المنشور يشير إلى نموذج رؤية مرتقب، بما يتماشى مع دور تشن كباحث ضمن فريق DeepSeek متعدد الوسائط.

GateNewsمنذ 17 د

إل جي توسّع شراكتها مع Nvidia لتشمل الذكاء الاصطناعي المادي، مع تغطية الروبوتات ومراكز البيانات

رسالة أخبار البوابة، 29 أبريل — أعلنت شركة إل جي إلكترونيكس الكورية الجنوبية، خلال مكالمة أرباحها للربع الأول من عام 2026، أنها توسّع تعاونها مع Nvidia ليشمل الذكاء الاصطناعي المادي، مع مشاريع مخططة في الروبوتات والتنقل ومراكز البيانات. تخطط إل جي لدمج روبوتها المنزلي CLOiD مع Nvidia

GateNewsمنذ 34 د

محللو أشباه الموصلات يتوقعون صعود سوق الذكاء الاصطناعي: «على الأقل ستستمر ثلاث سنوات أخرى» — التغليف المتقدم هو عنق الزجاجة في الصناعة

Bubble Boi يعتقد أن دورة استثمار الذكاء الاصطناعي لا تزال في بدايتها، ويتوقع أن يكون هناك ما لا يقل عن ثلاث سنوات أخرى من الارتفاع، ولا يعتزم جني الأرباح. يرى أن التغليف المتقدم هو الاختناق الحقيقي في أشباه الموصلات، وأنه يجب دمج المزيد من HBM ومعالجات أكبر داخل نفس الحزمة. متفائل بشأن NAND/Flash، وقد يستمر السعر في الارتفاع، وربما ينضم مستقبلًا إلى سلسلة توريد الفلاش. تتمثل استراتيجيته الشخصية في الاقتراض لزيادة المراكز، ويفهم التفاصيل التقنية من خلال خلفية عملية في الهندسة، ويعتقد أن ذلك ميزة.

ChainNewsAbmediaمنذ 1 س

توسّع AWS تكامل OpenAI في Amazon Bedrock

أعلنت Amazon Web Services في 29 أبريل عن توسّع كبير في شراكتها مع OpenAI، عبر دمج أحدث قدرات OpenAI في بنيتها السحابية. يضيف هذا التوسّع ثلاث خدمات جديدة إلى Amazon Bedrock: النماذج الأحدث من OpenAI (limited preview)، خدمات البرمجة Codex

CryptoFrontierمنذ 1 س

OpenAI 研究人员:AI 系统或可在两年内处理大部分研究工作

Gate News 信息,4 月 29 日 — OpenAI 研究人员 Sébastien Bubeck 和 Ernest Ryu 表示,AI 系统或可在两年内完成大部分人类研究工作,并将数学呈现为衡量 AI 进展的清晰指标。与模糊的性能测试不同,数学问题提供精确的验证:答案要么正确要么错误,不留任何歧义空间:

GateNewsمنذ 2 س

查尔斯三世会见六位美国科技CEO,包括黄仁勋、杰夫·贝索斯和蒂姆·库克,讨论英国创业融资

快讯,4月29日——在对美国进行国事访问期间,查尔斯三世国王在华盛顿的布莱尔宫会见了六位杰出的美国科技领袖:NVIDIA首席执行官黄仁勋、亚马逊创始人杰夫·贝索斯、苹果首席执行官蒂姆·库克、AMD首席执行官苏姿丰、Salesforce首席执行官马克·贝尼奥夫,以及

GateNewsمنذ 2 س
تعليق
0/400
لا توجد تعليقات