Google DeepMind 高管:每一家 AI 产品公司都应构建定制基准

Gate News 消息,4月27日——Google DeepMind 高级产品经理、Google AI Studio 产品负责人 Logan Kilpatrick 在 X 上表示,所有构建基于 AI 的产品的公司都应建立各自的定制基准,以衡量 AI 模型的性能。他将其描述为一种方法,用于让模型改进“对贵公司产生不成比例的收益”,并敦促创始人和商业领袖“从明天开始。”

目前,大多数公司依赖公开排行榜来选择 AI 模型,但这些榜单衡量的是通用能力,往往与特定业务场景不匹配。Kilpatrick 举例称,一家合同审查公司最关心的是条款提取的准确性——而这项能力在公开基准中缺失,导致无法评估模型在该任务上的表现。定制基准具有两项关键优势:首先,它们使公司能够针对自身业务任务评估每一次模型更新,并选择在实际使用场景中表现最佳的模型,而不是选择总体排名最高的模型;其次,它们允许公司将这些测试集与模型提供方共享,从而在与业务相关的领域推动持续优化。

Kilpatrick 指出,像 Zapier 和 Sierra 这样的公司已经在采用这种做法,并表示“这里可以创造出大量的 α(超额收益/优势)。”

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

تتولى خدمة صوت xAI Grok الخط الساخن لخدمة عملاء Starlink، ويتم إغلاق 70% من المكالمات تلقائيًا

وفقًا للإعلان الرسمي الصادر عن xAI في 23 أبريل، طرحت xAI وكيلًا للذكاء الاصطناعي الصوتي Grok Voice Think Fast 1.0، وقد تم نشره في خط خدمة العملاء التابع لـ Starlink ‎+1 (888) GO STARLINK. ووفقًا لبيانات الاختبار الفعلية التي كشفت عنها الإعلانات، فإن 70% من المكالمات يتم إنهاؤها تلقائيًا بواسطة الذكاء الاصطناعي دون الحاجة إلى تدخل بشري.

MarketWhisperمنذ 4 د

GPT-5.5 تعود إلى الصدارة في البرمجة، لكن OpenAI تغيّر المعايير بعد الخسارة أمام Opus 4.7

رسالة أخبار البوابة، 27 أبريل — أصدرت شركة SemiAnalysis، وهي شركة متخصصة في تحليل أشباه الموصلات والذكاء الاصطناعي، معيارًا/مقارنة مرجعية (benchmark) لتقييم المساعدين البرمجيين، بما في ذلك GPT-5.5 و Claude Opus 4.7 و DeepSeek V4. وكانت النتيجة الرئيسية: تُعدّ GPT-5.5 أول عودة من OpenAI إلى صدارة التقدم في نماذج البرمجة خلال ستة أشهر، حيث بات مهندسو SemiAnalysis يتناوبون الآن بين Codex وClaude Code بعد أن كانوا يعتمدون تقريبًا حصريًا على Claude. تستند GPT-5.5 إلى نهج تدريب مسبق جديد مُشفّر باسم "Spud" وتمثل أول توسع في حجم التدريب المسبق من OpenAI منذ GPT-4.5، مع S

GateNewsمنذ 9 د

MediaTek يحصل على صفقة كبيرة من Google للجيل الثامن من TPU! يساهم نمو ASIC في الاستفادة من ثلاث فئات من الأسهم ذات الصلة

MediaTek đã tham gia vào chuỗi cung ứng chip đào tạo Google thế hệ TPU thứ 8, chịu trách nhiệm thiết kế I/O Die, và sử dụng công nghệ sản xuất N3P của TSMC cùng gói CoWoS-S, cho thấy hãng đã nâng cấp lên trình độ thiết kế AI ASIC cao cấp. Dự kiến doanh thu mảng ASIC của năm nay sẽ vượt 1 tỷ USD, lượng xuất TPU đến năm 2027 có cơ hội đạt tới hàng chục triệu chiếc; chuỗi cung ứng Đài Loan như JY Electronics, Ching-Tek và Hon Hai cũng sẽ được hưởng lợi, và thị trường dần chuyển sang xu hướng hợp tác phân công và tương lai của chiplet, tích hợp dị chất.

ChainNewsAbmediaمنذ 1 س

Singtel 的 RE:AI 与 Mistral AI 合作,开发新加坡的 AI 基础设施

Gate News 消息,4月27日——Singtel 集团宣布,其总部位于新加坡的数字基础设施业务部门 RE:AI 已与 Mistral AI 建立合作伙伴关系,以支持新加坡各行业的 AI 能力。 该合作将重点联合开发面向金融服务、医疗保健和政府部门的 AI 基础设施与解决方案,将 RE:AI 的云能力与 Mistral AI 的开源模型结合起来。

GateNewsمنذ 1 س

何一的 YZi Labs 投资中国 AI 大语言模型公司

Gate News 消息,4月27日——何一与币安创始人赵长鹏的家族办公室 YZi Labs 一同,已投资了一家中国人工智能大语言模型公司。她在香港 Web3 嘉年华的一个私密 KOL 聚会上披露了这一消息。被投资公司的具体名称未被披露

GateNewsمنذ 1 س

يتعاون OpenAI مع MediaTek وQualcomm لتطوير معالج هاتف ذكي يعمل بالذكاء الاصطناعي، وستبدأ Foxconn Connector الإنتاج في 2028

رسالة أخبار بوابة، 27 أبريل — يتعاون OpenAI مع MediaTek وQualcomm لتطوير معالجات الهواتف الذكية، وفقًا لتحليل سلسلة التوريد الذي أجراه المحلل من Tianfeng International Securities مينغ-تشي كو. ستكون Foxconn Connector (Luxshare Precision) الشريك الحصري لتصميم النظام و

GateNewsمنذ 2 س
تعليق
0/400
لا توجد تعليقات