DeepSeek V4 Đạt Điểm Hoàn Hảo Trên Putnam-2025, Hòa Với Axiom Trong Suy Luận Toán Học Chính Thức

Tin tức từ Gate, ngày 24 tháng 4 — DeepSeek V4 đã công bố kết quả từ các bài đánh giá suy luận toán học chính thức, đạt điểm tuyệt đối 120/120 trên Putnam-2025, hòa với Axiom ở vị trí số 1.

Trong chế độ thực dụng sử dụng LeanExplore và lấy mẫu bị ràng buộc, V4-Flash-Max đạt 81.00 trên chuẩn điểm Putnam-200 Pass@8, vượt trội đáng kể so với Seed-2.0-Prover (35.50), Gemini 3 Pro (26.50) và Seed-1.5-Prover (26.50). Kết quả ở chế độ biên cho thấy V4 đứng trước Seed-1.5-Prover (110/120) và Aristotle (100/120).

V4 sử dụng một cách tiếp cận suy luận lai chính thức-vô chính thức: suy luận vô chính thức tạo ra các giải pháp ứng viên bằng ngôn ngữ tự nhiên, tự kiểm chứng lọc các kết quả, và tác nhân chính thức hoàn thiện các phép chứng chặt chẽ trong Lean. Kết quả ở chế độ biên sử dụng khả năng mở rộng tính toán quy mô lớn, trong khi điểm số ở chế độ thực dụng phản ánh tốt hơn năng lực triển khai tiêu chuẩn.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Chính phủ Trump công bố kế hoạch trấn áp AI dùng để tinh luyện, cáo buộc các doanh nghiệp Trung Quốc có hệ thống trộm năng lực mô hình

Văn phòng Chính sách Công nghệ của Nhà Trắng (OSTP) Trợ lý Tổng thống Michael J. Kratsios (Michael J. Kratsios) vào ngày 23 tháng 4 đã đưa ra tuyên bố chính thức, cho biết chính quyền Trump nắm giữ thông tin, cho thấy các thực thể nước ngoài (chủ yếu đặt tại Trung Quốc) đang cố ý nhắm mục tiêu vào các công ty trí tuệ nhân tạo lớn của Mỹ, thông qua việc “hàng chục nghìn tài khoản đại lý” và các hệ thống kỹ thuật jailbreak để có được một cách có hệ thống năng lực của các mô hình AI của Mỹ, đồng thời công bố bốn biện pháp ứng phó.

MarketWhisper7phút trước

DeepSeek ra mắt phiên bản xem trước mã nguồn mở V4, điểm kỹ thuật 3206 vượt qua GPT-5.4

DeepSeek vào ngày 24 tháng 4 đã chính thức phát hành bộ phiên bản xem trước V4, được cấp phép mở nguồn theo giấy phép MIT; trọng số mô hình đã được đồng bộ đưa lên Hugging Face và ModelScope. Theo báo cáo kỹ thuật DeepSeek V4, V4-Pro-Max (chế độ sức mạnh suy luận cao nhất) đạt 3206 điểm trên bộ chuẩn Codeforces, vượt qua GPT-5.4.

MarketWhisper23phút trước

Cambricon Hoàn Tất Thích Ứng Day 0 của DeepSeek-V4, Đánh Dấu Mốc Cho Hệ Sinh Thái Chip AI của Trung Quốc

Thông điệp Tin Cổng, ngày 24 tháng 4 — Cambricon hôm nay đã công bố rằng hãng đã hoàn tất việc thích ứng Day 0 của DeepSeek-V4, mô hình ngôn ngữ lớn mới nhất từ DeepSeek, bằng hệ sinh thái phần mềm NeuWare độc quyền của hãng và framework vLLM. Đồng thời, mã nguồn thích ứng cũng đã được công khai, đánh dấu

GateNews39phút trước

Tencent phát hành mã nguồn mở Hy3 phiên bản xem trước, bộ chuẩn kiểm thử hiệu năng mã nguồn tăng 40% so với phiên bản trước

Tencent vào ngày 23 tháng 4 đã chính thức mã nguồn mở mô hình ngôn ngữ lớn Hy3 phiên bản xem trước trên các nền tảng GitHub, Hugging Face và ModelScope, đồng thời cũng cung cấp dịch vụ API trả phí trên đám mây Tencent (Tencent Cloud). Theo Decrypt đưa tin vào ngày 24 tháng 4, Hy3 phiên bản xem trước đã bắt đầu huấn luyện từ cuối tháng 1 và, tính đến thời điểm phát hành, thời gian chưa đầy ba tháng.

MarketWhisper47phút trước

Đầu tư danh mục FTX trị giá 158 nghìn tỷ Won nếu không phá sản

FTX, sàn giao dịch tiền mã hóa tập trung đã nộp đơn xin bảo hộ phá sản theo Chương 11 vào tháng 11 năm 2022 do thiếu thanh khoản và dòng vốn rút ra, nếu không sụp đổ thì đã nắm giữ các khoản đầu tư trị giá khoảng 158,796 nghìn tỷ won, theo phân tích được trích dẫn bởi Park

CryptoFrontier49phút trước

Xiaomi Tiết Lộ Chi Tiết Huấn Luyện MiMo-V2-Pro: Tham Số Mô Hình 1T, Triển Khai Hàng Nghìn GPU

Tin tức Cổng, ngày 24 tháng 4 — Trưởng nhóm mô hình ngôn ngữ lớn của Xiaomi, Luo Fuli, đã tiết lộ trong một cuộc phỏng vấn chuyên sâu rằng mô hình MiMo-V2-Pro có tổng cộng 1 nghìn tỷ tham số và để huấn luyện cần hàng nghìn GPU. Cô cho biết quy mô 1T là ngưỡng tối thiểu để đạt hiệu năng tiến gần tới Claude Opus 4.6 và giành vé vào cửa cạnh tranh cho giai đoạn tiếp theo của các tác nhân AI

GateNews1giờ trước
Bình luận
0/400
Không có bình luận