Vision Banana của Google: Mô hình thị giác hợp nhất vượt trội các mô hình chuyên cho từng tác vụ trong phân đoạn và hình học 3D

Tin tức từ Gate, ngày 23 tháng 4 — Các nhà nghiên cứu của Google, bao gồm He Kaiming và Xie Saining, đã công bố một bài báo giới thiệu Vision Banana, một mô hình hiểu thị giác đa dụng được tạo ra thông qua tinh chỉnh hướng dẫn nhẹ của mô hình tạo ảnh Nano Banana Pro (Gemini 3 Pro Image) của công ty. Điểm đổi mới cốt lõi là hợp nhất đầu ra của mọi tác vụ thị giác dưới dạng các ảnh RGB, cho phép phân đoạn, ước lượng độ sâu và dự đoán pháp tuyến bề mặt thông qua tạo ảnh mà không cần kiến trúc hoặc hàm mất mát chuyên cho từng tác vụ.

Trong phân đoạn ngữ nghĩa, Vision Banana vượt trội mô hình chuyên biệt SAM 3 thêm 4,7 điểm phần trăm trên Cityscapes; trong phân đoạn theo biểu thức tham chiếu, nó vượt qua SAM 3 Agent. Tuy nhiên, nó chậm hơn SAM 3 trong phân đoạn theo thể hiện (instance segmentation). Với các tác vụ 3D, ước lượng độ sâu theo chuẩn metric đạt độ chính xác trung bình 0,929 trên bốn bộ dữ liệu chuẩn, vượt Depth Anything V3 ở mức 0,918, chỉ sử dụng dữ liệu tổng hợp mà không cần thông tin độ sâu thực hay tham số camera trong khi suy luận. Ước lượng pháp tuyến bề mặt đạt kết quả hiện đại nhất trên ba bộ benchmark trong nhà.

Việc tinh chỉnh liên quan đến dữ liệu tác vụ thị giác tối thiểu pha trộn vào quá trình huấn luyện tạo ảnh gốc, giữ lại năng lực tạo của mô hình—hiệu năng khớp với Nano Banana Pro ban đầu trong các bài kiểm tra chất lượng tạo ảnh. Bài báo đề xuất rằng việc tiền huấn luyện tạo ảnh trong thị giác song song với việc tiền huấn luyện tạo văn bản trong ngôn ngữ: các mô hình học các biểu diễn bên trong cần thiết cho hiểu ảnh trong quá trình tạo, và việc tinh chỉnh hướng dẫn chỉ đơn giản là mở khóa năng lực này.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Sullivan & Cromwell xin lỗi vì AI hallunation trong hồ sơ tòa án với 40 trích dẫn sai

Tin cổng, ngày 23 tháng 4 — Sullivan & Cromwell, một hãng luật lớn ở Phố Wall, đã xin lỗi một thẩm phán liên bang sau khi nộp một hồ sơ tòa án có chứa khoảng 40 trích dẫn không chính xác và các lỗi khác do hiện tượng AI hallunation. Andrew Dietderich, đồng trưởng nhóm tái cơ cấu toàn cầu của hãng, đã

GateNews8phút trước

Tencent Phát hành và Mở Mã Nguồn Bản Xem Trước Hunyuan Hy3 với 295B Tham Số

Tin Cổng ngõ, ngày 23 tháng 4 — Tencent đã giới thiệu và mở mã nguồn bản xem trước Hunyuan Hy3, một mô hình ngôn ngữ lai dạng hỗn hợp chuyên gia (mixture-of-experts) kết hợp tư duy nhanh và chậm. Mô hình bao gồm tổng cộng 295 tỷ tham số với 21 tỷ tham số hoạt động, hỗ trợ độ dài ngữ cảnh tối đa 256K

GateNews22phút trước

Hàn Quốc và Việt Nam ký hơn 70 biên bản ghi nhớ về AI, Năng lượng và Hạ tầng Dữ liệu

Tin tức Cổng, ngày 23 tháng 4 — Hàn Quốc và Việt Nam đã ký hơn 70 biên bản ghi nhớ (MOUs) trong chuyến thăm cấp nhà nước tới Hà Nội của Tổng thống Lee Jae Myung vào ngày 23 tháng 4, bao gồm các lĩnh vực AI, năng lượng, hạ tầng và viễn thông. Một diễn đàn kinh doanh với sự tham dự của hơn 500 giám đốc điều hành đã thảo luận về hệ sinh thái AI và ngành công nghiệp năng lượng, với các tập đoàn lớn của Hàn Quốc bao gồm Samsung, SK, LG và Hyundai tham gia. Samsung C&T và công ty viễn thông Việt Nam CMC đã ký một biên bản ghi nhớ để xây dựng một trung tâm dữ liệu siêu quy mô tại Thành phố Hồ Chí Minh, giai đoạn đầu 30 megawatt dự kiến có khoản đầu tư triệu. LG CNS cũng hợp tác với Tập đoàn Bưu chính và Viễn thông Việt Nam VNPT để phát triển cơ sở trung tâm dữ liệu siêu quy mô riêng biệt. Ngoài ra, hai biên bản ghi nhớ từ chuyến thăm cấp nhà nước đã phác thảo hợp tác ban đầu về năng lượng hạt nhân, bao gồm trao đổi hợp tác kỹ thuật và thảo luận về tài chính cho các dự án nhà máy điện hạt nhân tại Việt Nam. Các thỏa thuận phản ánh chiến lược mở rộng rộng hơn của Hàn Quốc ở Toàn Cầu Nam, trong đó Việt Nam đóng vai trò là trung tâm sản xuất quan trọng trong chuỗi cung ứng của Hàn Quốc. Các thương vụ phù hợp với nỗ lực của Việt Nam nhằm đa dạng hóa nhà cung cấp và giảm sự phụ thuộc vào các linh kiện điện tử của Trung Quốc, đồng thời thúc đẩy quá trình chuyển đổi sang các công nghệ tiên tiến hơn và tăng cường khả năng phục hồi của chuỗi cung ứng.

GateNews22phút trước

Động cơ chấm điểm AI bị nhiễm bẩn tập thể: Trong đáp án đúng của Gemini 3, 56% không có bằng chứng hỗ trợ

Bài viết chỉ ra rằng khi truy vấn bằng công cụ trả lời do AI tạo ra sẽ trích dẫn tức thời các trang web; nếu nguồn là do AI tạo ra hoặc thiếu bằng chứng, thì sẽ làm nhiễm bẩn kết quả. Không cần huấn luyện thêm vẫn có thể phát huy hiệu lực, được gọi là nhiễm bẩn khi truy xuất (retrieval contamination). Mặc dù Gemini3 có độ chính xác cao, nhưng 56% câu trả lời thiếu nguồn có thể xác minh; các trường hợp như Lily Ray, Grokipedia cho thấy AI rất dễ bị lừa bởi nội dung do chính mình bịa ra. Kết luận là lớp trích dẫn bị tách khỏi tác giả đáng tin cậy, tạo thành một vòng tuần hoàn nhiễm bẩn tự củng cố; người dùng vẫn phải lần theo nguồn gốc ban đầu, đừng xem câu trả lời như điểm kết thúc của việc kiểm chứng sự thật.

ChainNewsAbmedia30phút trước

Anthropic nói với tòa rằng các mô hình AI Lầu Năm Góc đã triển khai không có "nút tắt khẩn cấp"

Tin Cổng, ngày 23 tháng 4 — Anthropic đã nộp một đơn lên Tòa phúc thẩm liên bang Hoa Kỳ tại Khu vực Quận Columbia (D.C. Circuit) nêu rằng sau khi các mô hình AI của họ được triển khai trong môi trường Lầu Năm Góc, công ty không có bất kỳ khả năng quan sát hay phương tiện kỹ thuật nào để kiểm soát hoặc tắt các mô hình đó, và không tồn tại "nút tắt khẩn cấp"

GateNews32phút trước

Anthropic Ra Mắt /ultrareview Cho Claude Code: Đánh Giá Mã Trên Đám Mây Từ Nhiều Tác Nhân

Tin tức Gate, ngày 23 tháng 4 — Anthropic đã giới thiệu /ultrareview (research preview), một tính năng đánh giá mã nhiều tác nhân dựa trên đám mây cho Claude Code. Người dùng có thể gõ /ultrareview trong CLI để khởi chạy một nhóm tác nhân đánh giá trong một sandbox từ xa, nơi chúng làm việc song song để xem xét sự khác biệt giữa nhánh hiện tại và nhánh mặc định bao gồm các thay đổi chưa được commit, hoặc đánh giá trực tiếp các GitHub PR bằng cách cung cấp số PR. Toàn bộ quy trình không cần tài nguyên cục bộ và thường mất từ 5 đến 10 phút, với kết quả được trả về phiên dưới dạng thông báo. Điểm khác biệt quan trọng so với công cụ cục bộ /review nằm ở cơ chế xác minh: mỗi phát hiện được tái tạo và xác nhận độc lập bởi một tác nhân riêng, tập trung vào các lỗi thực sự thay vì các gợi ý về phong cách mã. Anthropic định vị hai công cụ cho các giai đoạn phát triển khác nhau — /review để nhận phản hồi nhanh khi đang lập trình, và /ultrareview để đánh giá sâu các thay đổi quan trọng chẳng hạn như xác thực hoặc di chuyển dữ liệu trước khi gộp. Về giá cả, /ultrareview tính thêm phí theo mức sử dụng và không tiêu thụ phần sử dụng đã bao gồm trong gói. Người dùng Pro và Max mỗi người có 3 lượt sử dụng miễn phí trước ngày 5 tháng 5 một lần, không gia hạn, sau đó mỗi lần đánh giá có giá xấp xỉ to tùy thuộc vào quy mô thay đổi. Người dùng Team và Enterprise không có hạn mức miễn phí. Tính năng này yêu cầu xác thực tài khoản Claude.ai và không khả dụng cho Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, hoặc các tổ chức có bật tính năng không lưu trữ dữ liệu ở mức bằng 0.

GateNews40phút trước
Bình luận
0/400
Không có bình luận