Quét để tải ứng dụng Gate

Thêm tùy chọn tải xuống

Không cần nhắc lại hôm nay

Gemini 3 đêm khuya tấn công: vượt qua GPT 5.1, thời đại mô hình lớn của Google đã đến.

DeepFlowTech

2025-11-19 01:35:34

Gemini 3 vẫn chưa xuất hiện, Twitter đã sập trước.

Không có mô hình nào được phát hành thu hút sự chú ý nhiều hơn Gemini 3, dựa trên tần suất cập nhật một lần mỗi 3 tháng của Gemini trước đó, cộng đồng AI đã mong chờ Gemini 3 kể từ tháng 9.

Hôm nay, người đứng đầu quan hệ phát triển của Google, người phụ trách Google AI Studio đã đăng một tweet chỉ gồm từ “Gemini”, đánh dấu điểm bùng phát của sự chờ đợi kéo dài nhiều tháng, chủ đề liên quan trên Twitter lập tức sôi sục.

Thú vị là, gần đến thời điểm phát hành, Twitter lại bị sập vài lần một cách “đúng lúc”. Mặc dù “thủ phạm” là Cloudflare, nhưng thời điểm sập này chính xác đến mức khiến người ta nghi ngờ có ai đó đứng sau giật dây (thì thầm: dù sao Twitter cũng là chiến trường quảng bá chính của các mô hình).

Không biết Elon Musk cảm thấy thế nào về việc vừa phát hành Grok 4.1 sáng nay, nhưng những hình ảnh meme của netizen đã tràn ngập.

Ngay vừa rồi, Gemini 3 cuối cùng đã chính thức ra mắt, hãy cùng xem nó mạnh mẽ đến mức nào khi ra mắt dưới sự chú ý của mọi người.

Mô hình thông minh nhất

Thực tế cho thấy, Google không làm những người chờ đợi thất vọng, Gemini 3 đã chính thức ra mắt, một lần nữa định nghĩa SOTA, Ultraman và Musk cũng đã gửi lời chúc mừng.

Google định nghĩa nó là “một bước quan trọng hướng tới AGI” và nhấn mạnh rằng đây là thực thể có khả năng hiểu đa phương tiện mạnh mẽ nhất và tương tác sâu nhất trên thế giới hiện nay.

Gemini 3 không chỉ làm mới tiêu chuẩn SOTA về khả năng suy luận cơ bản, mà còn thông qua việc ra mắt nền tảng Google Antigravity hoàn toàn mới và chế độ Deep Think, cố gắng định hình lại hệ sinh thái phát triển và trải nghiệm hỗ trợ AI.

Quái vật lý luận chiếm lĩnh toàn bộ bảng xếp hạng

Gemini 3 Pro được chính thức gọi là “mô hình suy luận tiên tiến nhất”, đã vượt trội hơn hẳn thế hệ trước là Gemini 2.5 Pro trong hầu hết các bài kiểm tra chuẩn AI chính thống và hoàn toàn áp đảo các đối thủ chính như Claude Sonnet 4.5 và GPT-5.1.

Gemini 3 Pro với điểm số đột phá 1501 Elo đã đứng đầu Bảng xếp hạng LMArena, đạt điểm cao nhất trong Humanity’s Last Exam (đạt 37.5% mà không sử dụng bất kỳ công cụ nào) và GPQA Diamond (91.9%), thể hiện khả năng suy luận ở trình độ tiến sĩ. Nó cũng đã thiết lập tiêu chuẩn mới cho các mô hình tiên tiến trong lĩnh vực toán học, đạt mức SOTA mới 23.4% trên MathArena Apex.

Ngoài văn bản và logic, Gemini 3 Pro còn định nghĩa lại giới hạn của suy luận đa mô hình. Nó đã đạt được điểm cao lần lượt là 81% và 87,6% trên MMMU-Pro và Video-MMMU, điều này có nghĩa là cho dù là phân tích các biểu đồ khoa học phức tạp hay hiểu các luồng video động, nó đều rất linh hoạt.

Đáng chú ý hơn là nó đạt được 72,1% trên SimpleQA Verified, cho thấy sự tiến bộ lớn trong độ chính xác của sự thật - nó không chỉ mạnh mẽ mà còn đáng tin cậy.

Từ chối những người bạn tư duy nịnh hót

Sự tiến hóa của Gemini 3 Pro không chỉ ở điểm số hiệu năng, mà còn ở chất lượng tương tác. Nó từ bỏ những lời sáo rỗng và sự nịnh bợ thường thấy ở AI trước đây, trở nên thông minh, đơn giản và trực tiếp: cho bạn biết những gì bạn cần nghe, chứ không chỉ là những gì bạn thích nghe.

Nó đóng vai trò như một người bạn tư duy thực sự, cung cấp cho bạn những cách mới để hiểu thông tin và thể hiện bản thân, từ việc dịch các khái niệm khoa học khó hiểu bằng cách tạo ra các mã hóa hình ảnh chất lượng cao, đến việc động não sáng tạo.

Gemini 3 Deep Think

Chế độ Deep Think Gemini 3 mở rộng ranh giới của trí tuệ, mang lại tiến bộ đáng kể về khả năng suy luận và hiểu biết đa phương thức của Gemini 3, giúp bạn giải quyết những vấn đề phức tạp hơn.

Trong thử nghiệm, Gemini 3 Deep Think đã thể hiện tốt hơn Gemini 3 Pro với điểm số 41.0% trong Humanity's Last Exam (không sử dụng công cụ) và 93.8% trong GPQA Diamond, đây đều là những thành tích xuất sắc. Ngoài ra, nó cũng đạt được điểm số chưa từng có là 45.1% trong ARC-AGI-2 (thực thi mã, đã được xác thực qua ARC Prize), cho thấy khả năng giải quyết những thách thức hoàn toàn mới của nó.

Chế độ Gemini 3 Deep Think thể hiện xuất sắc trong một số bài kiểm tra chuẩn AI khó khăn nhất.

Học tập, xây dựng và lập kế hoạch

Học bất kỳ điều gì

Gemini từ ban đầu đã nhằm mục đích tích hợp liền mạch nhiều thông tin đa phương thức về bất kỳ chủ đề nào, bao gồm văn bản, hình ảnh, video, âm thanh và mã. Gemini 3 kết hợp khả năng suy luận tiên tiến, khả năng hiểu hình ảnh và không gian, hiệu suất đa ngôn ngữ hàng đầu cùng với cửa sổ ngữ cảnh hàng triệu token, mở rộng hơn nữa ranh giới của suy luận đa phương thức, giúp bạn học theo cách phù hợp nhất với bản thân.

Ví dụ, nếu bạn muốn học cách nấu các món ăn truyền thống của gia đình, Gemini 3 có thể giải mã và dịch các công thức nấu ăn viết tay bằng nhiều ngôn ngữ khác nhau, tạo ra các công thức có thể chia sẻ với gia đình.

Hoặc, nếu bạn muốn học một chủ đề mới, bạn có thể cung cấp các bài báo học thuật, video giảng bài dài hoặc hướng dẫn, nó có thể tạo ra các thẻ nhớ tương tác, hình ảnh trực quan hoặc mã ở định dạng khác, giúp bạn nắm vững kiến thức liên quan.

Nó thậm chí có thể phân tích video trận đấu pickleball của bạn, tìm ra những điểm có thể cải thiện và xây dựng kế hoạch tập luyện, giúp bạn nâng cao kỹ năng chơi bóng.

Để giúp bạn hiểu tốt hơn thông tin trên mạng, chế độ AI trong tìm kiếm hiện đang sử dụng Gemini 3 để tạo ra trải nghiệm giao diện người dùng mới, chẳng hạn như bố cục hình ảnh nhập vai, công cụ tương tác và mô phỏng, tất cả đều được tạo ra ngay lập tức dựa trên truy vấn của bạn.

Phát triển bất kỳ thứ gì

Dựa trên thành công của 2.5 Pro, Gemini 3 đã thực hiện cam kết biến mọi ý tưởng của các nhà phát triển thành hiện thực. Nó thể hiện xuất sắc trong việc tạo ra mẫu không có, có khả năng xử lý các gợi ý và chỉ dẫn phức tạp, từ đó tạo ra các giao diện người dùng Web phong phú và tương tác hơn.

Gemini 3 là mô hình mã hóa Vibe và mã hóa Agent tốt nhất mà Google xây dựng cho đến nay, giúp sản phẩm của Google tự động hơn và nâng cao đáng kể hiệu suất của các nhà phát triển. Nó đứng đầu bảng xếp hạng WebDev Arena với điểm Elo ấn tượng 1487. Hơn nữa, nó cũng đạt được 54.2% trong bài kiểm tra Terminal-Bench 2.0, bài kiểm tra này nhằm đánh giá khả năng sử dụng công cụ của mô hình trong việc điều khiển máy tính qua terminal. Đồng thời, nó cũng vượt trội hơn hẳn phiên bản 2.5 Pro (điểm số 76.2%) trong bài kiểm tra SWE-bench Verified, bài kiểm tra này được sử dụng để đo lường hiệu suất của các đại lý mã hóa.

Bây giờ, người dùng có thể sử dụng Google AI Studio, Vertex AI, Gemini CLI và nền tảng phát triển thông minh mới của Google, Google Antigravity, với Gemini 3 để xây dựng. Nó cũng phù hợp với các nền tảng bên thứ ba như Cursor, GitHub, JetBrains, Manus, Replit.

Ví dụ như viết một trò chơi tàu vũ trụ 3D cổ điển với hiệu ứng hình ảnh phong phú hơn và tính tương tác mạnh mẽ hơn.

Ví dụ, viết UI web và ứng dụng phong phú và tương tác hơn:

Lập kế hoạch cho bất kỳ điều gì

Kể từ khi Gemini 2 ra mắt, Gemini đã cải thiện đáng kể khả năng lập kế hoạch trong các nhiệm vụ dài hạn.

Khả năng lập kế hoạch của Gemini 3 đã được xác nhận thêm trong bài kiểm tra Vending-Bench 2: Gemini 3 đã đứng đầu bảng xếp hạng trong bài kiểm tra mô phỏng kinh doanh máy bán hàng tự động, quản lý hoạt động thương mại ảo thông qua lập kế hoạch dài hạn.

Trong quá trình vận hành mô phỏng đầy đủ trong một năm, Gemini 3 Pro luôn duy trì sự ổn định trong việc gọi công cụ và tính nhất quán trong quyết định, đồng thời đạt được lợi suất đầu tư cao hơn khi tập trung vào các mục tiêu nhiệm vụ.

Gemini 3 Pro thể hiện khả năng lập kế hoạch dài hạn vượt trội hơn, so với các mô hình tiên tiến khác, có thể tạo ra lợi nhuận cao hơn.

Gemini Agent còn có thể giúp sắp xếp hộp thư đến Gmail.

Gemini 3 hiện đã được mở rộng hoàn toàn. Từ hôm nay, người dùng thông thường và người dùng đăng ký có thể sử dụng mô hình mới thông qua ứng dụng Gemini và chế độ tìm kiếm AI; các nhà phát triển và khách hàng doanh nghiệp cũng có thể kết nối thông qua AI Studio, Vertex AI và các kênh khác. Về chế độ “suy nghĩ sâu sắc” rất được mong đợi, dự kiến sẽ ra mắt độc quyền cho người dùng đăng ký Google AI Ultra trong vài tuần tới.

Ngoài ra, theo các thông tin quan trọng đáng chú ý từ mô hình đã bị rò rỉ trước đó: Google sử dụng TPU để huấn luyện mô hình này từ đầu, với vai trò là một MoE, có 1 triệu đầu vào và 64k đầu ra token, MoE có nghĩa là họ có thể đủ khả năng để làm cho nó trở nên rẻ.

Về giá cả, Gemini 3.0 Pro đã giới thiệu cơ chế định giá phân cấp dựa trên độ dài ngữ cảnh: đối với các nhiệm vụ dưới 200k token, giá đầu vào / đầu ra là $2.00/$12.00 (mỗi triệu token); vượt quá 200k token sẽ lần lượt là $4.00 và $18.00.

Trải nghiệm phát triển “Ưu tiên trí tuệ nhân tạo” hoàn toàn mới

Google Antigravity là nền tảng phát triển trí tuệ nhân tạo mới nhất của Google, cho phép các nhà phát triển hoạt động ở cấp độ cao hơn, theo định hướng nhiệm vụ. Với khả năng suy luận tiên tiến, sử dụng công cụ và lập trình trí tuệ nhân tạo của Gemini 3, Google Antigravity biến AI từ một công cụ trong hộp công cụ của nhà phát triển thành một đối tác tích cực.

Mặc dù lõi của Google Antigravity là trải nghiệm IDE (Môi trường phát triển tích hợp) AI quen thuộc, nhưng các tác nhân của nó đã được nâng lên một giao diện chuyên dụng và được cấp quyền truy cập trực tiếp vào trình chỉnh sửa, terminal và trình duyệt. Bây giờ, các tác nhân có thể tự lập kế hoạch và thực hiện đồng thời các nhiệm vụ phần mềm phức tạp từ đầu đến cuối, đồng thời xác minh mã của chính chúng.

Ngoài Gemini 3 Pro, Google Antigravity còn kết hợp chặt chẽ với mô hình Gemini 2.5 Computer Use mới nhất của Google dành cho điều khiển trình duyệt, cũng như mô hình chỉnh sửa hình ảnh hàng đầu của nó là Nano Banana (Gemini 2.5 Image).

trải nghiệm một tay

Vì Gemini 3 Pro phiên bản xem trước đã ra mắt trên nền tảng AI Studio, chúng tôi cũng đã trải nghiệm một lần.

Lời nhắc: SVG của ĐƯỜNG HORIZON NEW YORK Sử dụng bất kỳ thư viện nào để thực hiện điều này nhưng hãy chắc chắn rằng tôi có thể dán tất cả vào một tệp HTML duy nhất và mở nó trong Chrome. Hãy làm cho nó thú vị và rất chi tiết, cho thấy những chi tiết mà không ai mong đợi, hãy sáng tạo và vẻ đẹp đầy đủ trong một khối mã.

Gợi ý: Tạo một trò chơi Space Invaders hấp dẫn về mặt hình ảnh.

Một SVG hoạt hình của một con chim pelican đang đạp xe.

So với phiên bản trước, Gemini 3 đã có những tiến bộ lớn, nhưng vẫn còn một số lỗi, chẳng hạn như bàn đạp xe đạp quay trên không.

Chúng tôi đã thay đổi một từ gợi ý rõ ràng hơn: Tạo một mã SVG hoạt hình hoàn chỉnh, độc lập, không có tệp hoặc hình ảnh bên ngoài ( của một chú bồ nông dễ thương đang đạp xe từ góc nhìn bên. Lần này, chiếc xe đạp do Gemini 3 tạo ra dường như không có bàn đạp.

Viết ở cuối

Trong cuộc bỏ phiếu “Đến cuối năm 2026, công ty nào sở hữu LLM tốt nhất?” do blogger X Chubby khởi xướng, Google Gemini đang dẫn đầu xa.

Sự phục hồi niềm tin trên thị trường này cũng được thể hiện trong dữ liệu, CEO của Alphabet Sundar Pichai đã nhìn lại những tiến bộ của Gemini trong hai năm qua trên blog chính thức: Người dùng hoạt động hàng tháng của AI Overviews đã đạt 2 tỷ, số lượt truy cập hàng tháng của ứng dụng Gemini đã vượt 650 triệu, bên cạnh đó, hơn 70% khách hàng đám mây và 13 triệu nhà phát triển đang sử dụng mô hình sinh tạo của nó.

Nhìn lại hai năm qua, từ việc Bard (tiền thân của Gemini) ra mắt một cách vội vàng và sự sụt giảm giá cổ phiếu, đến việc hợp nhất Google DeepMind, triệu hồi người sáng lập và giành giải Nobel, Google đã hoàn thành một cuộc “quay đầu con voi” kiểu mẫu.

Người khổng lồ từng định nghĩa Transformer, nay “Tất cả trong Gemini”, đã sẵn sàng cho một cuộc phản công toàn diện.

Về việc nó có thể kết thúc cuộc chiến “LLM tốt nhất” hay không? Đừng vội, hãy để đạn (và máy chủ) bay thêm một chút nữa.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.