Trí tuệ thể hiện (Embodied AI) đang bước vào một bước ngoặt quan trọng. Gần đây, công ty robot Zhiren (Trí Nguyên) của Trung Quốc đã công bố Genie Envisioner World Simulator 2.0 (GE-Sim 2.0), với tham vọng đưa World Model (mô hình thế giới) từ công cụ chỉ dùng để hiểu môi trường, tiến lên thành bộ mô phỏng thế giới (World Simulator) có thể trực tiếp vận hành, huấn luyện và tối ưu hóa robot.

Nếu bạn vẫn chưa hiểu việc này quan trọng đến mức nào, hãy xem trước những “điểm yếu cố hữu” của kiến trúc LLM: Về mặt logic huấn luyện, LLM hiện tại chỉ dự đoán ngữ cảnh dựa trên một lượng lớn dữ liệu văn bản. Nó có thể biết rằng các từ như “táo rơi xuống” thường đi cùng với nhau, nhưng lại không thật sự hiểu mối quan hệ nhân quả của trọng lực hay thế giới vật lý.

Đó là lý do vì sao các nhà khoa học như Yang LeCun và Li Fei-Fei cũng dấn thân vào cuộc đua World Model: khi AI có khả năng hiểu môi trường 3D và dự đoán vật lý, công nghệ này sẽ trở thành “não kỹ thuật số” cho các robot tự chủ, xe tự lái và sản xuất thông minh—tức “AI vật lý” (Physical AI). Vì vậy, lộ trình của World Model cho rằng robot sẽ là một nền tảng mang tính then chốt. Hiện nay, các nhà sản xuất robot humanoid quy mô đầy đủ đã bước vào cuộc chơi như Zhiren Robotics, tượng trưng cho lực lượng tiên phong của Trung Quốc trong cuộc “ngược dòng” từ phần cứng.

Trước đó, Chủ tịch Tập đoàn TSMC, Ngụy Triết Gia, từng nói: Nếu nhìn Trung Quốc đại lục cứ làm robot nhảy qua nhảy lại, nhảy tưng tưng. Cái đó không hữu ích, chỉ để trông cho vui. Ông ấy nhấn mạnh điểm mấu chốt là phải để “bộ não” của robot vận hành được; còn bộ não do ai làm? NVIDIA (Nvidia), AMD (AMD) và một loạt công ty của Mỹ làm, nhưng 95% bộ não là do TSMC sản xuất. Nút thắt trong quá trình phát triển GE-Sim 2.0 vẫn nằm ở đó, gắn chặt với sự phát triển mô hình của Trung Quốc.

Lộ trình World Model cho rằng robot là then chốt

LLM chủ đạo hiện nay dựa vào lượng lớn dữ liệu văn bản và các quan hệ thống kê để hiểu ngữ cảnh, đồng thời dự đoán từ kế tiếp. Nó có thể biết các từ như “táo rơi xuống” thường xuất hiện cùng nhau, nhưng không thật sự hiểu mối quan hệ nhân quả của trọng lực hay thế giới vật lý.

Kiểu mô hình này thể hiện rất tốt trong tạo sinh văn bản, hỗ trợ lập trình hoặc các tác vụ hỏi đáp. Tuy nhiên, trong các tình huống cần hiểu cấu trúc thế giới thực, suy luận quan hệ nhân quả và lập kế hoạch dài hạn, nó vẫn tồn tại những giới hạn căn bản. Vấn đề lớn hơn nữa là nguồn dữ liệu đang dần cạn kiệt. Việc huấn luyện LLM phụ thuộc rất nhiều vào dữ liệu chất lượng cao từ con người, và trong những năm gần đây ngành công nghiệp đã bắt đầu cảnh báo rằng lượng dữ liệu văn bản do con người tạo ra có thể sẽ bị tiêu hao gần như hết trong vài năm tới. Khi đó, giống như cận huyết có thể gây ra khiếm khuyết di truyền, cuối cùng khiến mô hình dần lệch khỏi thực tế và xuất hiện suy giảm hiệu năng.

(Phân tích chuyên sâu: LLM có khiếm khuyết? Vì sao Yang LeCun đặt cược vào lộ trình AMI World Model)

Đó cũng là lý do tại sao trong những năm gần đây, hai nhân vật nặng ký trong giới nghiên cứu AI là Yang LeCun và Li Fei-Fei (người được gọi là “Mẹ đỡ đầu của AI”) đều lựa chọn đặt cược vào kiến trúc AI thế hệ mới được gọi là World Model (mô hình thế giới).

Từng có lần, tác giả bài viết đã nói: Xét rộng hơn, khi AI có khả năng hiểu môi trường 3D và năng lực dự đoán vật lý, thì công nghệ này sẽ trở thành “bộ não kỹ thuật số” cho robot tự chủ, xe tự lái và sản xuất thông minh—tức “AI vật lý” (Physical AI). Vì vậy, lộ trình của World Model cho rằng robot sẽ là một nền tảng mang tính then chốt. Ngày nay, khi các nhà sản xuất robot humanoid quy mô đầy đủ như Zhiren Robotics bước vào cuộc chơi, điều đó tượng trưng cho lực lượng tiên phong của Trung Quốc trong cuộc “đảo chiều” nhờ phần cứng.

Trước đó, Chủ tịch TSMC Ngụy Triết Gia, khi nói về sự phát triển của robot và chất bán dẫn, đã thẳng thắn rằng nếu nhìn Trung Quốc đại lục cứ làm robot nhảy qua nhảy lại, nhảy tưng tưng, thì cái đó không hữu ích—chỉ để trưng cho đẹp. Ông ấy cho rằng mấu chốt là phải để “bộ não” của robot có thể hoạt động; còn bộ não do ai làm, thì là NVIDIA (Nvidia), AMD (AMD) và vô số công ty của Mỹ, nhưng 95% bộ não là do TSMC sản xuất.

(Ngụy Triết Gia của TSMC châm biếm: Robot của Trung Quốc nhảy tưng tưng, chỉ để trông cho đẹp—không có ích! Mấu chốt vẫn đến từ )

Tiến hóa của World Model: từ hiểu thế giới, đến học tập trong chính thế giới đó

Trong vài năm qua, World Model luôn được xem là công nghệ then chốt giúp AI hiểu thế giới thực. Thông qua hình ảnh, ngôn ngữ và dữ liệu cảm biến, mô hình có thể dự đoán sự thay đổi của môi trường, từ đó giúp robot có năng lực ra quyết định cơ bản.

Nhưng bước đột phá cốt lõi của GE-Sim 2.0 không chỉ là hiểu thế giới, mà là học và hệ thống hành động được đưa vào trong “thế giới được tạo ra bởi mô hình”. Hành động (Action) trở thành một biến số trọng tâm; từ việc dự đoán trạng thái truyền thống, nó nâng cấp thành một vòng lặp hoàn chỉnh:

State

Action

State Evolution

Điều này có nghĩa là robot không còn chỉ quan sát và phản hồi, mà có thể chủ động thử sai trong môi trường mô phỏng, tự tối ưu hóa và học liên tục. Sự thay đổi này khiến World Model tiến hóa từ “mô hình nhận thức” thành “hạ tầng huấn luyện”.

GE-Sim 2.0: Giúp robot “tiến hóa” trong thế giới ảo

GE-Sim 2.0 được định nghĩa là một bộ “bộ mô phỏng thế giới thể hiện”, với mục tiêu cốt lõi là giải quyết ba nút thắt lớn của huấn luyện ngoài thực tế: chi phí quá cao, thiếu dữ liệu, và khó mở rộng quy mô. Bằng cách tạo ra môi trường từ mô hình, hệ thống có thể huấn luyện robot với quy mô lớn mà không cần phụ thuộc vào thế giới thực.

Về mặt kỹ thuật, GE-Sim 2.0 tích hợp ba năng lực then chốt: đầu tiên là “tạo hình ảnh dựa trên hành động”, mô hình có thể tạo ra các khung hình tương lai tương ứng dựa theo hành động của robot và duy trì tính nhất quán đa góc nhìn, bao gồm góc nhìn từ đầu và góc nhìn thao tác của tay trái lẫn tay phải.

Thứ hai là mô hình hóa cảm nhận bản thể (proprioception), không chỉ mô phỏng hình ảnh bên ngoài, mà còn có thể dự đoán trạng thái khớp và động tác của chính robot, khiến việc ra quyết định gần với thế giới vật lý thực hơn.

Thứ ba là “đánh giá nhiệm vụ tự động”; thông qua reward model (mô hình phần thưởng) được tích hợp sẵn, hệ thống có thể tự động xác định nhiệm vụ có hoàn thành hay không, ví dụ như “đặt vật màu xanh vào hộp màu đỏ”, đồng thời đưa ra phản hồi, trực tiếp dùng cho học tăng cường. Điều này cho phép robot hoàn thành vòng khép kín hoàn chỉnh trong môi trường mô phỏng:

GE-Sim 2.0 đã có thể tạo video ổn định ở cấp độ “phút”

So với các mô hình trước đó chỉ có thể tạo các đoạn video ngắn, GE-Sim 2.0 đã đạt được khả năng tạo video ổn định ở cấp độ “phút”, hỗ trợ mô phỏng nhiệm vụ trong thời gian dài. Đồng thời, nhờ huấn luyện bằng dữ liệu thật quy mô lớn (dữ liệu thao tác từ xa, triển khai và tương tác), mô hình có năng lực khái quát hóa mạnh hơn giữa các tình huống và nhiệm vụ khác nhau. Điểm này đặc biệt quan trọng đối với robot hình người: vì thao tác trong thế giới thực biến đổi cực kỳ đa dạng, không thể chỉ dựa vào huấn luyện với các tình huống cố định.

Sự xuất hiện của World Simulator có nghĩa là robot có thể “luyện tập vô hạn” trong thế giới ảo, điều này sẽ mang lại hai thay đổi mang tính cấu trúc: thứ nhất, chi phí huấn luyện giảm đáng kể; thứ hai, tốc độ lặp cải thiện năng lực tăng theo cấp số nhân.

Robot Zhiren (Trí Nguyên): Lực lượng mới trong lĩnh vực robot hình người của người Trung Quốc

Robot Zhiren được thành lập vào năm 2023, do “Thiên tài trẻ” của Huawei là Bành Chí Huy sáng lập, tập trung vào lĩnh vực trí tuệ thể hiện (embodied intelligence) kết hợp AI và robot.

Sản phẩm cốt lõi của công ty bao gồm:

Loạt robot hình người “Viễn chinh”

Hệ thống robot “Linh Tích” (Lingxi)

Mô hình nền tảng đa dụng GO-1

Hiện tại đã hoàn tất nhiều vòng gọi vốn, và nhận được đầu tư từ các tổ chức như Sequoia China và Tập đoàn quản lý tài sản Gaoling Capital (Gаoling Capital), được xem là một trong những người chơi quan trọng trong lĩnh vực robot hình người của Trung Quốc, tạo thế cạnh tranh với Unitree Technology.

Bài viết này Trí tuệ GE-Sim 2.0 của Zhiren: Dùng World Model để tạo ra thế giới, đối thủ của Unitree sẽ đẩy robot hình người hướng tới tự tiến hóa Xuất hiện sớm nhất tại 链新闻 ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Hồng Kông sẽ công bố danh sách doanh nghiệp trọng điểm đợt thứ sáu vào ngày mai

Tin tức ngành AI

Bộ trưởng Tài chính Hồng Kông Paul Chan đã công bố việc ra mắt một danh sách mới các doanh nghiệp trọng điểm, thu hút hơn 100 doanh nghiệp có giá trị trên 100 tỷ HKD trong các lĩnh vực như khoa học đời sống, AI và fintech, qua đó nhấn mạnh sức hấp dẫn của Hồng Kông đối với đầu tư quốc tế.

GateNews1giờ trước

Robot Lightning của Honor giành chiến thắng tại Giải nửa marathon robot hình người Bắc Kinh 2026 với thành tích 50:26

Tin tức ngành AI

Robot người máy hình người "Lightning" của Honor đã lập kỷ lục mới tại Giải nửa marathon robot hình người Bắc Kinh Yizhuang 2026, hoàn thành cuộc đua trong 50 phút 26 giây, vượt kỷ lục thế giới của con người.

GateNews4giờ trước

Cổ phiếu Meta Tăng 1,73% khi Công Ty Lên Kế Hoạch Sa Thải 8.000 Nhân Sự Bắt Đầu Từ Ngày 20/5

Cổ phiếu Tin tức ngành AI

Meta Platforms dự kiến cắt khoảng 8.000 việc làm, tương đương 10% lực lượng lao động, bắt đầu từ ngày 20/5, bất chấp giá cổ phiếu tăng. Công ty, với hơn $200 tỷ USD doanh thu, đang tập trung vào các khoản đầu tư cho AI trong bối cảnh tái cơ cấu đáng kể, phù hợp với xu hướng của ngành về các đợt sa thải.

GateNews12giờ trước

Báo cáo thường niên của Google cho biết Gemini thực hiện chặn theo mili giây, chặn 99% quảng cáo lừa đảo

Tin tức ngành AI

Bài viết thảo luận cách Google tăng cường an toàn quảng cáo thông qua hệ thống trí tuệ nhân tạo tạo sinh Gemini của mình; báo cáo cho thấy tốc độ của việc chặn các quảng cáo vi phạm đã được rút ngắn xuống còn mili giây, với tỷ lệ chặn đạt 99%. Năm ngoái, Google đã gỡ 8,3 tỷ lượt quảng cáo và tạm dừng 24,9 triệu tài khoản, cho thấy số lượng quảng cáo lừa đảo đã tăng mạnh. Các chuyên gia cho biết, đây là cuộc đối đầu giữa trí tuệ nhân tạo và trí tuệ nhân tạo; trong tương lai vẫn cần đối mặt với những thách thức do AI mang lại về các hành vi hợp pháp và bất hợp pháp.

ChainNewsAbmedia14giờ trước

Đồng sáng lập Ethereum Lubin: AI sẽ là bước ngoặt then chốt cho crypto, nhưng độc quyền của các gã khổng lồ công nghệ tạo ra rủi ro mang tính hệ thống

ethereum news Tác nhân AI Tin tức ngành AI

Đồng sáng lập Ethereum Joseph Lubin nhấn mạnh tiềm năng mang tính đột phá của AI đối với lĩnh vực tiền mã hóa, đồng thời cảnh báo về các rủi ro của việc tập trung hóa giữa các gã khổng lồ công nghệ. Ông hình dung các giao dịch tự động do AI thúc đẩy trên blockchain và nhấn mạnh sự hội tụ giữa tài chính truyền thống với DeFi.

GateNews16giờ trước

Elon Musk Thúc Đẩy Các Khoản Chi Trả “Thu Nhập Cao Phổ Quát” như Giải Pháp Tối Ưu Cho Tình Trạng Thất Nghiệp Do AI

Tin tức ngành AI

Elon Musk ủng hộ Thu nhập cao phổ quát (Universal High Income) để chống lại nạn thất nghiệp do AI gây ra, hình dung về một tương lai với hàng hóa dồi dào và lạm phát bằng không. Ngược lại, các chuyên gia như Sam Altman lại lo ngại về việc mất việc làm và đề xuất các biện pháp bảo vệ cho người lao động.

Coinpedia16giờ trước

Bình luận

0/400

Không có bình luận