Li Feifei, người sáng lập World Labs và được mệnh danh là “Mẹ đỡ đầu của AI”, đã được phỏng vấn để thảo luận về sự cần thiết của AI để vượt ra ngoài ngôn ngữ và phát triển “trí thông minh không gian” để máy móc có thể thực sự hiểu và xây dựng thế giới vật lý 3D. (Tóm tắt nội dung: Báo cáo công nghệ bom tấn của đối tác cũ a16z: AI đang ăn thế giới như thế nào? (Bối cảnh được thêm vào: Bridgewater Dalio: Còn quá sớm để bán cổ phiếu AI!) Bởi vì “kim xuyên qua bong bóng” vẫn chưa phát) Vào thời điểm mà các mô hình ngôn ngữ quy mô lớn đang càn quét thế giới, Fei-Fei Li, giáo sư tại Đại học Stanford được mệnh danh là “mẹ đỡ đầu của AI”, đã đặt mục tiêu của mình vào biên giới tiếp theo của trí tuệ nhân tạo: trí tuệ không gian. Sau khi rời Google Cloud, Li Feifei thành lập công ty khởi nghiệp nổi tiếng World Labs và ra mắt sản phẩm mô hình thế giới đầu tiên, Marble. Trong cuộc phỏng vấn chuyên sâu này với Eye on AI, Li Feifei giải thích lý do tại sao AI không chỉ phải hiểu từ mà còn phải có khả năng “nhìn”, “nhận thức” và “xây dựng” thế giới 3D. Cuộc phỏng vấn này đề cập đến một số chủ đề cốt lõi, bao gồm: Ngoài ngôn ngữ: Tại sao kiến thức của con người không thể được nắm bắt đầy đủ bằng lời nói và AI cần học đa phương thức? Giải mã kỹ thuật: Làm thế nào mô hình “RTFM” của World Labs có thể tạo ra thế giới 3D nhất quán về mặt hình học chỉ với một GPU? Ý kiến học thuật: Những điểm tương đồng và khác biệt giữa phương pháp luận của Li Feifei và khái niệm mô hình thế giới của Yann LeCun, nhà khoa học AI trưởng của Meta là gì? Triển vọng tương lai: Khi nào AI sẽ thực sự hiểu các định luật vật lý và thậm chí thể hiện sự sáng tạo của nghiên cứu khoa học? Đây là bản dịch tiếng Trung đầy đủ của cuộc trò chuyện tuyệt vời này. Người điều hành: Tôi không muốn dành quá nhiều thời gian để nói về Marble - mô hình mới của bạn tạo ra một thế giới 3D nhất quán và bền bỉ di chuyển người xem qua nó, mặc dù nó thực sự tuyệt vời. Tôi muốn khám phá thêm về lý do tại sao bạn tập trung vào “mô hình thế giới” và “trí thông minh không gian”? Tại sao điều này lại cần thiết để vượt ra ngoài việc học ngôn ngữ? Và phương pháp của bạn khác với Yann LeCun như thế nào? Trước hết, bạn có thể nói về việc liệu mô hình thế giới có bắt nguồn từ nghiên cứu của bạn về Trí thông minh xung quanh hay nó là một con đường nghiên cứu song song? Feifei Li: Công việc trí tuệ không gian mà tôi đã suy nghĩ trong vài năm qua thực sự là sự tiếp nối toàn bộ sự nghiệp của tôi tập trung vào thị giác máy tính và trí tuệ thị giác. Tôi nhấn mạnh “không gian” vì công nghệ của chúng tôi đã tiến bộ đến mức độ phức tạp và chiều sâu của nó không còn bị giới hạn trong việc nhìn vào hình ảnh hoặc hiểu những bộ phim đơn giản. Nó có khả năng nhận thức chiều sâu, không gian và được kết nối với robot, AI hiện thân và AI môi trường. Vì vậy, từ quan điểm đó, nó thực sự là sự tiếp nối sự nghiệp của tôi trong lĩnh vực thị giác máy tính và AI. Người điều hành: Tôi cũng đã nói về tầm quan trọng của trí thông minh không gian trên podcast này một thời gian. Các mô hình ngôn ngữ học hỏi từ kiến thức của con người được mã hóa bằng từ, nhưng đó chỉ là một phần nhỏ trong kiến thức của con người. Như bạn và nhiều người khác đã chỉ ra, con người thường học bằng cách tương tác với thế giới mà không cần ngôn ngữ. Vì vậy, điều đó rất quan trọng, và mặc dù các LLM hiện tại rất tuyệt vời, nhưng nếu chúng ta muốn vượt ra ngoài chúng, chúng ta cần phát triển các mô hình trải nghiệm thế giới trực tiếp hơn và học hỏi trực tiếp từ nó. Cách tiếp cận của bạn - tất nhiên, Marble là một ví dụ - là lấy các biểu diễn bên trong mà mô hình học được và sử dụng các biểu diễn đó để tạo ra một thực tế trực quan bên ngoài. Mặt khác, cách tiếp cận của LeCun xây dựng các biểu diễn nội bộ từ kinh nghiệm trực tiếp hoặc đầu vào video, cho phép mô hình học những thứ như định luật vật lý chuyển động. Có mối quan hệ song song giữa hai điều này không? Hai cách tiếp cận này bổ sung hay chồng chéo? Feifei Li: Trước hết, tôi không thực sự đọ sức với Yann, bởi vì tôi nghĩ cả hai chúng tôi đều nằm trong phạm vi học thuật dẫn đến trí thông minh không gian và mô hình thế giới. Bạn có thể đã đọc bài báo dài gần đây của tôi, “Tuyên ngôn về Trí tuệ Không gian”, trong đó tôi đã nói rõ. Tôi thực sự nghĩ rằng nếu cuối cùng chúng ta xem xét một mô hình phổ quát, toàn năng của thế giới, thì cả “đại diện ngầm” và cuối cùng là một mức độ nào đó của “đại diện rõ ràng” - đặc biệt là ở cấp độ đầu ra - có thể cần thiết. Mỗi người đóng một vai trò khác nhau. Ví dụ: mô hình thế giới hiện tại của World Labs, Marble, xuất ra các biểu diễn 3D một cách rõ ràng, nhưng bên trong mô hình, có các biểu diễn ngầm ngoài đầu ra rõ ràng. Thành thật mà nói, tôi nghĩ cuối cùng chúng ta cần cả hai. Đối với các phương thức đầu vào, vâng, điều rất quan trọng là phải học hỏi từ bộ phim. Toàn bộ thế giới là một đầu vào được tạo thành từ một số lượng lớn các khung hình liên tiếp, nhưng đối với một tác nhân hoặc đơn giản là một con vật, thế giới không chỉ là một cái nhìn thụ động. Nó cũng bao gồm chuyển động, tương tác, trải nghiệm xúc giác, âm thanh, mùi và trải nghiệm hiện thân như lực vật lý và nhiệt độ. Vì vậy, tôi nghĩ đó là đa phương thức sâu. Tất nhiên, Marble như một mô hình chỉ là bước đầu tiên, nhưng trong bài báo kỹ thuật mà chúng tôi đã xuất bản cách đây vài ngày, chúng tôi đã nói rõ rằng chúng tôi tin rằng đa phương thức vừa là mô hình học tập vừa là mô hình đầu vào. Đã có rất nhiều cuộc thảo luận học thuật về điều này, điều này cũng cho thấy sự phấn khích ban đầu trong lĩnh vực này. Vì vậy, tôi sẽ không nói rằng chúng ta đã khám phá đầy đủ kiến trúc và biểu diễn mô hình chính xác. Người điều hành: Trong mô hình thế giới của bạn, đầu vào chủ yếu là video, và sau đó mô hình xây dựng một đại diện nội bộ của thế giới? Li Feifei: Không hẳn. Nếu bạn đã trải nghiệm mô hình thế giới của chúng tôi, Marble, đầu vào của nó thực sự rất phương thức. Bạn có thể sử dụng văn bản thuần túy, một hoặc nhiều hình ảnh, phim hoặc bạn có thể nhập bố cục 3D thô như hình vuông hoặc voxel Voxel. Vì vậy, nó là đa phương thức và chúng tôi sẽ tiếp tục đào sâu điều đó khi chúng tôi phát triển. Phỏng vấn: Ngoài việc là một sản phẩm tuyệt vời với nhiều ứng dụng, tham vọng của bạn là xây dựng một hệ thống – như tôi đã nói đầu vào là một bộ phim – một hệ thống học hỏi từ kinh nghiệm trực tiếp? Đó là học thông qua video hay các phương thức khác, thay vì thông qua các phương tiện thứ cấp như văn bản? Feifei Li: Vâng, tôi nghĩ mô hình thế giới là tìm hiểu về thế giới, và thế giới rất đa phương thức. Cho dù đó là máy móc hay động vật, chúng ta đều đa giác quan. Học tập diễn ra thông qua nhận thức, và nhận thức có các phương thức khác nhau. Từ ngữ là một trong những hình thức đó. Đây cũng là điều khiến chúng ta khác biệt với động vật, bởi vì hầu hết các loài động vật không học thông qua ngôn ngữ phức tạp, nhưng con người thì có. Tuy nhiên, mô hình thế giới AI ngày nay học hỏi từ một số lượng lớn đầu vào ngôn ngữ và các phương thức khác, nhưng nó không chỉ giới hạn ở ngôn ngữ như một kênh. Người điều hành: Một trong những hạn chế của LLM là các thông số mô hình được cố định sau khi đào tạo và mô hình không học liên tục. Mặc dù có một số mức độ học hỏi trong việc kiểm tra suy luận, nhưng đây có phải là những gì bạn đang cố gắng giải quyết trong mô hình thế giới của mình không? Bởi vì có lý do là mô hình thế giới nên có thể liên tục học hỏi khi nó gặp một môi trường mới. Li Feifei: Đúng vậy…
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Li Feifei nói về bước tiếp theo của LLM: AI phải có "trí tuệ không gian" để hiểu thế giới thực, Marble làm thế nào để thực hiện điều đó?
Li Feifei, người sáng lập World Labs và được mệnh danh là “Mẹ đỡ đầu của AI”, đã được phỏng vấn để thảo luận về sự cần thiết của AI để vượt ra ngoài ngôn ngữ và phát triển “trí thông minh không gian” để máy móc có thể thực sự hiểu và xây dựng thế giới vật lý 3D. (Tóm tắt nội dung: Báo cáo công nghệ bom tấn của đối tác cũ a16z: AI đang ăn thế giới như thế nào? (Bối cảnh được thêm vào: Bridgewater Dalio: Còn quá sớm để bán cổ phiếu AI!) Bởi vì “kim xuyên qua bong bóng” vẫn chưa phát) Vào thời điểm mà các mô hình ngôn ngữ quy mô lớn đang càn quét thế giới, Fei-Fei Li, giáo sư tại Đại học Stanford được mệnh danh là “mẹ đỡ đầu của AI”, đã đặt mục tiêu của mình vào biên giới tiếp theo của trí tuệ nhân tạo: trí tuệ không gian. Sau khi rời Google Cloud, Li Feifei thành lập công ty khởi nghiệp nổi tiếng World Labs và ra mắt sản phẩm mô hình thế giới đầu tiên, Marble. Trong cuộc phỏng vấn chuyên sâu này với Eye on AI, Li Feifei giải thích lý do tại sao AI không chỉ phải hiểu từ mà còn phải có khả năng “nhìn”, “nhận thức” và “xây dựng” thế giới 3D. Cuộc phỏng vấn này đề cập đến một số chủ đề cốt lõi, bao gồm: Ngoài ngôn ngữ: Tại sao kiến thức của con người không thể được nắm bắt đầy đủ bằng lời nói và AI cần học đa phương thức? Giải mã kỹ thuật: Làm thế nào mô hình “RTFM” của World Labs có thể tạo ra thế giới 3D nhất quán về mặt hình học chỉ với một GPU? Ý kiến học thuật: Những điểm tương đồng và khác biệt giữa phương pháp luận của Li Feifei và khái niệm mô hình thế giới của Yann LeCun, nhà khoa học AI trưởng của Meta là gì? Triển vọng tương lai: Khi nào AI sẽ thực sự hiểu các định luật vật lý và thậm chí thể hiện sự sáng tạo của nghiên cứu khoa học? Đây là bản dịch tiếng Trung đầy đủ của cuộc trò chuyện tuyệt vời này. Người điều hành: Tôi không muốn dành quá nhiều thời gian để nói về Marble - mô hình mới của bạn tạo ra một thế giới 3D nhất quán và bền bỉ di chuyển người xem qua nó, mặc dù nó thực sự tuyệt vời. Tôi muốn khám phá thêm về lý do tại sao bạn tập trung vào “mô hình thế giới” và “trí thông minh không gian”? Tại sao điều này lại cần thiết để vượt ra ngoài việc học ngôn ngữ? Và phương pháp của bạn khác với Yann LeCun như thế nào? Trước hết, bạn có thể nói về việc liệu mô hình thế giới có bắt nguồn từ nghiên cứu của bạn về Trí thông minh xung quanh hay nó là một con đường nghiên cứu song song? Feifei Li: Công việc trí tuệ không gian mà tôi đã suy nghĩ trong vài năm qua thực sự là sự tiếp nối toàn bộ sự nghiệp của tôi tập trung vào thị giác máy tính và trí tuệ thị giác. Tôi nhấn mạnh “không gian” vì công nghệ của chúng tôi đã tiến bộ đến mức độ phức tạp và chiều sâu của nó không còn bị giới hạn trong việc nhìn vào hình ảnh hoặc hiểu những bộ phim đơn giản. Nó có khả năng nhận thức chiều sâu, không gian và được kết nối với robot, AI hiện thân và AI môi trường. Vì vậy, từ quan điểm đó, nó thực sự là sự tiếp nối sự nghiệp của tôi trong lĩnh vực thị giác máy tính và AI. Người điều hành: Tôi cũng đã nói về tầm quan trọng của trí thông minh không gian trên podcast này một thời gian. Các mô hình ngôn ngữ học hỏi từ kiến thức của con người được mã hóa bằng từ, nhưng đó chỉ là một phần nhỏ trong kiến thức của con người. Như bạn và nhiều người khác đã chỉ ra, con người thường học bằng cách tương tác với thế giới mà không cần ngôn ngữ. Vì vậy, điều đó rất quan trọng, và mặc dù các LLM hiện tại rất tuyệt vời, nhưng nếu chúng ta muốn vượt ra ngoài chúng, chúng ta cần phát triển các mô hình trải nghiệm thế giới trực tiếp hơn và học hỏi trực tiếp từ nó. Cách tiếp cận của bạn - tất nhiên, Marble là một ví dụ - là lấy các biểu diễn bên trong mà mô hình học được và sử dụng các biểu diễn đó để tạo ra một thực tế trực quan bên ngoài. Mặt khác, cách tiếp cận của LeCun xây dựng các biểu diễn nội bộ từ kinh nghiệm trực tiếp hoặc đầu vào video, cho phép mô hình học những thứ như định luật vật lý chuyển động. Có mối quan hệ song song giữa hai điều này không? Hai cách tiếp cận này bổ sung hay chồng chéo? Feifei Li: Trước hết, tôi không thực sự đọ sức với Yann, bởi vì tôi nghĩ cả hai chúng tôi đều nằm trong phạm vi học thuật dẫn đến trí thông minh không gian và mô hình thế giới. Bạn có thể đã đọc bài báo dài gần đây của tôi, “Tuyên ngôn về Trí tuệ Không gian”, trong đó tôi đã nói rõ. Tôi thực sự nghĩ rằng nếu cuối cùng chúng ta xem xét một mô hình phổ quát, toàn năng của thế giới, thì cả “đại diện ngầm” và cuối cùng là một mức độ nào đó của “đại diện rõ ràng” - đặc biệt là ở cấp độ đầu ra - có thể cần thiết. Mỗi người đóng một vai trò khác nhau. Ví dụ: mô hình thế giới hiện tại của World Labs, Marble, xuất ra các biểu diễn 3D một cách rõ ràng, nhưng bên trong mô hình, có các biểu diễn ngầm ngoài đầu ra rõ ràng. Thành thật mà nói, tôi nghĩ cuối cùng chúng ta cần cả hai. Đối với các phương thức đầu vào, vâng, điều rất quan trọng là phải học hỏi từ bộ phim. Toàn bộ thế giới là một đầu vào được tạo thành từ một số lượng lớn các khung hình liên tiếp, nhưng đối với một tác nhân hoặc đơn giản là một con vật, thế giới không chỉ là một cái nhìn thụ động. Nó cũng bao gồm chuyển động, tương tác, trải nghiệm xúc giác, âm thanh, mùi và trải nghiệm hiện thân như lực vật lý và nhiệt độ. Vì vậy, tôi nghĩ đó là đa phương thức sâu. Tất nhiên, Marble như một mô hình chỉ là bước đầu tiên, nhưng trong bài báo kỹ thuật mà chúng tôi đã xuất bản cách đây vài ngày, chúng tôi đã nói rõ rằng chúng tôi tin rằng đa phương thức vừa là mô hình học tập vừa là mô hình đầu vào. Đã có rất nhiều cuộc thảo luận học thuật về điều này, điều này cũng cho thấy sự phấn khích ban đầu trong lĩnh vực này. Vì vậy, tôi sẽ không nói rằng chúng ta đã khám phá đầy đủ kiến trúc và biểu diễn mô hình chính xác. Người điều hành: Trong mô hình thế giới của bạn, đầu vào chủ yếu là video, và sau đó mô hình xây dựng một đại diện nội bộ của thế giới? Li Feifei: Không hẳn. Nếu bạn đã trải nghiệm mô hình thế giới của chúng tôi, Marble, đầu vào của nó thực sự rất phương thức. Bạn có thể sử dụng văn bản thuần túy, một hoặc nhiều hình ảnh, phim hoặc bạn có thể nhập bố cục 3D thô như hình vuông hoặc voxel Voxel. Vì vậy, nó là đa phương thức và chúng tôi sẽ tiếp tục đào sâu điều đó khi chúng tôi phát triển. Phỏng vấn: Ngoài việc là một sản phẩm tuyệt vời với nhiều ứng dụng, tham vọng của bạn là xây dựng một hệ thống – như tôi đã nói đầu vào là một bộ phim – một hệ thống học hỏi từ kinh nghiệm trực tiếp? Đó là học thông qua video hay các phương thức khác, thay vì thông qua các phương tiện thứ cấp như văn bản? Feifei Li: Vâng, tôi nghĩ mô hình thế giới là tìm hiểu về thế giới, và thế giới rất đa phương thức. Cho dù đó là máy móc hay động vật, chúng ta đều đa giác quan. Học tập diễn ra thông qua nhận thức, và nhận thức có các phương thức khác nhau. Từ ngữ là một trong những hình thức đó. Đây cũng là điều khiến chúng ta khác biệt với động vật, bởi vì hầu hết các loài động vật không học thông qua ngôn ngữ phức tạp, nhưng con người thì có. Tuy nhiên, mô hình thế giới AI ngày nay học hỏi từ một số lượng lớn đầu vào ngôn ngữ và các phương thức khác, nhưng nó không chỉ giới hạn ở ngôn ngữ như một kênh. Người điều hành: Một trong những hạn chế của LLM là các thông số mô hình được cố định sau khi đào tạo và mô hình không học liên tục. Mặc dù có một số mức độ học hỏi trong việc kiểm tra suy luận, nhưng đây có phải là những gì bạn đang cố gắng giải quyết trong mô hình thế giới của mình không? Bởi vì có lý do là mô hình thế giới nên có thể liên tục học hỏi khi nó gặp một môi trường mới. Li Feifei: Đúng vậy…