Phỏng vấn mới nhất của Hoàng Nhân Quân (phần dưới): Tại sao Nvidia không tự làm Hyperscaler?

ChainNewsAbmedia

Trong đoạn thứ hai của cuộc phỏng vấn của Hoàng Nhân Quân, ông đã phản hồi trực diện trước những mối đe dọa của TPU và ASIC đối với NVIDIA. Ông nhấn mạnh rằng NVIDIA không làm một đơn vị chip AI đơn lẻ, mà là một nền tảng tăng tốc tính toán; trọng tâm nằm ở sự tích hợp của toàn bộ hệ sinh thái. Cũng như cuộc chiến chip giữa Mỹ và Trung, cuộc đua AI không phải là thắng thua ở một điểm đơn lẻ; điều cần xem là toàn bộ ngăn xếp công nghệ có thể đồng thời được bồi đắp hay không.

Trước những chất vấn kiểu: “Bản chất của AI là nhân ma trận với số lượng lớn, vậy tại sao không để các kiến trúc giống TPU chuyên dụng hơn đảm nhiệm vị trí chủ đạo?”, câu trả lời của Hoàng Nhân Quân là: phép nhân ma trận rất quan trọng, nhưng nó không phải là toàn bộ AI. Từ cơ chế attention mới, SSM lai ghép, sự kết hợp giữa diffusion và autoregressive, cho đến việc thực thi phân tán của mô hình và đổi mới kiến trúc—những tiến bộ của AI thường đến từ sự đổi mới thuật toán, chứ không chỉ là đẩy định luật Moore bằng phần cứng.

Vì NVIDIA nắm trong tay một lượng tiền mặt lớn, và cũng đã tham gia sâu vào hạ tầng AI và lớp mô hình thông qua việc đầu tư CoreWeave, Nebius, Nscale, thậm chí OpenAI, Anthropic… thì tại sao họ không đơn giản tự mình bước vào cuộc, trở thành nhà cung cấp dịch vụ đám mây? Câu trả lời của Hoàng Nhân Quân vẫn quay về đúng câu đó: làm phần cần thiết nhiều nhất, làm phần không cần thiết ít nhất. Đây không thuộc phạm vi của kiểu “Nếu chúng ta không làm thì sẽ không ai làm”.

TPU và ASIC không phải là không có mối đe dọa, nhưng chiến trường của NVIDIA còn rộng hơn

Đối với xu hướng của Google TPU, AWS Trainium, thậm chí cả OpenAI, Anthropic và các khách hàng lớn khác tự phát triển hoặc áp dụng bộ tăng tốc thay thế, Hoàng Nhân Quân không hề thể hiện tư thế phòng thủ. Ngược lại, ông nhiều lần kéo trọng tâm trở lại: “NVIDIA không làm một đơn vị chip AI đơn lẻ, mà là một nền tảng tăng tốc tính toán”.

Ông nhấn mạnh rằng NVIDIA xây dựng accelerated computing, chứ không chỉ làm tensor processing. AI đương nhiên là một trong những ứng dụng quan trọng nhất của ngày nay, nhưng GPU và CUDA có thể xử lý không chỉ AI; còn bao gồm động lực học phân tử, động lực học lượng tử, xử lý dữ liệu, cơ học chất lỏng, vật lý hạt, nghiên cứu phát triển dược phẩm, tạo ảnh, và vô số phép tính khoa học khác. Điều này khiến phạm vi tiếp cận thị trường của NVIDIA vốn đã rộng hơn so với các ASIC được thiết kế cho một khối lượng công việc đơn lẻ.

Trước những chất vấn kiểu: “Bản chất của AI là nhân ma trận với số lượng lớn, vậy tại sao không để các kiến trúc giống TPU chuyên dụng hơn đảm nhiệm vị trí chủ đạo?”, câu trả lời của Hoàng Nhân Quân là:

Phép nhân ma trận rất quan trọng, nhưng nó không phải là toàn bộ AI. Từ cơ chế attention mới, SSM lai ghép, sự kết hợp giữa diffusion và autoregressive, cho đến thực thi phân tán của mô hình và đổi mới kiến trúc—những tiến bộ của AI thường đến từ sự đổi mới thuật toán, chứ không chỉ là đẩy định luật Moore bằng phần cứng.

Ông nói rất thẳng: nếu chỉ dựa vào việc thu nhỏ transistor, mỗi năm có lẽ cũng chỉ khoảng 25% cải thiện; nhưng từ Hopper đến Blackwell, NVIDIA đạt được mức nhảy về hiệu suất năng lượng 35 lần, thậm chí 50 lần—thứ tạo nên khác biệt không phải chỉ là công nghệ quy trình chế tạo, mà là sự đồng thiết kế giữa mô hình, thuật toán, mạng, bộ nhớ, kiến trúc hệ thống và CUDA.

Vì thế, Hoàng Nhân Quân mô tả NVIDIA như một “công ty đồng thiết kế ở mức cực đoan”. Họ không chỉ làm GPU; họ đồng bộ thay đổi từ bộ xử lý, liên kết (interconnect), mạng, thư viện hàm, thuật toán đến toàn bộ hệ thống. Nếu không có lớp CUDA có tính khả trình cao, những tối ưu hóa quy mô lớn xuyên nhiều lớp như vậy sẽ rất khó thực hiện.

Giá trị của CUDA: lượng cài đặt, cảm giác tin cậy và tính phổ dụng toàn cầu

Khi người dẫn chương trình chất vấn rằng, nếu những khách hàng lớn như OpenAI, Anthropic, Google, AWS đã biết tự viết kernel và tự tối ưu hóa framework rồi, thì CUDA còn có “đê chắn sóng” (moat) mạnh đến vậy không? Hoàng Nhân Quân đã trả lời từ ba góc độ.

Thứ nhất là sự đầy đủ và độ tin cậy của hệ sinh thái. NVIDIA có thể cung cấp nhiều hỗ trợ tầng nền cho các framework như Triton, vLLM

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận