NVIDIA Vera Rubin mở ra kỷ nguyên mới của Agentic AI

Bảy nền tảng chip mới đang được sản xuất hàng loạt để mở rộng quy mô các nhà máy AI lớn nhất thế giới với cơ sở hạ tầng AI có thể cấu hình được, tối ưu hóa cho mọi giai đoạn của AI, từ huấn luyện trước, huấn luyện sau và mở rộng quy mô trong quá trình thử nghiệm đến suy luận tự động.

Tóm tắt tin tức: Nền tảng NVIDIA Vera Rubin đang mở ra kỷ nguyên mới của trí tuệ nhân tạo với:

Hệ thống rack GPU Vera Rubin NVL72
Hệ thống rack CPU Vera
Hệ thống rack tăng tốc suy luận NVIDIA Groq 3 LPX
Hệ thống rack lưu trữ NVIDIA BlueField-4 STX
Hệ thống rack Ethernet NVIDIA Spectrum-6 SPX

GTC — Hôm nay, NVIDIA thông báo nền tảng NVIDIA Vera Rubin đang mở ra kỷ nguyên tiếp theo của trí tuệ nhân tạo dựa trên tác nhân, với bảy chip mới hiện đang được sản xuất hàng loạt để mở rộng quy mô các nhà máy AI lớn nhất thế giới.

Nền tảng này tích hợp CPU NVIDIA Vera, GPU NVIDIA Rubin, Switch NVIDIA NVLink™ 6, SuperNIC NVIDIA ConnectX ® -9, DPU NVIDIA BlueField ® -4 và switch Ethernet NVIDIA Spectrum™-6, cũng như LPU NVIDIA Groq 3 mới được tích hợp. Được thiết kế để hoạt động cùng nhau như một siêu máy tính AI mạnh mẽ, các chip này cung cấp sức mạnh cho mọi giai đoạn của AI — từ huấn luyện trước quy mô lớn, huấn luyện sau và mở rộng quy mô trong quá trình kiểm thử đến suy luận tác nhân thời gian thực.

“Vera Rubin là một bước nhảy vọt về thế hệ — bảy chip đột phá, năm rack, một siêu máy tính khổng lồ — được xây dựng để cung cấp năng lượng cho mọi giai đoạn của AI,” Jensen Huang, người sáng lập và CEO của NVIDIA cho biết. “Điểm uốn của AI tác nhân đã đến với Vera Rubin, khởi đầu cho quá trình xây dựng hạ tầng lớn nhất trong lịch sử.”“Các doanh nghiệp và nhà phát triển đang sử dụng Claude cho các suy luận ngày càng phức tạp, quy trình làm việc tác nhân và các quyết định quan trọng. Điều đó đòi hỏi hạ tầng có thể theo kịp,” Dario Amodei, CEO và đồng sáng lập của Anthropic cho biết. “Nền tảng Vera Rubin của NVIDIA cung cấp cho chúng tôi khả năng tính toán, mạng lưới và thiết kế hệ thống để tiếp tục cung cấp đồng thời nâng cao tính an toàn và độ tin cậy mà khách hàng của chúng tôi phụ thuộc vào.”“hạ tầng của NVIDIA là nền tảng cho phép chúng tôi tiếp tục đẩy mạnh ranh giới của AI,” Sam Altman, CEO của OpenAI cho biết. “Với NVIDIA Vera Rubin, chúng tôi sẽ chạy các mô hình và tác nhân mạnh mẽ hơn ở quy mô lớn và cung cấp các hệ thống nhanh hơn, đáng tin cậy hơn cho hàng trăm triệu người.”

Sự chuyển đổi sang hệ thống quy mô POD: hạ tầng AI đang phát triển nhanh chóng — từ các chip riêng lẻ và máy chủ độc lập đến các hệ thống tích hợp hoàn chỉnh quy mô rack, triển khai quy mô POD, nhà máy AI và AI độc lập. Những tiến bộ này đang thúc đẩy những bước tiến vượt bậc về hiệu suất, cải thiện hiệu quả chi phí cho các tổ chức thuộc mọi quy mô và ngành nghề — từ các công ty khởi nghiệp và doanh nghiệp vừa đến các tổ chức công tư và doanh nghiệp — đồng thời giúp dân chủ hóa việc tiếp cận AI và cải thiện hiệu quả năng lượng để đáp ứng các tải xử lý đòi hỏi cao nhất trên thế giới.

Thông qua quá trình đồng thiết kế chuyên sâu trên các lĩnh vực điện toán, mạng và lưu trữ, được hỗ trợ bởi hệ sinh thái hơn 80 đối tác NVIDIA MGX với chuỗi cung ứng toàn cầu, NVIDIA Vera Rubin cung cấp nền tảng quy mô POD rộng lớn nhất của NVIDIA — một siêu máy tính nơi nhiều rack được thiết kế chuyên dụng cho AI hoạt động cùng nhau như một hệ thống khổng lồ, thống nhất.

Với khả năngtích hợp 72 GPU Rubin và 36 CPU Vera được kết nối bằng NVLink 6, cùng với các SuperNIC ConnectX-9 và DPU BlueField-4, Vera Rubin NVL72 mang lại hiệu quả đột phá — huấn luyện các mô hình hỗn hợp chuyên gia quy mô lớn chỉ với một phần tư số GPU so với nền tảng NVIDIA Blackwell và đạt được thông lượng suy luận trên mỗi watt cao hơn tới 10 lần với chi phí trên mỗi token chỉ bằng một phần mười.

Được thiết kế cho các nhà máy AI siêu quy mô trên toàn thế giới, NVL72 mở rộng liền mạch với NVIDIA Quantum-X800 InfiniBand và Spectrum-X Ethernet để duy trì mức sử dụng cao trên các cụm GPU khổng lồ đồng thời giảm thời gian đào tạo và tổng chi phí sở hữu.

NVIDIA Vera CPU Rack: Học tăng cường và các tác vụ AI dựa trên tác nhân phụ thuộc vào số lượng lớn môi trường dựa trên CPU để kiểm tra và xác nhận kết quả do các mô hình chạy trên hệ thống GPU tạo ra.

NVIDIA Vera CPU Rack cung cấp hạ tầng làm mát bằng chất lỏng mật độ cao được xây dựng trên NVIDIA MGX, tích hợp 256 CPU Vera để cung cấp dung lượng có thể mở rộng, tiết kiệm năng lượng với hiệu năng đơn luồng hàng đầu thế giới, mở khóa trí tuệ nhân tạo tác nhân ở quy mô lớn.

Được tích hợp với mạng Ethernet Spectrum-X, các rack CPU Vera giúp đồng bộ hóa chặt chẽ môi trường CPU trong toàn bộ nhà máy AI. Cùng với các rack điện toán GPU, chúng cung cấp nền tảng CPU cho AI tác nhân quy mô lớn và học tăng cường — với Vera mang lại kết quả hiệu quả gấp đôi và nhanh hơn 50% so với CPU truyền thống.

NVIDIA Groq 3 LPX Rack đánh dấu một cột mốc trong điện toán tăng tốc. Được thiết kế cho các yêu cầu về độ trễ thấp và ngữ cảnh lớn của các hệ thống tác nhân, LPX và Vera Rubin kết hợp hiệu năng cực cao của cả hai bộ xử lý để mang lại thông lượng suy luận cao hơn tới 35 lần trên mỗi megawatt và cơ hội doanh thu cao hơn tới 10 lần cho các mô hình nghìn tỷ tham số.

Ở quy mô lớn, một nhóm các bộ xử lý LPU hoạt động như một bộ xử lý đơn khổng lồ để tăng tốc suy luận nhanh chóng và chính xác. Khung LPX với 256 bộ xử lý LPU có 128GB bộ nhớ SRAM tích hợp và băng thông mở rộng lên đến 640 TB/giây. Được triển khai cùng với Vera Rubin NVL72, GPU và LPU của Rubin tăng tốc quá trình giải mã bằng cách cùng nhau tính toán mọi lớp của mô hình AI cho mỗi token đầu ra.

Được tối ưu hóa cho các mô hình nghìn tỷ tham số và ngữ cảnh triệu token, kiến trúc LPX được thiết kế đồng bộ kết hợp với Vera Rubin để tối đa hóa hiệu quả về điện năng, bộ nhớ và khả năng tính toán. Hiệu suất xử lý trên mỗi watt và hiệu năng token bổ sung mở ra một cấp độ mới cho khả năng suy luận siêu cao cấp, nghìn tỷ tham số và triệu ngữ cảnh, mở rộng cơ hội doanh thu cho tất cả các nhà cung cấp AI. Được làm mát hoàn toàn bằng chất lỏng và xây dựng trên hạ tầng MGX, LPX tích hợp liền mạch vào các nhà máy AI tạo sinh tiếp theo của Vera Rubin, dự kiến sẽ có mặt trên thị trường vào nửa cuối năm nay.

Hệ thống lưu trữ NVIDIA BlueField-4 STX dạng rack là hạ tầng lưu trữ gốc AI, mở rộng bộ nhớ GPU một cách liền mạch trên toàn bộ POD. Được hỗ trợ bởi BlueField-4 — kết hợp CPU NVIDIA Vera và SuperNIC NVIDIA ConnectX-9 — STX cung cấp một lớp chia sẻ băng thông cao được tối ưu hóa để lưu trữ và truy xuất dữ liệu bộ nhớ đệm khóa-giá trị khổng lồ được tạo ra bởi các mô hình ngôn ngữ lớn và quy trình làm việc AI dựa trên tác nhân.NVIDIA DOCA Memos™ — một khung DOCA mới giúp tăng tốc lưu trữ BlueField-4 — cho phép xử lý lưu trữ bộ nhớ đệm KV chuyên dụng để tăng thông lượng suy luận lên đến 5 lần đồng thời cải thiện đáng kể hiệu quả năng lượng so với các kiến trúc lưu trữ đa năng. Kết quả là ngữ cảnh trên toàn POD mang lại tương tác đa lượt nhanh hơn với các tác nhân AI, các dịch vụ AI có khả năng mở rộng hơn và mức sử dụng hạ tầng tổng thể cao hơn.“Hệ thống lưu trữ bộ nhớ ngữ cảnh dạng rack NVIDIA BlueField-4 STX sẽ cho phép tăng hiệu suất quan trọng cần thiết để mở rộng quy mô theo cấp số nhân các nỗ lực AI dựa trên tác nhân của chúng tôi,” Timothée Lacroix, đồng sáng lập và giám đốc công nghệ của Mistral AI cho biết. “Bằng cách cung cấp một tầng lưu trữ mới được thiết kế riêng cho bộ nhớ của các tác nhân AI, STX có vị trí lý tưởng để đảm bảo các mô hình của chúng tôi có thể duy trì tính nhất quán và tốc độ khi suy luận trên các tập dữ liệu khổng lồ.”

Bộ chuyển mạch Ethernet NVIDIA Spectrum-6 SPXđược thiết kế để tăng tốc lưu lượng truy cập giữa các hệ thống AI. Có thể cấu hình với bộ chuyển mạch Spectrum-X Ethernet hoặc NVIDIA Quantum-X800 InfiniBand, nó cung cấp khả năng kết nối giữa các rack với độ trễ thấp, thông lượng cao trên quy mô lớn.

Công nghệ Spectrum-X Ethernet Photonics với các module quang tích hợp đạt được hiệu suất năng lượng quang cao hơn tới 5 lần và độ bền cao hơn 10 lần so với các bộ thu phát cắm rời truyền thống.

Nâng cao khả năng phục hồi và hiệu quả năng lượng:NVIDIA, cùng với hơn 200 đối tác hạ tầng trung tâm dữ liệu, đã công bố nền tảng NVIDIA DSX dành cho Vera Rubin. Nền tảng này bao gồm DSX Max-Q cho phép cung cấp điện năng động trên toàn bộ nhà máy AI, giúp triển khai thêm 30% hạ tầng AI trong một trung tâm dữ liệu có công suất cố định. Phần mềm DSX Flex mới cho phép các nhà máy AI trở thành các tài sản linh hoạt về lưới điện, giải phóng 100 gigawatt điện năng chưa được sử dụng từ lưới điện.

Hôm nay, NVIDIA cũng công bố thiết kế tham chiếu Vera Rubin DSX AI Factory , một bản thiết kế cho hạ tầng AI được thiết kế đồng bộ nhằm tối đa hóa số token trên mỗi watt và hiệu suất tổng thể, cải thiện khả năng phục hồi của hệ thống và đẩy nhanh thời gian đưa sản phẩm ra thị trường.

Bằng cách tích hợp chặt chẽ điện toán, mạng, lưu trữ, nguồn điện và hệ thống làm mát, kiến trúc này giúp tăng hiệu quả năng lượng và đảm bảo các nhà máy AI có thể mở rộng quy mô một cách đáng tin cậy dưới tải xử lý cường độ cao liên tục với thời gian hoạt động tối đa.

Hỗ trợ hệ sinh thái rộng lớn:Các sản phẩm dựa trên Vera Rubin sẽ được cung cấp bởi các đối tác bắt đầu từ nửa cuối năm nay. Điều này bao gồm các nhà cung cấp dịch vụ đám mây hàng đầu như Amazon Web Services, Google Cloud, Microsoft Azure và Oracle Cloud Infrastructure, cùng với các đối tác đám mây của NVIDIA như CoreWeave, Crusoe , Lambda, Nebius , Nscale và Together AI.

Các nhà sản xuất hệ thống toàn cầu như Cisco, Dell Technologies , HPE , Lenovo và Supermicro dự kiến sẽ cung cấp nhiều loại máy chủ dựa trên sản phẩm của Vera Rubin, cũng như Aivres , ASUS , Foxconn, GIGABYTE, Inventec, Pegatron, Quanta Cloud Technology (QCT), Wistron và Wiwynn .

Các phòng thí nghiệm AI và các nhà phát triển mô hình tiên tiến, bao gồm Anthropic, Meta, Mistral AI và OpenAI, đang tìm cách sử dụng nền tảng NVIDIA Vera Rubin để huấn luyện các mô hình lớn hơn, mạnh mẽ hơn và phục vụ các hệ thống đa phương thức, ngữ cảnh dài với độ trễ và chi phí thấp hơn so với các thế hệ GPU trước đây.