Từ 4 đến 32 thiết bị: Chiến lược triệt tiêu “nghẽn cổ chai” mạng cho hệ thống NVIDIA DGX Spark

NVIDIA DGX Spark mang sức mạnh của siêu máy tính 1 PetaFLOP đặt vừa vặn trên bàn làm việc của bạn. Nhưng để kết nối 4, 8 hay 32 cỗ máy này thành một “Xưởng AI” (AI Factory) thực thụ, sức mạnh phần cứng độc lập là chưa đủ. Thông qua quá trình trực tiếp triển khai và tối ưu hóa hệ thống, đội ngũ kỹ sư tại NTC AI nhận thấy rằng điểm nghẽn thực sự không nằm ở GPU, mà nằm ở hệ thống mạng. Bài viết này sẽ chia sẻ góc nhìn thực chiến từ NTC AI, giải phẫu chi tiết kiến trúc phần cứng, phân tích các rào cản mạng lưới và cung cấp lộ trình chuẩn mực để kết nối hệ thống DGX Spark, giúp doanh nghiệp khai phóng tối đa tiềm năng của kỷ nguyên AI.

Giải phẫu kiến trúc phần cứng và rào cản vi mô của hệ thống DGX Spark

Để xây dựng một mạng lưới liên kết hoàn hảo, chúng ta phải bắt đầu từ việc thấu hiểu “tế bào” cốt lõi của hệ thống. Bóc tách từng lớp cấu trúc vi mạch trong quá trình xử lý sự cố, các chuyên gia phần cứng tại NTC AI đã xác định rõ những đặc tính ẩn sâu này chính là nhân tố quyết định băng thông, độ trễ và cả giới hạn định tuyến khi mở rộng quy mô.

Siêu vi mạch Grace Blackwell GB10 và sức mạnh điện toán

Trái tim của DGX Spark là hệ thống trên chip (SoC) Grace Blackwell GB10, một kiệt tác kỹ thuật được chế tạo trên tiến trình 3nm tiên tiến. Nó phá vỡ lối mòn của kiến trúc x86 bằng cách hợp nhất hoàn toàn CPU và GPU trên cùng một đế silicon.

CPU ARM 20 lõi kiến trúc kép: Sự kết hợp giữa 10 lõi Cortex-X925 (hiệu năng cao) và 10 lõi Cortex-A725 (tối ưu nền) tạo ra luồng trung chuyển dữ liệu không độ trễ, giải phóng hoàn toàn áp lực nghẽn cổ chai trước khi dữ liệu chạm tới GPU.
GPU Blackwell đột phá: Tích hợp lõi Tensor thế hệ 5 và lõi dò tia (RT Cores) thế hệ 4. Sức mạnh chạm ngưỡng 1 PetaFLOP (FP4) cho kỹ thuật ma trận thưa thớt, và đạt 1.000 TOPS cho tác vụ suy luận.

Năng lực này cho phép thiết bị tinh chỉnh các siêu mô hình phức tạp ngay tại chỗ mà không bị trói buộc bởi độ trễ của điện toán đám mây.

Kiến trúc bộ nhớ thống nhất (Unified memory architecture)

Sự nghẽn cổ chai khi di chuyển dữ liệu qua lại giữa bộ nhớ hệ thống (RAM) và bộ nhớ đồ họa (VRAM) luôn là vấn đề nhức nhối trong huấn luyện AI. NVIDIA giải quyết triệt để bài toán này bằng kiến trúc bộ nhớ chia sẻ.

Giao thức NVLink-C2C: Tạo ra sự liên kết chặt chẽ, cho phép CPU và GPU dùng chung một không gian bộ nhớ duy nhất.
Dung lượng và băng thông ấn tượng: Hệ thống sở hữu 128 GB bộ nhớ LPDDR5x đồng nhất với xung nhịp 4266 MHz, tạo ra tổng băng thông đạt 273 GB/s. Dung lượng này cho phép chứa trọn mô hình 200 tỷ tham số và tăng theo cấp số nhân khi nối cụm mạng.

Băng thông 273 GB/s là khổng lồ với máy trạm, nhưng vẫn khiêm tốn khi so sánh với 8 TB/s của bộ nhớ HBM3e trên máy chủ B200. Vì thế, mạng liên kết các máy Spark bắt buộc phải có độ trễ cực thấp để không làm chậm trễ quá trình trao đổi dữ liệu của các lõi Tensor.

Rào cản vi kiến trúc từ bộ chuyển mạch ConnectX-7

Năng lực mở rộng của DGX Spark được quyết định bởi bộ chuyển mạch ConnectX-7. Dù trang bị hai cổng QSFP 200 Gbps, kiến trúc nội bộ lại gây ra thách thức định tuyến phức tạp.

Rễ PCIe Gen5 x4 giới hạn: Cụm CPU ARM thực chất là sự hợp nhất của hai khối tính toán, mỗi khối sở hữu một bộ điều khiển rễ PCIe riêng chỉ cung cấp xấp xỉ 100 Gbps kết nối đến card mạng.
Chế độ đa máy chủ (Multi-host mode): Để đạt mức 200 Gbps vật lý, ConnectX-7 phải gộp hai luồng PCIe x4 này lại. Hệ quả là hệ điều hành nhận diện một card vật lý thành 4 giao diện mạng logic hoàn toàn riêng biệt.
Khóa cứng giao thức Ethernet: Trái với máy chủ trung tâm dữ liệu dùng InfiniBand, ConnectX-7 trên Spark bị khóa chỉ hoạt động trên giao thức Ethernet. Giới hạn này ép các kỹ sư phải thay đổi hoàn toàn chiến lược chống tắc nghẽn mạng.

Điều kiện nền tảng để thiết lập liên kết cụm DGX Spark

Biến các thiết bị độc lập thành siêu máy tính ảo đòi hỏi sự tuân thủ nghiêm ngặt các điều kiện về phần cứng và mạng, áp dụng cho mọi quy mô. Để hệ thống vận hành trơn tru nhất, quy trình chuẩn hóa do NTC AI thiết lập yêu cầu sự tuân thủ vô điều kiện đối với các thông số sau:

Chuẩn hóa giao diện vật lý và nguồn điện

Đồng bộ kiến trúc: Mọi nút mạng (nodes) phải dùng kiến trúc Grace Blackwell để lệnh biên dịch song song không gặp lỗi giải mã.
Năng lượng khắt khe: Mỗi máy phải dùng bộ nguồn 240W chính hãng để gánh TDP chip 140W và phần còn lại cho card mạng cùng các thiết bị ngoại vi. Nguồn điện thiếu hụt sẽ gây giảm xung nhịp, rớt mạng hoặc sập nguồn. Tính năng cắm nóng mới giúp tiết kiệm 18W điện khi không dùng cổng mạng.
Tiêu chuẩn cáp mạng: Phải dùng chuẩn cáp đồng (DAC) hoặc cáp quang (AOC) loại QSFP56 (200 Gbps) hoặc QSFP112 (400 Gbps) để duy trì tính toàn vẹn tín hiệu AI có độ trễ thấp.

Cấu hình mạng logic và môi trường hệ điều hành

Môi trường phần mềm yêu cầu sự đồng bộ tuyệt đối để ngăn chặn rủi ro lỗi gọi hàm phân tán. Bắt buộc tuân thủ ma trận phiên bản sau:

Hệ điều hành: Ubuntu Linux 24.04 (nhân DGX OS 7.4.0).
Trình điều khiển NVIDIA: Phiên bản 580.142 trở lên.
Nền tảng CUDA: Phiên bản 13.0.2.
Thư viện mạng NCCL: Phiên bản 2.28.3 trở lên.

Ngoài ra, hệ thống yêu cầu cấu hình mạng chặt chẽ:

Quy hoạch IP tĩnh (Netplan): Quản trị viên gán IP trong cùng một dải mạng con qua file yaml và cách ly hoàn toàn mạng này khỏi Internet, dồn toàn lực cho giao tiếp East-West.
Xác thực Passwordless SSH: Cần dùng tập lệnh discover-sparks.sh để tự động rà quét và phân phối khóa SSH đến mọi máy, phục vụ việc điều khiển từ xa theo thời gian thực.

Chiến lược tối ưu mạng lưới bằng giao thức RoCE v2

Nhiều quản trị viên lầm tưởng sau khi cấp phát IP và cấu hình SSH thành công, hệ thống đã sẵn sàng cho AI. Từ các đợt kiểm thử hiệu năng trên hạ tầng khách hàng, chúng tôi cảnh báo rằng đây là một cái bẫy nguy hiểm. Trong môi trường huấn luyện, một hệ thống “có kết nối” chưa chắc đã “chạy tốt”. Băng thông 200 Gbps sẽ vô nghĩa nếu độ trễ TCP/IP truyền thống bào mòn sức mạnh tính toán. Đây là lúc RoCE v2 (RDMA over Converged Ethernet) phải được kích hoạt để tạo ra bước nhảy vọt.

Vượt qua rào cản CPU với kỹ thuật kernel bypass

Độ trễ của TCP/IP: Giao thức mạng truyền thống buộc gói tin đi qua bộ nhớ phần mềm, xuống nhân hệ điều hành (Kernel Space), đóng gói tiêu đề rồi mới ra card mạng. Quá trình này “ăn cắp” tài nguyên CPU và đẩy độ trễ lên hàng nghìn micro-giây.
Sức mạnh truyền tải trực tiếp: RoCE v2 thiết lập đường hầm truy cập bộ nhớ trực tiếp (DMA). Card mạng lấy dữ liệu thẳng từ VRAM máy A bắn sang máy B (Zero-copy), hoàn toàn qua mặt CPU. Cơ chế này ép độ trễ nội bộ xuống mức siêu thấp: xấp xỉ 5 micro-giây.

Thiết lập mạng Ethernet không tổn hao (Lossless network)

Dưới áp lực của các luồng dữ liệu AI khổng lồ (Micro-bursts), bộ đệm của Switch rất dễ bão hòa, làm rớt gói tin và phá vỡ thuật toán. Hai lớp kiểm soát mạng phải được kích hoạt:

Kiểm soát luồng ưu tiên (PFC): Khi bộ đệm đạt ngưỡng bão hòa, cổng nhận gửi một khung dừng (Pause Frame) ngược về nguồn, ép máy phát tạm ngưng gửi gói tin RDMA cho đến khi bộ đệm rảnh rỗi, triệt tiêu việc rớt gói tin.
Thông báo tắc nghẽn rõ ràng (ECN): Thay vì ngắt quãng như PFC, Switch sẽ đánh dấu cảnh báo sớm vào tiêu đề gói tin khi hàng đợi có dấu hiệu dồn ứ. Máy nhận sẽ báo ngược về để máy phát chủ động giảm tốc độ nhịp nhàng.

Hiệu năng tuyến tính nhờ tinh chỉnh NCCL

Tối ưu cấu hình NCCL: Do 1 cổng vật lý phân mảnh thành 4 giao diện logic ảo trên chip GB10, quản trị viên phải cấu hình thủ công qua các biến như NCCL_SOCKET_IFNAME để ép buộc hệ thống chỉ dùng các giao diện mạng hiệu năng cao nhất.
Tăng trưởng hiệu năng hoàn hảo (DDP): Khi NCCL được tinh chỉnh chuẩn xác, hiệu năng phân tán dữ liệu sẽ bứt phá với tỷ lệ mở rộng tuyến tính hoàn hảo:
- Huấn luyện Isaac Lab: Bật từ 630 FPS (1 thiết bị) lên 2.520 FPS (cụm 4 thiết bị).
- Suy luận Nanochat: Nhảy vọt từ 18.400 token/giây lên 74.600 token/giây.
Tối ưu suy luận phân tán (Tensor Parallelism): Dù bị cản trở bởi độ trễ 5 micro-giây khi phải giao tiếp liên tục qua từng lớp mô hình, thời gian sinh token (TPOT) của siêu mô hình Llama 3.3 70B vẫn được nén gọn từ 269 ms xuống chỉ còn 72 ms khi chạy trên cụm 4 thiết bị.

Cụm 4 Node DGX Spark: Triệt tiêu độ trễ định tuyến với bộ chuyển mạch trung tâm

Đừng để hệ thống DGX Spark đắt đỏ của bạn hoạt động như những ốc đảo rời rạc. Đối mặt với bài toán liên kết 4 thiết bị, các kiến trúc sư mạng của NTC AI luôn kiên quyết loại bỏ phương án nối cáp trực tiếp (Switchless). Bộ chuyển mạch trung tâm (Switch) không phải là cấu hình tùy chọn, nó là tấm khiên duy nhất bảo vệ hệ thống khỏi sự sụp đổ băng thông. Bất kỳ nỗ lực nào nhằm “đi đường tắt” hay tiết kiệm chi phí bằng cách bỏ qua Switch sẽ trực tiếp bóp nghẹt sức mạnh của một hệ thống đắt tiền.

Độ trễ bước nhảy đơn (Single-hop) – Trọng tài giải quyết độ trễ định tuyến: Khi sử dụng bộ chuyển mạch, dữ liệu truyền từ bất kỳ máy nào đến máy khác đều chỉ đi qua duy nhất băng thông không cản trở (non-blocking) của Switch. Điều này đảm bảo sự bình đẳng tuyệt đối về khoảng cách vật lý và thời gian phản hồi giữa tất cả các máy trong cụm, giúp quá trình đồng bộ hóa thông số của thư viện NCCL không bao giờ bị lệch pha.
Trải phẳng không gian mạng (Flat Network Space): Bộ chuyển mạch đưa toàn bộ 4 thiết bị vào chung một dải mạng duy nhất. Ngay khi hệ thống được cắm cáp và cấp phát IP, các tập lệnh tự động của NVIDIA (như discover-sparks.sh) sẽ lập tức quét thấy toàn bộ cụm, tự động thiết lập khóa bảo mật SSH và môi trường làm việc phân tán sẽ sẵn sàng chỉ trong vài phút.
Kích hoạt môi trường truyền tải không tổn hao (Lossless Network): Khác với các máy chủ trung tâm dữ liệu cao cấp, DGX Spark không hỗ trợ giao thức InfiniBand. Toàn bộ gánh nặng liên lạc độ trễ thấp bị đẩy sang hạ tầng Ethernet. Do đó, chỉ các Switch chuyên nghiệp (chạy Cumulus Linux hoặc Enterprise SONiC) mới cho phép bạn can thiệp sâu vào PFC và ECN, tạo ra mạng RoCE v2 trơn tru nhằm ép xung bộ nhớ hợp nhất lên 512 GB mà không rơi rớt một gói tin nào.
Sự linh hoạt trong lựa chọn thiết bị: Quản trị viên có hai hướng tiếp cận tối ưu. Một là sử dụng Switch 200Gbps (như NVIDIA Spectrum-3) kết nối trực tiếp bằng cáp QSFP56. Hai là hướng đến tương lai bằng cách đầu tư Switch 400G/800G kết hợp với cáp quang phân nhánh (Breakout Cable), giúp tiết kiệm đáng kể mật độ cổng trên bộ chuyển mạch.

Việc trang bị bộ chuyển mạch mạng dải thông rộng là điều kiện bắt buộc trong thực tế công nghiệp. Bất kỳ nỗ lực nào nhằm “đi đường tắt” hay tiết kiệm chi phí bằng cách bỏ qua Switch sẽ trực tiếp bóp nghẹt sức mạnh và độ tin cậy của một hệ thống đắt tiền.

Chiến lược mở rộng quy mô AI Factory từ 8 đến 32 thiết bị

Khi bành trướng lên quy mô 8, 16 hay 32 thiết bị, hệ thống không còn là một “cụm máy văn phòng” mà đã trở thành một AI Factory cấp độ Trung tâm Dữ liệu thu nhỏ.

Kiến trúc mạng Spine-Leaf tiêu chuẩn doanh nghiệp

Với hàng chục thiết bị, lưu lượng trao đổi chéo 200 Gbps trên mỗi cổng sẽ dễ dàng đánh sập bất kỳ bộ chuyển mạch đơn lẻ nào. Do đó, bắt buộc phải áp dụng kiến trúc Fat-Tree hay Spine-Leaf.

Chia tách mạng lưới tuyệt đối: Hệ thống được cô lập thành “Mạng Toán học” (chạy cáp QSFP chuyên cho RoCE v2 và NCCL) và “Mạng Lưu trữ & Quản trị” (dùng cổng RJ-45) để truyền tải lệnh điều khiển từ xa.
Kiến trúc Spine-Leaf: Lời giải cho bài toán độ trễ mạng quy mô lớn. Thay vì ép dữ liệu đi qua hàng loạt trạm trung chuyển theo mô hình truyền thống, Spine-Leaf chia hệ thống thành các cụm thiết bị (Leaf) và kết nối đồng cấp lên một trục xương sống (Spine). Kết quả là khoảng cách truyền tải giữa máy số 1 và máy số 32 luôn được cố định nghiêm ngặt ở mức “hai bước nhảy” (two-hop), duy trì độ trễ cực thấp bất chấp việc mở rộng quy mô.
Sử dụng nền tảng Spectrum-X: Vì DGX Spark bị khóa ở giao thức Ethernet, mạng Spine-Leaf bắt buộc phải sử dụng các Switch dòng Spectrum-X của NVIDIA (tối ưu đặc biệt cho RoCE và NCCL).

Quản trị hệ thống và kiểm soát hạ tầng vật lý

Sự gia tăng quy mô mạng lưới đồng nghĩa với những bài toán khắc nghiệt về mặt vật lý và phần mềm quản trị.

Nhiệt năng và cáp kết nối: Một cụm 32 thiết bị tiêu tốn đến 7,6 kW điện năng, đòi hỏi lưới điện 3 pha công nghiệp và hệ thống điều hòa thổi lạnh dốc dòng (Front-to-Back). Các khoảng cách nối cáp liên tủ rack bắt buộc phải dùng cáp quang chủ động (AOC) để tránh rớt tín hiệu, kèm theo các khay cáp chịu lực trên nóc tủ.
Lưu trữ trung tâm siêu tốc: Để “nuôi” 32 siêu chip Blackwell hoạt động mượt mà, bộ nhớ NVMe của Spark chỉ đóng vai trò đệm. Hệ thống phải được nối với cụm lưu trữ NFS tốc độ cao hoặc giải pháp NVMe-oF trên mạng RoCE v2 (như WekaIO) nhằm đảm bảo luồng dữ liệu I/O không đứt đoạn.
Phần mềm NVIDIA Base Command Manager (BCM): Thay vì cài đặt thủ công từng máy, phần mềm BCM chạy trên một máy chủ x86 chuyên dụng sẽ tự động khởi động qua mạng (PXE Boot), cài DGX OS, gán dải IP và cấu hình phân bổ lưu trữ chỉ trong vài giờ. Với cụm nhỏ hơn, các nhà nghiên cứu có thể dùng K3s hoặc Slurm để nạp tác vụ và phân phối vùng nhớ.

Một sai lầm nhỏ trong cấu hình NCCL hoặc RoCE v2 có thể làm lãng phí hàng chục nghìn đô la hiệu năng GPU. Đừng để hệ thống DGX Spark đắt tiền của bạn chạy dưới mức tiềm năng. Là đơn vị trực tiếp giải quyết các bài toán hạ tầng siêu máy tính phức tạp nhất, NTC AI nắm giữ chìa khóa tháo gỡ mọi rào cản từ cấp độ vi kiến trúc. Đặt lịch ngay một phiên Đánh giá Tắc nghẽn Băng thông (Bandwidth Assessment) cùng các chuyên gia hệ thống của chúng tôi để nhận bản thiết kế được tinh chỉnh chuyên biệt cho hạ tầng của bạn.