NVIDIA DGX Spark cho phép thực hiện các tác vụ AI chuyên sâu như thế nào?

Các workload đòi hỏi khả năng xử lý cao của các nhà phát triển AI ngày nay thường cần nhiều bộ nhớ hơn so với khả năng của hệ thống máy tính để bàn hoặc yêu cầu khả năng truy cập vào bộ phần mềm chuyên dụng mà máy tính xách tay hoặc PC không có. Điều này buộc công việc phải được chuyển lên đám mây hoặc trung tâm dữ liệu.

NVIDIA DGX Spark cung cấp một giải pháp thay thế cho các máy chủ trên đám mây và trung tâm dữ liệu. Siêu máy tính nhỏ gọn, chạy trên chip Blackwell này sở hữu hiệu năng điện toán AI 1 petaflop (FP4), bộ nhớ hệ thống hợp nhất 128 GB, băng thông bộ nhớ 273 GB/giây và bộ phàn mềm NVIDIA AI Software Stack được cài đặt sẵn. Với DGX Spark, bạn có thể xử lý các tác vụ tính toán lớn, chuyên sâu tại chỗ mà không cần di chuyển lên đám mây hoặc trung tâm dữ liệu.

Bài này sẽ nêu ra cách mà hiệu năng tính toán, bộ nhớ lớn và phần mềm AI được cài đặt sẵn của DGX Spark sẽ giúp tăng tốc các workload tinh chỉnh, tạo hình ảnh, khoa học dữ liệu và suy luận như thế nào. Ngoài ra, sẽ cung cấp cho bạn một số điểm test benchmark của hệ thống để bạn tham khảo.

Tinh chỉnh tải xử lý trên DGX Spark

Điều chỉnh các mô hình đã được đào tạo trước là một nhiệm vụ phổ biến đối với các nhà phát triển AI. Để chứng minh hiệu suất của DGX Spark trong tải xử lý này, chúng tôi đã chạy ba tác vụ điều chỉnh bằng các phương pháp khác nhau: tinh chỉnh toàn phần, LoRA và QLoRA.

Khi tinh chỉnh toàn bộ mô hình Llama 3.2B, chúng tôi đạt tốc độ đỉnh điểm là 82.739,2 token mỗi giây. Việc tinh chỉnh mô hình Llama 3.1 8B bằng LoRA trên DGX Spark đạt tốc độ đỉnh điểm là 53.657,6 token mỗi giây. Việc tinh chỉnh mô hình Llama 3.3 70B bằng QLoRA trên DGX Spark đạt tốc độ đỉnh điểm là 5.079,4 token mỗi giây.

Vì quá trình tinh chỉnh đòi hỏi rất nhiều bộ nhớ nên không có tải xử lý tinh chỉnh nào có thể chạy trên GPU tiêu dùng 32 GB.

Fine-tuning
Model	Method	Backend	Configuration	Peak tokens/sec
Llama 3.2 3B	Full fine tuning	PyTorch	Sequence length: 2048Batch size: 8Epoch: 1Steps: 125BF16	82,739.20
Llama 3.1 8B	LoRA	PyTorch	Sequence length: 2048Batch size: 4Epoch: 1Steps: 125BF16	53,657.60
Llama 3.3 70B	QLoRA	PyTorch	Sequence length: 2048Batch size: 8Epoch: 1Steps: 125FP4	5,079.04

Bảng 1. Hiệu suất tinh chỉnh

Khả năng tạo hình ảnh của DGX Spark

Các mô hình tạo ảnh luôn hướng đến độ chính xác cao hơn, độ phân giải cao hơn và hiệu suất nhanh hơn. Việc tạo ảnh có độ phân giải cao hoặc nhiều ảnh trên mỗi dấu nhắc đòi hỏi nhiều bộ nhớ hơn, cũng như khối lượng tính toán cần thiết để tạo ảnh.

Bộ nhớ GPU lớn và hiệu năng tính toán mạnh mẽ của DGX Spark cho phép bạn làm việc với hình ảnh có độ phân giải cao hơn và các mô hình có độ chính xác cao hơn để mang lại chất lượng hình ảnh tốt hơn. Hỗ trợ định dạng dữ liệu FP4 cho phép DGX Spark tạo hình ảnh nhanh chóng, ngay cả ở độ phân giải cao.

Sử dụng mô hình Flux.1 12B với độ chính xác FP4, DGX Spark có thể tạo ra hình ảnh 1K mỗi 2,6 giây (xem Bảng 2 bên dưới). Bộ nhớ hệ thống lớn của DGX Spark cung cấp dung lượng cần thiết để chạy mô hình BF16 SDXL 1.0 và tạo ra bảy hình ảnh 1K mỗi phút.

Image generation
Model	Precision	Backend	Configuration	Images/min
Flux.1 12B Schnell	FP4	TensorRT	Resolution: 1024×1024 Denoising steps: 4 Batch size: 1	23
SDXL1.0	BF16	TensorRT	Resolution: 1024×1024Denoising steps: 50Batch size: 2	7

Bảng 2. Hiệu suất tạo hình ảnh

Sử dụng DGX Spark cho khoa học dữ liệu

DGX Spark hỗ trợ các thư viện CUDA-X cơ bản như NVIDIA cuML và cuDF . NVIDIA cuML tăng tốc các thuật toán học máy trong scikit-learn, cũng như UMAP và HDBSCAN trên GPU mà không cần thay đổi mã.

Đối với các thuật toán ML đòi hỏi tính toán cao như UMAP và HDBSCAN, DGX Spark có thể xử lý các tập dữ liệu 250 MB chỉ trong vài giây. (Xem Bảng 3 bên dưới.) NVIDIA cuDF tăng tốc đáng kể các tác vụ phân tích dữ liệu pandas phổ biến như phép nối và phương thức chuỗi. Các phép toán cuDF pandas trên các tập dữ liệu với hàng chục triệu bản ghi được chạy chỉ trong vài giây trên DGX Spark.

Data science
Library	Benchmark	Dataset size	Time
NVIDIA cuML	UMAP	250 MB	4 secs
NVIDIA cuML	HDBSCAN	250 MB	10 secs
NVIDIA cuDF pandas	Key data analysis operations (joins, string methods, UDFs)	0.5 to 5 GB	11 secs

Bảng 3. Hiệu suất khoa học dữ liệu

Sử dụng DGX Spark để suy luận

GPU Blackwell của DGX Spark hỗ trợ định dạng dữ liệu FP4, cụ thể là định dạng dữ liệu NVFP4, cung cấp độ chính xác gần bằng FP8 (độ suy giảm <1%). Điều này cho phép sử dụng các mô hình nhỏ hơn mà không làm giảm độ chính xác. Dung lượng dữ liệu nhỏ hơn của FP4 cũng cải thiện hiệu suất. Bảng 4 bên dưới cung cấp dữ liệu hiệu suất suy luận của DGX Spark.

DGX Spark hỗ trợ nhiều định dạng dữ liệu 4-bit: NVFP4, MXFP4, cũng như nhiều nền tảng phụ trợ như TRT-LLM, llama.cpp và vLLM. Hiệu suất AI 1 petaflop của hệ thống cho phép nó xử lý nhanh chóng các lệnh nhắc, như được hiển thị trong Bảng 4. Việc xử lý lệnh nhắc nhanh chóng này giúp rút ngắn thời gian phản hồi đầu tiên của token, mang lại trải nghiệm tốt hơn cho người dùng và tăng tốc độ xử lý từ đầu đến cuối.

Inference (ISL\|OSL= 2048\|128, BS=1)
Model	Precision	Backend	Prompt processing throughput(tokens/sec)	Token generation throughput(tokens/sec)
Qwen3 14B	NVFP4	TRT-LLM	5928.95	22.71
GPT-OSS-20B	MXFP4	llama.cpp	3670.42	82.74
GPT-OSS-120B	MXFP4	llama.cpp	1725.47	55.37
Llama 3.1 8B	NVFP4	TRT-LLM	10256.9	38.65
Qwen2.5-VL-7B-Instruct	NVFP4	TRT-LLM	65831.77	41.71
Qwen3 235B(on dual DGX Spark)	NVFP4	TRT-LLM	23477.03	11.73

Bảng 4. Hiệu suất suy luận

NVFP4 : Định dạng dấu chấm động 4 bit được giới thiệu cùng với kiến trúc GPU NVIDIA Blackwell. MXFP4: Microscaling FP4 là định dạng dấu chấm động 4 bit được tạo ra bởi Dự án Tính toán Mở (OCP) . ISL (Độ dài Chuỗi Đầu vào): Số lượng token trong dấu nhắc nhập (còn gọi là token điền trước). Và OSL (Độ dài Chuỗi Đầu ra): Số lượng token được mô hình tạo ra để phản hồi (còn gọi là token giải mã).

Chúng tôi cũng đã kết nối hai máy DGX Sparks với nhau thông qua chip ConnectX-7 của chúng để chạy mô hình Qwen3 235B. Mô hình này sử dụng hơn 120 GB bộ nhớ, bao gồm cả những phát sinh. Các mô hình như vậy thường chạy trên các máy chủ đám mây hoặc trung tâm dữ liệu lớn, nhưng việc chúng có thể chạy trên hai hệ thống DGX Spark cho thấy khả năng thử nghiệm của nhà phát triển được mở rộng đáng kể. Như được hiển thị ở hàng cuối cùng của Bảng 4, thông lượng tạo token trên hai máy DGX Sparks là 11,73 token mỗi giây.

Phiên bản NVFP4 mới của mẫu NVIDIA Nemotron Nano 2 cũng hoạt động tốt trên DGX Spark. Với phiên bản NVFP4, giờ đây bạn có thể đạt được thông lượng cao hơn tới 2 lần mà độ chính xác gần như không bị suy giảm. Tải xuống các model checkpoint từ Hugging Face hoặc dưới dạng NVIDIA NIM .

Bạn có thể sở hữu các máy tính AI dựa trên DGX Spark và chip GB10, tham gia cộng đồng nhà phát triển DGX Spark và bắt đầu hành trình xây dựng AI của bạn ngay hôm nay.