Hiệu năng vượt trội của NVIDIA DGX Spark giúp thực hiện các tác vụ AI chuyên sâu như thế nào?

Ngày nay, khối lượng công việc của các nhà phát triển AI thường đòi hỏi nhiều bộ nhớ hơn so với hệ thống máy tính để bàn cung cấp, hoặc cần đến các software stack mà máy tính xách tay hoặc PC không có. Điều này buộc công việc phải chuyển lên đám mây hoặc trung tâm dữ liệu.

NVIDIA DGX Spark cung cấp một giải pháp thay thế cho các máy chủ đám mây và hàng chờ tại trung tâm dữ liệu. Siêu máy tính nhỏ gọn, được trang bị kiến ​​trúc Blackwell, sở hữu hiệu năng tính toán AI FP4 lên đến 1 petaflop, bộ nhớ hệ thống thống nhất 128 GB, băng thông bộ nhớ 273 GB/giây và bộ phần mềm AI của NVIDIA được cài đặt sẵn. Với DGX Spark, bạn có thể xử lý các tác vụ lớn, đòi hỏi nhiều tài nguyên tính toán ngay tại chỗ mà không cần chuyển sang đám mây hoặc trung tâm dữ liệu.

Chúng tôi sẽ giới thiệu cho bạn cách hiệu năng tính toán, bộ nhớ lớn và phần mềm AI được cài đặt sẵn của DGX Spark giúp tăng tốc các tác vụ tinh chỉnh, tạo ảnh, khoa học dữ liệu và suy luận. Cùng đọc nội dung bài viết để xem cụ thể hơn một số kết quả kiểm tra hiệu năng đã được kiểm tra.

Tinh chỉnh khối lượng công việc trên DGX Spark

Việc tinh chỉnh các mô hình được huấn luyện trước là một nhiệm vụ phổ biến đối với các nhà phát triển AI. Để minh họa hiệu suất của DGX Spark trong khối lượng công việc này, chúng tôi đã thực hiện ba nhiệm vụ tinh chỉnh bằng các phương pháp khác nhau: tinh chỉnh toàn diện, LoRA và QLoRA.

Trong quá trình tinh chỉnh tối đa mô hình Llama 3.2B, chúng tôi đạt tốc độ xử lý cao nhất là 82.739,2 token mỗi giây. Việc tinh chỉnh mô hình Llama 3.1 8B sử dụng LoRA trên DGX Spark đạt tốc độ xử lý cao nhất là 53.657,6 token mỗi giây. Việc tinh chỉnh mô hình Llama 3.3 70B sử dụng QLoRA trên DGX Spark đạt tốc độ xử lý cao nhất là 5.079,4 token mỗi giây.

Vì việc tinh chỉnh tốn rất nhiều bộ nhớ, nên không có tác vụ tinh chỉnh nào có thể chạy trên GPU 32 GB dành cho người tiêu dùng.

Fine-tuning
Model Method Backend Configuration Peak tokens/sec
Llama 3.2 3B Full fine tuning PyTorch Sequence length: 2048
Batch size: 8
Epoch: 1
Steps: 125BF16
82,739.20
Llama 3.1 8B LoRA PyTorch Sequence length: 2048
Batch size: 4
Epoch: 1
Steps: 125BF16
53,657.60
Llama 3.3 70B QLoRA PyTorch Sequence length: 2048
Batch size: 8
Epoch: 1
Steps: 125FP4
5,079.04

Bảng 1. Hiệu suất tinh chỉnh

Khả năng tạo ảnh của DGX Spark

Các mô hình tạo ảnh luôn hướng đến độ chính xác cao hơn, độ phân giải cao hơn và hiệu suất nhanh hơn. Việc tạo ảnh độ phân giải cao hoặc nhiều ảnh cho mỗi yêu cầu đòi hỏi nhiều bộ nhớ hơn, cũng như sức mạnh tính toán cần thiết để tạo ra các ảnh đó.

Bộ nhớ GPU lớn và hiệu năng tính toán mạnh mẽ của DGX Spark cho phép bạn làm việc với hình ảnh có độ phân giải cao hơn và các mô hình có độ chính xác cao hơn để cung cấp chất lượng hình ảnh tốt hơn. Hỗ trợ định dạng dữ liệu FP4 cho phép DGX Spark tạo ra hình ảnh nhanh chóng, ngay cả ở độ phân giải cao.

Sử dụng mô hình Flux.1 12B với độ chính xác FP4, DGX Spark có thể tạo ra một ảnh 1K mỗi 2,6 giây (xem Bảng 2 bên dưới). Bộ nhớ hệ thống lớn của DGX Spark cung cấp dung lượng cần thiết để chạy mô hình BF16 SDXL 1.0 và tạo ra bảy ảnh 1K mỗi phút.

Image generation
Model Precision Backend Configuration Images/min
Flux.1 12B Schnell FP4 TensorRT Resolution: 1024×1024
Denoising steps: 4
Batch size: 1
23
SDXL1.0 BF16 TensorRT Resolution: 1024×1024
Denoising steps: 50
Batch size: 2
7
Bảng 2. Hiệu suất tạo ảnh

 

Sử dụng DGX Spark cho khoa học dữ liệu

DGX Spark hỗ trợ các thư viện CUDA-X cơ bản như NVIDIA cuML và cuDF . NVIDIA cuML tăng tốc các thuật toán học máy trong scikit-learn, cũng như UMAP và HDBSCAN trên GPU mà không cần thay đổi mã.

Đối với các thuật toán học máy đòi hỏi nhiều tài nguyên tính toán như UMAP và HDBSCAN, DGX Spark có thể xử lý các tập dữ liệu 250 MB trong vài giây. (Xem Bảng 3 bên dưới.) NVIDIA cuDF giúp tăng tốc đáng kể các tác vụ phân tích dữ liệu pandas thông thường như phép nối và các phương thức xử lý chuỗi. Các thao tác cuDF pandas trên các tập dữ liệu với hàng chục triệu bản ghi chỉ mất vài giây trên DGX Spark.

Data science
Library Benchmark Dataset size Time
NVIDIA cuML UMAP 250 MB 4 secs
NVIDIA cuML HDBSCAN 250 MB 10 secs
NVIDIA cuDF pandas Key data analysis operations (joins, string methods, UDFs) 0.5 to 5 GB 11 secs

Bảng 3. Hiệu suất khoa học dữ liệu

Sử dụng DGX Spark để suy luận

GPU Blackwell của DGX Spark hỗ trợ định dạng dữ liệu FP4, cụ thể là định dạng dữ liệu NVFP4 cung cấp độ chính xác gần FP8 (<1% suy giảm). Điều này cho phép sử dụng các mô hình nhỏ hơn mà không làm giảm độ chính xác. Kích thước dữ liệu nhỏ hơn của FP4 cũng cải thiện hiệu suất. Bảng 4 bên dưới cung cấp dữ liệu hiệu suất suy luận cho DGX Spark.

DGX Spark hỗ trợ nhiều định dạng dữ liệu 4-bit: NVFP4, MXFP4, cũng như nhiều hệ thống xử lý dữ liệu như TRT-LLM, llama.cpp và vLLM. Hiệu năng AI 1 petaflop của hệ thống cho phép xử lý phản hồi nhanh chóng, như thể hiện trong Bảng 4. Việc xử lý phản hồi nhanh chóng giúp rút ngắn thời gian phản hồi đầu tiên, mang lại trải nghiệm tốt hơn cho người dùng và tăng tốc độ xử lý từ đầu đến cuối.

Inference (ISL|OSL= 2048|128, BS=1)
Model Precision Backend Prompt processing throughput
(tokens/sec)
Token generation throughput
(tokens/sec)
Qwen3 14B NVFP4 TRT-LLM 5928.95 22.71
GPT-OSS-20B MXFP4 llama.cpp 3670.42 82.74
GPT-OSS-120B MXFP4 llama.cpp 1725.47 55.37
Llama 3.1 8B NVFP4 TRT-LLM 10256.9 38.65
Qwen2.5-VL-7B-Instruct NVFP4 TRT-LLM 65831.77 41.71
Qwen3 235B
(on dual DGX Spark)
NVFP4 TRT-LLM 23477.03 11.73

Bảng 4. Hiệu suất suy luận

NVFP4: Định dạng dấu phẩy động 4 bit được giới thiệu cùng với kiến ​​trúc GPU NVIDIA Blackwell. MXFP4: Microscaling FP4 là định dạng dấu phẩy động 4 bit được tạo ra bởi Dự án Tính toán Mở (OCP) . ISL (Input Sequence Length): Số lượng token trong lời nhắc đầu vào (còn gọi là token điền trước). Và OSL (Output Sequence Length): Số lượng token được mô hình tạo ra trong phản hồi (còn gọi là token giải mã).

Chúng tôi cũng kết nối hai thiết bị DGX Spark với nhau thông qua chip ConnectX-7 để chạy mô hình Qwen3 235B. Mô hình này sử dụng hơn 120 GB bộ nhớ, bao gồm cả chi phí phụ. Các mô hình như vậy thường chạy trên các máy chủ đám mây hoặc trung tâm dữ liệu lớn, nhưng việc chúng có thể chạy trên hệ thống DGX Spark kép cho thấy những gì khả thi đối với việc thử nghiệm của nhà phát triển. Như được hiển thị trong hàng cuối cùng của Bảng 4, thông lượng tạo mã thông báo trên hệ thống DGX Spark kép là 11,73 mã thông báo mỗi giây.

Phiên bản NVFP4 mới của mô hình NVIDIA Nemotron Nano 2 cũng hoạt động tốt trên DGX Spark. Với phiên bản NVFP4, bạn có thể đạt được thông lượng cao hơn gấp 2 lần mà hầu như không làm giảm độ chính xác. Tải xuống các điểm kiểm tra mô hình từ Hugging Face hoặc dưới dạng NVIDIA NIM .

Hãy sở hữu chiếc siêu máy tính AI DGX Spark với nền tảng siêu chip GB10, tham gia cộng đồng nhà phát triển DGX Spark và bắt đầu hành trình xây dựng trí tuệ nhân tạo của bạn ngay hôm nay.