Ngày nay, khối lượng công việc của các nhà phát triển AI thường đòi hỏi nhiều bộ nhớ hơn so với hệ thống máy tính để bàn cung cấp, hoặc cần đến các software stack mà máy tính xách tay hoặc PC không có. Điều này buộc công việc phải chuyển lên đám mây hoặc trung tâm dữ liệu.
NVIDIA DGX Spark cung cấp một giải pháp thay thế cho các máy chủ đám mây và hàng chờ tại trung tâm dữ liệu. Siêu máy tính nhỏ gọn, được trang bị kiến trúc Blackwell, sở hữu hiệu năng tính toán AI FP4 lên đến 1 petaflop, bộ nhớ hệ thống thống nhất 128 GB, băng thông bộ nhớ 273 GB/giây và bộ phần mềm AI của NVIDIA được cài đặt sẵn. Với DGX Spark, bạn có thể xử lý các tác vụ lớn, đòi hỏi nhiều tài nguyên tính toán ngay tại chỗ mà không cần chuyển sang đám mây hoặc trung tâm dữ liệu.
Chúng tôi sẽ giới thiệu cho bạn cách hiệu năng tính toán, bộ nhớ lớn và phần mềm AI được cài đặt sẵn của DGX Spark giúp tăng tốc các tác vụ tinh chỉnh, tạo ảnh, khoa học dữ liệu và suy luận. Cùng đọc nội dung bài viết để xem cụ thể hơn một số kết quả kiểm tra hiệu năng đã được kiểm tra.
Tinh chỉnh khối lượng công việc trên DGX Spark
Việc tinh chỉnh các mô hình được huấn luyện trước là một nhiệm vụ phổ biến đối với các nhà phát triển AI. Để minh họa hiệu suất của DGX Spark trong khối lượng công việc này, chúng tôi đã thực hiện ba nhiệm vụ tinh chỉnh bằng các phương pháp khác nhau: tinh chỉnh toàn diện, LoRA và QLoRA.
Trong quá trình tinh chỉnh tối đa mô hình Llama 3.2B, chúng tôi đạt tốc độ xử lý cao nhất là 82.739,2 token mỗi giây. Việc tinh chỉnh mô hình Llama 3.1 8B sử dụng LoRA trên DGX Spark đạt tốc độ xử lý cao nhất là 53.657,6 token mỗi giây. Việc tinh chỉnh mô hình Llama 3.3 70B sử dụng QLoRA trên DGX Spark đạt tốc độ xử lý cao nhất là 5.079,4 token mỗi giây.
Vì việc tinh chỉnh tốn rất nhiều bộ nhớ, nên không có tác vụ tinh chỉnh nào có thể chạy trên GPU 32 GB dành cho người tiêu dùng.
| Fine-tuning | ||||
| Model | Method | Backend | Configuration | Peak tokens/sec |
| Llama 3.2 3B | Full fine tuning | PyTorch | Sequence length: 2048 Batch size: 8 Epoch: 1 Steps: 125BF16 |
82,739.20 |
| Llama 3.1 8B | LoRA | PyTorch | Sequence length: 2048 Batch size: 4 Epoch: 1 Steps: 125BF16 |
53,657.60 |
| Llama 3.3 70B | QLoRA | PyTorch | Sequence length: 2048 Batch size: 8 Epoch: 1 Steps: 125FP4 |
5,079.04 |
Bảng 1. Hiệu suất tinh chỉnh
Khả năng tạo ảnh của DGX Spark
Các mô hình tạo ảnh luôn hướng đến độ chính xác cao hơn, độ phân giải cao hơn và hiệu suất nhanh hơn. Việc tạo ảnh độ phân giải cao hoặc nhiều ảnh cho mỗi yêu cầu đòi hỏi nhiều bộ nhớ hơn, cũng như sức mạnh tính toán cần thiết để tạo ra các ảnh đó.
Bộ nhớ GPU lớn và hiệu năng tính toán mạnh mẽ của DGX Spark cho phép bạn làm việc với hình ảnh có độ phân giải cao hơn và các mô hình có độ chính xác cao hơn để cung cấp chất lượng hình ảnh tốt hơn. Hỗ trợ định dạng dữ liệu FP4 cho phép DGX Spark tạo ra hình ảnh nhanh chóng, ngay cả ở độ phân giải cao.
Sử dụng mô hình Flux.1 12B với độ chính xác FP4, DGX Spark có thể tạo ra một ảnh 1K mỗi 2,6 giây (xem Bảng 2 bên dưới). Bộ nhớ hệ thống lớn của DGX Spark cung cấp dung lượng cần thiết để chạy mô hình BF16 SDXL 1.0 và tạo ra bảy ảnh 1K mỗi phút.
| Image generation | ||||
| Model | Precision | Backend | Configuration | Images/min |
| Flux.1 12B Schnell | FP4 | TensorRT | Resolution: 1024×1024 Denoising steps: 4 Batch size: 1 |
23 |
| SDXL1.0 | BF16 | TensorRT | Resolution: 1024×1024 Denoising steps: 50 Batch size: 2 |
7 |
Sử dụng DGX Spark cho khoa học dữ liệu
DGX Spark hỗ trợ các thư viện CUDA-X cơ bản như NVIDIA cuML và cuDF . NVIDIA cuML tăng tốc các thuật toán học máy trong scikit-learn, cũng như UMAP và HDBSCAN trên GPU mà không cần thay đổi mã.
Đối với các thuật toán học máy đòi hỏi nhiều tài nguyên tính toán như UMAP và HDBSCAN, DGX Spark có thể xử lý các tập dữ liệu 250 MB trong vài giây. (Xem Bảng 3 bên dưới.) NVIDIA cuDF giúp tăng tốc đáng kể các tác vụ phân tích dữ liệu pandas thông thường như phép nối và các phương thức xử lý chuỗi. Các thao tác cuDF pandas trên các tập dữ liệu với hàng chục triệu bản ghi chỉ mất vài giây trên DGX Spark.
| Data science | |||
| Library | Benchmark | Dataset size | Time |
| NVIDIA cuML | UMAP | 250 MB | 4 secs |
| NVIDIA cuML | HDBSCAN | 250 MB | 10 secs |
| NVIDIA cuDF pandas | Key data analysis operations (joins, string methods, UDFs) | 0.5 to 5 GB | 11 secs |
Bảng 3. Hiệu suất khoa học dữ liệu
Sử dụng DGX Spark để suy luận
GPU Blackwell của DGX Spark hỗ trợ định dạng dữ liệu FP4, cụ thể là định dạng dữ liệu NVFP4 cung cấp độ chính xác gần FP8 (<1% suy giảm). Điều này cho phép sử dụng các mô hình nhỏ hơn mà không làm giảm độ chính xác. Kích thước dữ liệu nhỏ hơn của FP4 cũng cải thiện hiệu suất. Bảng 4 bên dưới cung cấp dữ liệu hiệu suất suy luận cho DGX Spark.
DGX Spark hỗ trợ nhiều định dạng dữ liệu 4-bit: NVFP4, MXFP4, cũng như nhiều hệ thống xử lý dữ liệu như TRT-LLM, llama.cpp và vLLM. Hiệu năng AI 1 petaflop của hệ thống cho phép xử lý phản hồi nhanh chóng, như thể hiện trong Bảng 4. Việc xử lý phản hồi nhanh chóng giúp rút ngắn thời gian phản hồi đầu tiên, mang lại trải nghiệm tốt hơn cho người dùng và tăng tốc độ xử lý từ đầu đến cuối.
| Inference (ISL|OSL= 2048|128, BS=1) | |||||
| Model | Precision | Backend | Prompt processing throughput (tokens/sec) |
Token generation throughput (tokens/sec) |
|
| Qwen3 14B | NVFP4 | TRT-LLM | 5928.95 | 22.71 | |
| GPT-OSS-20B | MXFP4 | llama.cpp | 3670.42 | 82.74 | |
| GPT-OSS-120B | MXFP4 | llama.cpp | 1725.47 | 55.37 | |
| Llama 3.1 8B | NVFP4 | TRT-LLM | 10256.9 | 38.65 | |
| Qwen2.5-VL-7B-Instruct | NVFP4 | TRT-LLM | 65831.77 | 41.71 | |
| Qwen3 235B (on dual DGX Spark) |
NVFP4 | TRT-LLM | 23477.03 | 11.73 | |
Bảng 4. Hiệu suất suy luận
NVFP4: Định dạng dấu phẩy động 4 bit được giới thiệu cùng với kiến trúc GPU NVIDIA Blackwell. MXFP4: Microscaling FP4 là định dạng dấu phẩy động 4 bit được tạo ra bởi Dự án Tính toán Mở (OCP) . ISL (Input Sequence Length): Số lượng token trong lời nhắc đầu vào (còn gọi là token điền trước). Và OSL (Output Sequence Length): Số lượng token được mô hình tạo ra trong phản hồi (còn gọi là token giải mã).
Chúng tôi cũng kết nối hai thiết bị DGX Spark với nhau thông qua chip ConnectX-7 để chạy mô hình Qwen3 235B. Mô hình này sử dụng hơn 120 GB bộ nhớ, bao gồm cả chi phí phụ. Các mô hình như vậy thường chạy trên các máy chủ đám mây hoặc trung tâm dữ liệu lớn, nhưng việc chúng có thể chạy trên hệ thống DGX Spark kép cho thấy những gì khả thi đối với việc thử nghiệm của nhà phát triển. Như được hiển thị trong hàng cuối cùng của Bảng 4, thông lượng tạo mã thông báo trên hệ thống DGX Spark kép là 11,73 mã thông báo mỗi giây.
Phiên bản NVFP4 mới của mô hình NVIDIA Nemotron Nano 2 cũng hoạt động tốt trên DGX Spark. Với phiên bản NVFP4, bạn có thể đạt được thông lượng cao hơn gấp 2 lần mà hầu như không làm giảm độ chính xác. Tải xuống các điểm kiểm tra mô hình từ Hugging Face hoặc dưới dạng NVIDIA NIM .
Hãy sở hữu chiếc siêu máy tính AI DGX Spark với nền tảng siêu chip GB10, tham gia cộng đồng nhà phát triển DGX Spark và bắt đầu hành trình xây dựng trí tuệ nhân tạo của bạn ngay hôm nay.
