Phát triển các Agent thuần đa phương thức với Qwen3.5 VLM sử dụng các endpoint được tăng tốc bằng GPU của NVIDIA

Alibaba vừa giới thiệu dòng sản phẩm mã nguồn mở Qwen3.5 mới được xây dựng cho các Agent thuần đa phương thức (Native Multimodal). Mô hình đầu tiên trong dòng sản phẩm này là một mô hình ngôn ngữ-hình ảnh (VLM) thuần với khoảng 400 tỷ tham số, tích hợp khả năng suy luận được xây dựng trên kiến trúc lai mixture of experts (MoE) và mạng Gated Delta Networks. Qwen3.5 có khả năng hiểu và điều hướng giao diện người dùng, cải tiến hơn so với thế hệ VLM trước đó.

Qwen3.5 lý tưởng cho nhiều tình huống ứng dụng khác nhau, bao gồm:

Lập trình, bao gồm phát triển web.
Suy luận trực quan, cả giao diện mobile và web.
Ứng dụng hội thoại, chat
Tìm kiếm với độ phức tạp cao

Qwen3.5
Modalities	Vision, language
Total parameters	397B
Active parameters	17B
Activation rate	4.28%
Input context length	256K extensible to 1M tokens
Languages supported	200+
Additional configuration information
Experts	512
Shared experts	1
Experts per token	11 (10 routed + 1 shared)
Layers	60
Words (vocabulary)	248,320

Bảng 1. Thông số và chi tiết thiết lập của model Qwen3.5

Build với các “endpoint” của NVIDIA

Bạn có thể bắt đầu build ứng dụng với Qwen3.5 ngay hôm nay với quyền truy cập miễn phí vào các endpoint được tăng tốc bằng GPU trên build.nvidia.com, được hỗ trợ bởi GPU NVIDIA Blackwell. Là một phần của Chương trình Nhà phát triển NVIDIA, bạn có thể khám phá chúng dễ dàng bằng trình duyệt, thử nghiệm với các câu lệnh và thậm chí kiểm tra mô hình với dữ liệu của riêng bạn để đánh giá hiệu suất thực tế.

Video 1. Tìm hiểu cách bạn có thể kiểm tra Qwen3.5 trên các thiết bị đầu cuối được tăng tốc bằng GPU của NVIDIA.

Bạn cũng có thể sử dụng mô hình do NVIDIA cung cấp thông qua API, miễn phí khi đăng ký trong Chương trình Nhà phát triển NVIDIA (NVIDIA Developer Program).

import requests 
  
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" 
  
headers = { 
    "Authorization": "Bearer $NVIDIA_API_KEY", 
    "Accept": "application/json", 
} 
  
payload = { 
  "messages": [ 
    { 
    "role": "user", 
    "content": "" 
    } 
  ], 
  "model": "qwen/qwen3.5-397b-a17b", 
  "chat_template_kwargs": { 
    "thinking": True 
  }, 
  "frequency_penalty": 0, 
  "max_tokens": 16384, 
  "presence_penalty": 0, 
  "stream": True, 
  "temperature": 1, 
  "top_p": 1 
} 
  
# re-use connections 
session = requests.Session() 
  
response = session.post(invoke_url, headers=headers, json=payload) 
  
response.raise_for_status() 
response_body = response.json() 
print(response_body)

Để tận dụng tính năng “tool calling”, chỉ cần định nghĩa một mảng các công cụ tương thích với OpenAI để thêm vào tham số hoàn thành cuộc trò chuyện tools .

NVIDIA NIM giúp dễ dàng đưa Qwen3.5 từ giai đoạn phát triển đến giai đoạn sản xuất. Có sẵn dưới dạng các vi dịch vụ (microservices) suy luận được tối ưu hóa và đóng gói trong container, NIM cung cấp mô hình với khả năng tinh chỉnh hiệu năng, API được chuẩn hóa và tính linh hoạt triển khai mà các doanh nghiệp cần. Tải xuống và chạy ở bất cứ đâu; tại chỗ, trên đám mây hoặc trong môi trường kết hợp.

Tùy biến với NVIDIA NeMo

Mặc dù Qwen3.5 cung cấp các khả năng đa phương thức ấn tượng ngay từ khi xuất xưởng, NVIDIA NeMo Framework vẫn cung cấp các công cụ thiết yếu để điều chỉnh nó cho các nhu cầu chuyên biệt trong từng lĩnh vực. Sử dụng thư viện NeMo Automodel, các nhà phát triển có thể tinh chỉnh kiến trúc 397 tỷ tham số của Qwen3.5 với hiệu suất cao.

NeMo Automodel là thư viện huấn luyện được xây dựng trên PyTorch, hỗ trợ Day 0 Hugging Face, cho phép huấn luyện trực tiếp trên các checkpoint hiện có mà không cần chuyển đổi mô hình tốn nhiều công sức. Điều này tạo điều kiện thuận lợi cho việc thử nghiệm nhanh chóng, cho dù thực hiện tinh chỉnh có giám sát đầy đủ (SFT) hay sử dụng các phương pháp tiết kiệm bộ nhớ như LoRA.

Để tham khảo hướng dẫn triển khai, các nhà phát triển có thể sử dụng hướng dẫn kỹ thuật trên Medical Visual QA, trong đó mô tả chi tiết cách tinh chỉnh Qwen3.5 trên các tập dữ liệu chẩn đoán. Đối với quy mô lớn, NeMo hỗ trợ triển khai đa node Slurm và Kubernetes, cần đảm bảo rằng ngay cả các mô hình MoE lớn nhất cũng được tối ưu hóa cho suy luận chuyên biệt theo lĩnh vực và quy trình làm việc phức tạp của tác nhân với độ trễ tối thiểu.

Bắt đầu với Qwen3.5

Từ việc triển khai ở trung tâm dữ liệu trên NVIDIA Blackwell đến vi dịch vụ NVIDIA NIM để triển khai container ở bất cứ đâu, NVIDIA cung cấp các giải pháp tích hợp Qwen3.5 toàn diện cho bạn. Để bắt đầu, hãy xem trang mô hình Qwen3.5 trên Hugging Face và thử nghiệm Qwen3.5 trên build.nvidia.com.

____
Bài viết liên quan