Alibaba vừa giới thiệu dòng sản phẩm mã nguồn mở Qwen3.5 mới được xây dựng cho các Agent thuần đa phương thức (Native Multimodal). Mô hình đầu tiên trong dòng sản phẩm này là một mô hình ngôn ngữ-hình ảnh (VLM) thuần với khoảng 400 tỷ tham số, tích hợp khả năng suy luận được xây dựng trên kiến trúc lai mixture of experts (MoE) và mạng Gated Delta Networks. Qwen3.5 có khả năng hiểu và điều hướng giao diện người dùng, cải tiến hơn so với thế hệ VLM trước đó.
Qwen3.5 lý tưởng cho nhiều tình huống ứng dụng khác nhau, bao gồm:
- Lập trình, bao gồm phát triển web.
- Suy luận trực quan, cả giao diện mobile và web.
- Ứng dụng hội thoại, chat
- Tìm kiếm với độ phức tạp cao
| Qwen3.5 | |
| Modalities | Vision, language |
| Total parameters | 397B |
| Active parameters | 17B |
| Activation rate | 4.28% |
| Input context length | 256K extensible to 1M tokens |
| Languages supported | 200+ |
| Additional configuration information | |
| Experts | 512 |
| Shared experts | 1 |
| Experts per token | 11 (10 routed + 1 shared) |
| Layers | 60 |
| Words (vocabulary) | 248,320 |
Build với các “endpoint” của NVIDIA
Bạn có thể bắt đầu build ứng dụng với Qwen3.5 ngay hôm nay với quyền truy cập miễn phí vào các endpoint được tăng tốc bằng GPU trên build.nvidia.com, được hỗ trợ bởi GPU NVIDIA Blackwell. Là một phần của Chương trình Nhà phát triển NVIDIA, bạn có thể khám phá chúng dễ dàng bằng trình duyệt, thử nghiệm với các câu lệnh và thậm chí kiểm tra mô hình với dữ liệu của riêng bạn để đánh giá hiệu suất thực tế.
Bạn cũng có thể sử dụng mô hình do NVIDIA cung cấp thông qua API, miễn phí khi đăng ký trong Chương trình Nhà phát triển NVIDIA (NVIDIA Developer Program).
import requests invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" headers = { "Authorization": "Bearer $NVIDIA_API_KEY", "Accept": "application/json", } payload = { "messages": [ { "role": "user", "content": "" } ], "model": "qwen/qwen3.5-397b-a17b", "chat_template_kwargs": { "thinking": True }, "frequency_penalty": 0, "max_tokens": 16384, "presence_penalty": 0, "stream": True, "temperature": 1, "top_p": 1 } # re-use connections session = requests.Session() response = session.post(invoke_url, headers=headers, json=payload) response.raise_for_status() response_body = response.json() print(response_body) |
Để tận dụng tính năng “tool calling”, chỉ cần định nghĩa một mảng các công cụ tương thích với OpenAI để thêm vào tham số hoàn thành cuộc trò chuyện tools .
NVIDIA NIM giúp dễ dàng đưa Qwen3.5 từ giai đoạn phát triển đến giai đoạn sản xuất. Có sẵn dưới dạng các vi dịch vụ (microservices) suy luận được tối ưu hóa và đóng gói trong container, NIM cung cấp mô hình với khả năng tinh chỉnh hiệu năng, API được chuẩn hóa và tính linh hoạt triển khai mà các doanh nghiệp cần. Tải xuống và chạy ở bất cứ đâu; tại chỗ, trên đám mây hoặc trong môi trường kết hợp.
Tùy biến với NVIDIA NeMo
Mặc dù Qwen3.5 cung cấp các khả năng đa phương thức ấn tượng ngay từ khi xuất xưởng, NVIDIA NeMo Framework vẫn cung cấp các công cụ thiết yếu để điều chỉnh nó cho các nhu cầu chuyên biệt trong từng lĩnh vực. Sử dụng thư viện NeMo Automodel, các nhà phát triển có thể tinh chỉnh kiến trúc 397 tỷ tham số của Qwen3.5 với hiệu suất cao.
NeMo Automodel là thư viện huấn luyện được xây dựng trên PyTorch, hỗ trợ Day 0 Hugging Face, cho phép huấn luyện trực tiếp trên các checkpoint hiện có mà không cần chuyển đổi mô hình tốn nhiều công sức. Điều này tạo điều kiện thuận lợi cho việc thử nghiệm nhanh chóng, cho dù thực hiện tinh chỉnh có giám sát đầy đủ (SFT) hay sử dụng các phương pháp tiết kiệm bộ nhớ như LoRA.
Để tham khảo hướng dẫn triển khai, các nhà phát triển có thể sử dụng hướng dẫn kỹ thuật trên Medical Visual QA, trong đó mô tả chi tiết cách tinh chỉnh Qwen3.5 trên các tập dữ liệu chẩn đoán. Đối với quy mô lớn, NeMo hỗ trợ triển khai đa node Slurm và Kubernetes, cần đảm bảo rằng ngay cả các mô hình MoE lớn nhất cũng được tối ưu hóa cho suy luận chuyên biệt theo lĩnh vực và quy trình làm việc phức tạp của tác nhân với độ trễ tối thiểu.
Bắt đầu với Qwen3.5
Từ việc triển khai ở trung tâm dữ liệu trên NVIDIA Blackwell đến vi dịch vụ NVIDIA NIM để triển khai container ở bất cứ đâu, NVIDIA cung cấp các giải pháp tích hợp Qwen3.5 toàn diện cho bạn. Để bắt đầu, hãy xem trang mô hình Qwen3.5 trên Hugging Face và thử nghiệm Qwen3.5 trên build.nvidia.com.
