NVIDIA Nemotron 3 Nano Omni hỗ trợ suy luận tác nhân đa phương thức trong một mô hình mở hiệu quả duy nhất.

Đơn giản hóa quy trình xử lý và nâng cao độ chính xác của suy luận đa phương thức với NVIDIA Nemotron 3 Nano Omni, một mô hình hàng đầu dành cho việc kết hợp video, âm thanh, hình ảnh và văn bản.

Các hệ thống tác nhân thường suy luận trên nhiều màn hình, tài liệu, âm thanh, video và văn bản trong một vòng lặp từ nhận thức đến hành động duy nhất. Tuy nhiên, chúng vẫn dựa trên các chuỗi mô hình phân mảnh—các ngăn xếp riêng biệt cho hình ảnh, âm thanh và văn bản. Điều này làm tăng số bước suy luận và độ phức tạp điều phối, làm tăng chi phí suy luận đồng thời làm suy yếu tính nhất quán ngữ cảnh đa phương thức.

NVIDIA Nemotron 3 Nano Omni, một sản phẩm mới thuộc dòng Nemotron 3, mang đến khả năng suy luận đa phương thức thống nhất trong một mô hình mở duy nhất, hiệu quả cao. Được xây dựng để thay thế các hệ thống xử lý hình ảnh-ngôn ngữ-âm thanh rời rạc, Nemotron 3 Nano Omni hoạt động như một tác nhân phụ xử lý nhận thức và ngữ cảnh đa phương thức trong các hệ thống tác nhân.

Nhờ đó, các tác nhân có thể nhận thức và suy luận trên nhiều loại đầu vào hình ảnh, âm thanh và văn bản trong một vòng lặp nhận thức-hành động chung duy nhất, cải thiện sự hội tụ và giảm độ phức tạp trong điều phối cũng như chi phí suy luận.

Nó mang lại độ chính xác hàng đầu trong các bảng xếp hạng về trí tuệ tài liệu như MMlongbench-Doc và OCRBenchV2, ồng thời dẫn đầu trong khả năng hiểu video và âm thanh trên các hệ thống, WorldSenseDailyOmni, và VoiceBench.

Ngoài độ chính xác, MediaPerf—một chuẩn mực ngành mở đánh giá các mô hình hiểu video trên dữ liệu phương tiện thực tế và các tác vụ sản xuất về chất lượng, chi phí và thông lượng—cho thấy Nemotron 3 Nano Omni đạt được thông lượng cao nhất trên mọi tác vụ và chi phí suy luận thấp nhất cho việc gắn thẻ cấp độ video. Hãy đọc bài viết này để tìm hiểu thêm.

Được xây dựng trên kiến ​​trúc hỗn hợp chuyên gia (MoE) lai 30B-A3B, Nemotron 3 Nano Omni kích hoạt chuyên gia cần thiết cho mỗi tác vụ và phương thức, cho thông lượng cao và hiệu suất đa phương thức mạnh mẽ ở quy mô lớn. Với các trọng số, tập dữ liệu và công thức hoàn toàn mở, các nhà phát triển có thể tùy chỉnh, triển khai và tích hợp các tác nhân phụ đa phương thức trên các môi trường cục bộ, đám mây và doanh nghiệp.

Video 1. NVIDIA Nemotron 3 Nano Omni hợp nhất video, âm thanh, hình ảnh và văn bản trong kiến trúc MoE mở

Hiệu suất và độ chính xác hàng đầu

Nemotron 3 Nano Omni hỗ trợ suy luận được tối ưu hóa nhận biết phần cứng trên nhiều kiến trúc GPU, bao gồm các dòng GPU NVIDIA Ampere, NVIDIA Hopper và NVIDIA Blackwell cũng như cho các công cụ suy luận phổ biến, bao gồm vLLM và NVIDIA TensorRT-LLM.

Nó hỗ trợ lượng tử hóa FP8 và NVFP4, lấy mẫu video hiệu quả và các nhân được tối ưu hóa bởi NVIDIA để mang lại khả năng suy luận có thể dự đoán được với độ trễ thấp. Kết hợp với xử lý không gian-thời gian dựa trên mạng tích chập 3D, những tối ưu hóa này cho phép duy trì khả năng nhận thức đa phương thức với chi phí tính toán thấp hơn trên các GPU—từ máy trạm đến trung tâm dữ liệu và triển khai đám mây.

Được thiết kế để cung cấp năng lượng cho các tác nhân con, Nemotron 3 Nano Omni hỗ trợ nhận thức, duy trì ngữ cảnh và hiểu biết đa phương thức trong các hệ thống tác nhân lớn hơn. Nó tích hợp liền mạch với các mô hình thực thi và lập kế hoạch—chẳng hạn như NVIDIA Nemotron 3 Super và NVIDIA Nemotron 3 Ultra—giúp kiến ​​trúc tác nhân trở nên mô-đun, hiệu quả và có khả năng mở rộng.

Các điểm chuẩn sau đây đánh giá hiệu suất dưới ngưỡng tương tác cố định—các điểm mà tại đó mỗi người dùng tiếp tục trải nghiệm tương tác phản hồi nhanh chóng, theo thời gian thực. Thay vì tối đa hóa khả năng xử lý đồng thời, các đánh giá giữ thông lượng trên mỗi người dùng (số token mỗi giây trên mỗi người dùng) không đổi trên trục x và đo lường mức thông lượng tổng thể của hệ thống có thể được duy trì mà không làm giảm trải nghiệm người dùng.

Hình 1. Tổng thông lượng hệ thống được duy trì bởi mỗi mô hình ở ngưỡng tương tác cố định trên mỗi người dùng (token/giây/người dùng)

Đối với lý luận video ở cùng ngưỡng tương tác, Nemotron 3 Nano Omni duy trì thông lượng tổng hợp cao hơn, dẫn đến dung lượng hệ thống hiệu quả cao hơn tới ~9,2 lần so với các mô hình omni mở khác.

Đối với suy luận đa tài liệu ở cùng ngưỡng tương tác, Nemotron 3 Nano Omni duy trì thông lượng tổng hợp cao hơn, dẫn đến dung lượng hệ thống hiệu quả cao hơn tới ~7,4 lần so với các mô hình omni mở khác.

Trên GPU Blackwell, Nemotron 3 Nano Omni với lượng tử hóa NVFP4 đạt được thông lượng cao nhất trong số các mô hình omni mở cho các khối lượng công việc cấp doanh nghiệp liên quan đến tài liệu phức tạp, suy luận dài hạn và các lô video lớn. Những tính năng này làm cho nó rất phù hợp cho các ứng dụng tác nhân trong lĩnh vực tài chính, chăm sóc sức khỏe, khám phá khoa học, truyền thông và giải trí, và các nền tảng công nghệ quảng cáo xử lý khối lượng lớn nội dung video và âm thanh ở quy mô lớn.

Sự cải thiện này không phải là kết quả giả tạo của bài kiểm tra hiệu năng tổng hợp. Nó phản ánh hiệu quả kiến ​​trúc của Nemotron 3 Nano Omni khi được triển khai trong các khối lượng công việc tác nhân thực tế. Bằng cách hợp nhất nhận thức đa phương thức vào một vòng lặp mô hình duy nhất và chỉ kích hoạt các chuyên gia cần thiết cho mỗi phương thức, nó chuyển đổi hiệu quả mô hình thô thành nhiều tác nhân đồng thời hơn, thông lượng cao hơn và chi phí thấp hơn cho mỗi tác vụ — mà không làm giảm độ chính xác hoặc khả năng phản hồi.

Hình 3. Độ chính xác đa phương thức được cải thiện trên các điểm chuẩn hàng đầu trong ngành từ mẫu Nemotron Nano VL V2 trước đó đến Nemotron 3 Nano Omni

Bên trong Nemotron 3 Nano Omni có gì đặc biệt?

Nemotron 3 Nano Omni là một mô hình 30B-A3B nhẹ, được thiết kế để suy luận đa phương thức với thông lượng cao.

Thiết kế mô hình: Kiến trúc Nemotron 3 Nano Omni

Kiến trúc Nemotron3NanoOmni tích hợp khả năng nhận thức và suy luận đa phương thức vào một mô hình MoE lai 30B duy nhất, hỗ trợ nguyên bản các đầu vào văn bản, hình ảnh, video và âm thanh, đồng thời duy trì ngữ cảnh đa phương thức thống nhất trên các vòng lặp tác nhân và loại bỏ nhu cầu về các mô hình thị giác, giọng nói và ngôn ngữ riêng biệt.

  • Kiến trúc lõi MoE lai: Kết hợp các lớp Mamba để tối ưu hóa trình tự và bộ nhớ với các lớp Transformer để suy luận chính xác. Thiết kế này mang lại thông lượng cao hơn với hiệu quả bộ nhớ và tính toán được cải thiện lên đến 4 lần, phù hợp cho các vai trò tác nhân phụ.
  • Xử lý hình ảnh không gian-thời gian và lấy mẫu video hiệu quả: Để xử lý các khung hình video hiệu quả, Nemotron 3 Nano Omni sử dụng phép tích chập 3D để nắm bắt chuyển động giữa các khung hình. Lớp Lấy mẫu Video Hiệu quả (EVS) trong thời gian suy luận nén các token hình ảnh mật độ cao từ nhiều khung hình thành một tập hợp ngắn gọn mà LLM có thể xử lý mà không làm quá tải cửa sổ ngữ cảnh của nó.
  • Kiến trúc đa phương thức
    • Văn bản: Mô hình Nemotron 3 Nano Omni sử dụng mô hình văn bản mạnh mẽ làm bộ giải mã trung tâm, bảo toàn khả năng ngôn ngữ của mô hình nền tảng và huấn luyện cầu nối đa phương thức xung quanh văn bản được mô tả chi tiết trong các phần tiếp theo. Điều này giúp giảm thiểu sự không ổn định và chi phí huấn luyện đa phương thức, đồng thời cung cấp hiệu quả và độ chính xác cao nhất cho các nhiệm vụ nhận thức liên tục.
    • Âm thanh: NVIDIA Granary, Music Flamingo, Parakeet
      Việc tích hợp âm thanh được xây dựng dựa trên bộ mã hóa NVIDIA Parakeet và các bộ dữ liệu chuyên dụng, vượt xa khả năng phiên âm đơn giản.
    • Trực quan: C-RADIOv4-H và Tóm tắt video dựa trên bộ mã hóa Để xử lý hình ảnh có độ phân giải cao và video động, Nemotron 3 Nano Omni sử dụng chiến lược nén theo tầng.
      • C-RADIOv4-H: Hình ảnh được xử lý ở độ phân giải cao bằng mô hình nền tảng C-RADIOv4-H. Điều này đóng vai trò như một bộ mã hóa thị giác mạnh mẽ cân bằng chi tiết có độ phân giải cao với tính toán hiệu quả. Nó có thể tập trung vào các bản vá cụ thể của một hình ảnh đầy đủ để duy trì độ chính xác OCR.

Hình 4. Kiến trúc MoE lai Nemotron 3 Nano Omni để tích hợp đa phương thức

Phương pháp đào tạo: Dữ liệu và đào tạo đa phương thức

Được huấn luyện trên dữ liệu đa phương thức và tinh chỉnh hướng dẫn, mô hình Nemotron 3 Nano Omni được thiết kế cho môi trường tác nhân thực tế. Nó tuân theo các hướng dẫn trải rộng trên hình ảnh, video, âm thanh và văn bản, hoạt động như một tác nhân phụ nhận thức và ngữ cảnh đa phương thức trong các hệ thống tác nhân lớn hơn. Tất cả các giai đoạn đều được đánh giá bằng thư viện NVIDIA NeMo Evaluator.

  • Đào tạo bộ chuyển đổi và bộ mã hóa: Dữ liệu quy mô lớn bao gồm các tài liệu, ảnh chụp màn hình, âm thanh và video, cho phép khái quát hóa mạnh mẽ các nhiệm vụ nhận thức doanh nghiệp.
  • Tinh chỉnh có giám sát (SFT): Một quy trình đa giai đoạn được triển khai với NVIDIA Megatron-LM, mở rộng dần phạm vi bao phủ đa phương thức, bắt đầu với bộ mã hóa ngôn ngữ hình ảnh và âm thanh, sau đó điều chỉnh độ dài ngữ cảnh (16K → 49K → 262K) để xây dựng khả năng tuân theo chỉ dẫn đa phương thức thống nhất.
  • Học tăng cường hậu SFT: Học tăng cường đa môi trường trên 25 cấu hình môi trường, sử dụng NVIDIA NeMo GymNeMo RL, với hơn 2,3 triệu lần triển khai môi trường để cải thiện độ bền vững cho các tác vụ đa phương thức và quy trình làm việc của tác nhân.

Thiết kế mở: Weights, data và recipes

Nemotron 3 Nano Omni được xây dựng trên nền tảng minh bạch, cung cấp quyền truy cập đầy đủ vào trọng lượng, bộ dữ liệu và công thức đào tạo. Với cách tiếp cận nguồn mở này, các nhà phát triển có thể tùy chỉnh mô hình tại chỗ, đảm bảo hiệu suất cao nhất mà không ảnh hưởng đến quyền riêng tư và bảo mật.

Trọng lượng mô hình

Các điểm kiểm tra tham số đầy đủ cho Nemotron 3 Nano Omni có sẵn trên HuggingFace, và mô hình cũng sẽ có sẵn dưới dạng NVIDIA NIM Microservices. Giấy phép Mô hình Mở NVIDIA Nemotron mang lại cho doanh nghiệp sự linh hoạt để duy trì kiểm soát dữ liệu và triển khai ở mọi nơi.

Công thức đào tạo và đánh giá toàn diện

Toàn bộ quy trình huấn luyện trước, sauđánh giá cho Nemotron 3 Nano Omni đều có sẵn, bao gồm toàn bộ quy trình từ huấn luyện trước đến căn chỉnh. Các nhà phát triển có thể tái tạo quá trình huấn luyện, điều chỉnh quy trình cho các biến thể chuyên biệt theo lĩnh vực hoặc sử dụng nó làm điểm khởi đầu cho nghiên cứu kiến ​​trúc lai của riêng họ.

Triển khai cookbooks và recipes

Hãy tham khảo những cẩm nang hướng dẫn sử dụng sẵn có dành cho các công cụ suy luận hàng đầu, mỗi cẩm nang đều có mẫu cấu hình, hướng dẫn tối ưu hiệu năng và các tập lệnh tham chiếu:

  • VLLM Cookbook: Xử lý theo lô và xử lý dữ liệu liên tục tốc độ cao cho Nemotron 3 Nano Omni.
  • SGLang Cookbook: Phương pháp suy luận nhanh, gọn nhẹ, được tối ưu hóa cho các tác vụ gọi công cụ đa tác nhân.
  • NVIDIA TensorRT LLM Cookbook: Các công cụ TensorRT LLM được tối ưu hóa hoàn toàn với nhân MoE tiềm ẩn, cho triển khai cấp độ sản xuất với độ trễ thấp.
  • Công thức triển khai Dynamo: Phân bổ máy chủ, định tuyến thông minh, bộ nhớ đệm KV đa tầng và hỗ trợ mở rộng tự động cho Nemotron 3 Nano Omni đa chế độ.

Cookbooks cho các giai đoạn đào tạo khác nhau, mỗi giai đoạn có mẫu cấu hình, hướng dẫn điều chỉnh hiệu suất và tập lệnh tham khảo cũng có sẵn:

Bộ dữ liệu mở

Với Nemotron 3 Nano và Nemotron 3 Super, NVIDIA đã phát hành ngăn xếp dữ liệu mở toàn diện nhất trong ngành cho AI tác nhân dựa trên văn bản với: mã thông báo đào tạo trước 10T +, mẫu sau đào tạo 40M +, hơn 20 cấu hình môi trường RL và công thức đào tạo đầy đủ, tất cả đều có sẵn công khai.

Nemotron 3 Nano Omni mở rộng cam kết đó từ văn bản sang đa phương thức, mang lại mức độ cởi mở như nhau trên văn bản, âm thanh, hình ảnh và video.

  • Thang đo đào tạo bộ chuyển đổi và bộ mã hóa: Mã thông báo ~127B trên các phương thức hỗn hợp bao gồm văn bản+hình ảnh, văn bản+video, văn bản+âm thanh và văn bản+video+âm thanh—phản ánh các tương tác theo ngữ cảnh, trong thế giới thực so với dữ liệu một phương thức.
  • Đào tạo sau cho các nhiệm vụ trong thế giới thực: Các ví dụ được tuyển chọn ~ 124M trên các kết hợp đa phương thức (văn bản+âm thanh, văn bản+hình ảnh, văn bản+video và văn bản+video+âm thanh), được cấu trúc để hỗ trợ lý luận tài liệu, sử dụng máy tính và quy trình làm việc đường chân trời dài.
  • Môi trường RL để đào tạo đại lý: 20 bộ dữ liệu RL trên 25 môi trường bao gồm 5 tác vụ đa phương thức mới—nối đất trực quan, hiểu biểu đồ và tài liệu, các vấn đề STEM quan trọng về thị giác, hiểu video và nhận dạng giọng nói tự động—mở rộng quy trình RL của Nemotron ngoài văn bản thành thị giác và âm thanh.

Tạo dữ liệu tổng hợp NVIDIA NeMo Data Designer

Các quy trình tạo dữ liệu tổng hợp (SDG) được xây dựng bằng NVIDIA NeMo Data Designer để đào tạo sau Nemotron 3 Nano Omni về các tác vụ hiểu tài liệu dài phức tạp cũng có sẵn. Thông qua việc phát triển quy trình lặp đi lặp lại, đào tạo và phân tích lỗi, một loạt quy trình tạo ra ~11,4 triệu cặp câu hỏi-câu trả lời trực quan tổng hợp (~45B mã thông báo) đã được tích hợp vào hỗn hợp đào tạo cuối cùng cho Nemotron 3 Nano Omni.

Đọc chuyên sâu về phương pháp SDG lặp đi lặp lại, điều gì hiệu quả, điều gì không và tập hợp các công thức quy trình. Quy trình SDG cũng có sẵn dưới dạng công thức thiết kế dữ liệu.

Dữ liệu huấn luyện hình ảnh được cho phép phát hành tại huggingface.co/datasets/nvidia/Nemotron-Image-Training-v3. Với dữ liệu hình ảnh cơ bản và mô hình, các nhà phát triển có thể kiểm tra, điều chỉnh và mở rộng các quy trình đào tạo đa phương thức. Đối với các doanh nghiệp trước đây đã duy trì các ngăn xếp dữ liệu tài liệu, lời nói và tầm nhìn biệt lập, Omni hợp nhất chúng thành một nền tảng duy nhất, sẵn sàng cho sản xuất, hạ thấp rào cản triển khai AI tác nhân trên các phương thức.

Claws được cung cấp bởi Nemotron 3 Nano Omni

Khi được ghép nối với thời gian chạy NVIDIA OpenShell và các bộ khai thác tác nhân khác nhau, Nemotron 3 Nano Omni sẽ thay đổi tương tác với nội dung video:

  • Hiểu biết về video bản địa: Không giống như các hệ thống truyền thống gây ảo giác dựa trên phiên mã, Nemotron 3 Nano Omni sử dụng một đường ống trực quan-thời gian bản địa (có tính năng xoắn 3D và lấy mẫu video hiệu quả) để xem những gì đang xảy ra trên màn hình. Điều này cho phép sao chép và tóm tắt gần như ngay lập tức, có độ trung thực cao để ghi lại các biểu đồ giống như ngữ cảnh trực quan hoặc text— trên màn hình mà các mô hình chỉ có âm thanh bỏ sót.
  • Các tác nhân Claws đầu tiên về quyền riêng tư: Bằng cách chạy ngăn xếp này thông qua NemoClaw, dữ liệu video của người dùng không bao giờ rời khỏi cơ sở hạ tầng cục bộ. NVIDIA NemoClaw cài đặt các tác nhân OpenClaw bên trong một NVIDIA OpenShell môi trường sandbox với bộ định tuyến riêng tư, đảm bảo rằng các bản ghi nhạy cảm vẫn được bảo mật, trong khi các tác nhân phụ được hỗ trợ bởi Nemotron 3 Nano Omni hoàn thành các nhiệm vụ chuyên biệt để hiểu đa phương thức.
  • Trả lời câu hỏi chính xác: Với lý luận đa phương thức nâng cao, người dùng có thể hỏi những câu hỏi mở, phức tạp về video của họ. Tác nhân sử dụng cửa sổ ngữ cảnh mã thông báo dài của Nemotron 3 Nano Omni để cung cấp các câu trả lời chính xác, được trích dẫn mà không làm mất chuỗi .

Các hướng dẫn sau để biết thêm thông tin về cách chạy Nemotron 3 Nano Omni OpenClaw và Đặc vụ Hermes trong hộp cát NemoClaw với OpenShell. Xem quy trình công việc chính xác đang hoạt động, từ triển khai cục bộ đến lý luận video trong thế giới thực.

Bắt đầu với Nemotron 3 Nano Omni 

Nemotron 3 Nano Omni hiện có sẵn mô hình đa phương thức mở, hiệu quả được xây dựng để cung cấp năng lượng cho các tác nhân phụ trong khối lượng công việc của tác nhân. Bạn có thể truy cập nó trên:

Để tìm hiểu sâu hơn về kiến trúc và thiết kế mô hình, hãy đọc Báo cáo kỹ thuật Nemotron 3 Nano Omni.

Luôn cập nhật NVIDIA Nemotron bằng cách đăng ký NVIDIA news và theo dõi NVIDIA AI trên LinkedInX Discord, và YouTube“.

Ghé thăm Trang nhà phát triển Nemotron để có nguồn lực để bắt đầu. Khám phá các mô hình và bộ dữ liệu Nemotron đang mở trên HuggingFace và Blueprints trên build.nvidia.com“.

Tham gia với Phát trực tiếp Nemotronhướng dẫn và cộng đồng nhà phát triển trên Diễn đàn NVIDIA và Discord“.

____
Bài viết liên quan
TAG: , , ,