Benchmark AgentPerf là gì? Tại sao hạ tầng Agentic AI lại cần một thước đo mới?
AgentPerf (được phát triển bởi Artificial Analysis) là bộ tiêu chuẩn đánh giá đầu tiên trong ngành được thiết kế chuyên biệt để đo lường và so sánh năng lực chịu tải của các hệ thống phần cứng đối với khối lượng công việc Agentic AI trong thế giới thực.
Khối lượng công việc (workload) của Agentic AI có bản chất khác biệt hoàn toàn so với AI đàm thoại truyền thống (Conversational AI). Nếu như một lượt phản hồi chat thông thường giống như một cuộc chạy nước rút – chỉ gồm một lượt gọi mô hình ngôn ngữ lớn (LLM call) và một kết quả đầu ra – thì một AI Agent lại hoạt động theo mô hình chạy tiếp sức. Agent sẽ tự động phân rã một mục tiêu lớn phức tạp thành chuỗi nhiều bước hành động độc lập và liên tục thực hiện, tối ưu cho đến khi hoàn thành nhiệm vụ.

Quá trình vận hành này liên kết chuỗi (chaining) hàng chục đến hàng trăm LLM calls cùng các lượt gọi công cụ ngoại vi (tool calls). Tại mỗi điểm chuyển giao, dung lượng ngữ cảnh (context window) sẽ phình to theo cấp số nhân, đi kèm với các tác vụ như biên dịch mã nguồn, thực thi lệnh, truy vấn cơ sở dữ liệu hay duyệt web. Sự phức tạp mang tính bùng nổ này khiến các bộ benchmark suy luận (inference benchmarks) cũ trở nên lỗi thời, bởi chúng vốn chỉ được thiết kế để đo tốc độ phản hồi của một truy vấn đơn lẻ chứ không thể mô phỏng áp lực mà chuỗi liên kết Agent đặt lên hệ thống phần cứng.
Hệ thống siêu máy chủ NVIDIA Blackwell Ultra NVL72 đạt kết quả đột phá ra sao trong bài thử nghiệm này?
Nền tảng NVIDIA Blackwell Ultra NVL72 thiết lập kỷ lục hiệu năng mới khi vận hành số lượng AI Agent trên mỗi megawatt (MW) điện năng cao gấp 20 lần so với kiến trúc thế hệ trước là NVIDIA Hopper (cụ thể là hệ thống NVIDIA HGX H200).
AdTrong đợt công bố kết quả đầu tiên của AgentPerf, bài kiểm tra sử dụng DeepSeek V4 Pro – một mô hình lai chuyên gia (Mixture-of-Experts – MoE) thuộc phân khúc frontier model, hiện đang là xương sống của các ứng dụng Agent cao cấp nhất. Trên khối lượng công việc cực nặng này, cấu trúc tủ rack GB300 NVL72 đã chứng minh sức mạnh áp đảo hoàn toàn.

Hệ thống Blackwell hỗ trợ số lượng Agent chạy đồng thời (concurrent agents) vượt trội so với thế hệ H200 ở cả hai mức cam kết chất lượng dịch vụ (SLO) khắt khe về độ phản hồi: 20 tokens/giây/agent và 60 tokens/giây/agent. Đối với các doanh nghiệp đang triển khai hệ thống Agent ở quy mô công nghiệp, những con số này trực tiếp quyết định lượng công việc thực tế thu về trên mỗi chi phí đầu tư hạ tầng (CAPEX) và chi phí vận hành nguồn điện (OPEX).
Những yếu tố kiến trúc nào giúp nền tảng Blackwell tối ưu hóa chuỗi xử lý phức tạp của Agentic AI?
Sự vượt trội của Blackwell đến từ chiến lược đồng thiết kế toàn diện (full-stack co-design), kết hợp chặt chẽ giữa năng lực liên kết phần cứng quy mô lớn và tầng phần mềm tối ưu hóa chuyên sâu.
Hiệu năng đỉnh cao này được định hình bởi ba trụ cột công nghệ cốt lõi:
- Kiến trúc Rack-Scale NVL72: Việc liên kết 72 GPU Blackwell thành một khối thống nhất trong một tủ rack thông qua switch NVLink cho phép phân phối và thực thi các mô hình MoE khổng lồ như DeepSeek V4 Pro một cách mượt mà, loại bỏ hoàn toàn hiện tượng nghẽn cổ chai băng thông liên nút (inter-node).
- Tối ưu hóa tầng Kernel qua CUDA: Các CUDA kernel cao cấp cho phép xử lý gối đầu (overlap) giữa truyền thông dữ liệu và tính toán. Nhờ đó, độ trễ phát sinh từ việc điều phối dữ liệu giữa các “chuyên gia” (experts) trong kiến trúc MoE được hấp thụ hoàn toàn vào quá trình xử lý, thay vì cộng dồn vào tổng thời gian phản hồi.
- Công cụ tối ưu suy luận NVIDIA TensorRT-LLM: Đảm bảo duy trì hiệu suất vận hành cao khi số lượng phiên (session) của các Agent tăng trưởng quy mô lớn. Phần mềm này cô lập và tách biệt giai đoạn xử lý dữ liệu đầu vào (prefill) và giai đoạn tạo dữ liệu đầu ra (decode), giúp tối ưu hóa độc lập từng chuỗi tác vụ để đạt throughput cao nhất.
Cách tiếp cận của AgentPerf mô phỏng các kịch bản môi trường production thực tế như thế nào?
AgentPerf được xây dựng hoàn toàn dựa trên lịch sử thực thi (trajectories) thực tế của các Coding Agent, thu thập từ các kho mã nguồn mở công khai trên hơn 12 ngôn ngữ lập trình khác nhau.
Mỗi kịch bản thử nghiệm đều mô phỏng chính xác quy trình làm việc của một kỹ sư phần mềm: Agent nhận tác vụ, đọc file hệ thống, viết và chỉnh sửa mã nguồn, thực thi câu lệnh trong môi trường ảo, và tự động tối ưu hóa dựa trên kết quả trả về. Độ dài chuỗi (sequence lengths), tần suất tương tác công cụ và các khoảng trễ phản hồi trong benchmark đều trùng khớp với môi trường production thực tế của doanh nghiệp.
Để đảm bảo tính khách quan và cô lập chính xác năng lực xử lý của các bộ tăng tốc phần cứng (accelerators), các lượt gọi công cụ (tool calls) ngoại vi không thực sự chạy trên CPU mà được giả lập thông qua các khoảng thời gian trễ tiêu chuẩn của bộ vi xử lý. Điều này giúp các chuyên gia hạ tầng CNTT nhìn thấy bức tranh rõ ràng: hệ thống có thể chịu tải bao nhiêu tác vụ Agent đồng thời trên mỗi accelerator và trên mỗi megawatt điện tiêu thụ.
Những đối tác nào trong hệ sinh thái toàn cầu đã đưa Blackwell vào vận hành Agentic AI thực tế?
Các nhà cung cấp dịch vụ hạ tầng inference hàng đầu thế giới bao gồm Together AI, DeepInfra và Baseten đã nhanh chóng tích hợp NVIDIA Blackwell để cung cấp năng lượng cho các ứng dụng Agent thương mại quy mô lớn.
Hệ sinh thái đối tác công nghệ đang ghi nhận những bước nhảy vọt về hiệu suất:
- Together AI: Đang vận hành hệ thống suy luận thời gian thực cho Cursor – một trong những nền tảng lập trình tích hợp AI Agent phổ biến nhất hiện nay. Các Agent trên Cursor có thể tự động dò lỗi (debug), phát triển tính năng mới và refactor mã nguồn song song với quá trình gõ phím của developer mà không gây bất kỳ độ trễ hay gián đoạn nào.
- DeepInfra: Cung cấp hạ tầng cho Pam.ai – nền tảng nhân sự AI chuyên dụng cho các đại lý ô tô. Hệ thống vận hành hoàn toàn trên nền tảng Blackwell để triển khai các Agent tự động quản lý lịch hẹn bảo dưỡng, xử lý cuộc gọi hotline và thực hiện các chiến dịch bán hàng chủ động (outbound sales).
Tương lai của hạ tầng tính toán dành cho Agentic AI sẽ còn tiếp tục bùng nổ khi NVIDIA xác nhận kiến trúc thế hệ tiếp theo – NVIDIA Vera Rubin – hiện đã đi vào giai đoạn sản xuất toàn diện (full production), sẵn sàng đáp ứng các nhu cầu tính toán phức tạp nhất của kỷ nguyên trí tuệ nhân tạo tiếp theo.
Bài viết liên quan
- NVIDIA Riva giải pháp Voice RAG: tối ưu luồng dữ liệu âm thanh và đồng bộ Avatar 3D
- Triển khai kiến trúc Multi-Agent Intelligent Warehouse cho việc vận hành kho hàng hiện đại
- Triển khai NVIDIA Retail Agentic Commerce Blueprint: Merchant-Controlled
- Triển khai hệ thống Voice RAG bằng NVIDIA Riva framework trên hạ tầng cục bộ
- Nemotron Labs: Các agent OpenClaw có ý nghĩa gì đối với các tổ chức

