Kỷ nguyên AI-native: Định nghĩa lại hạ tầng điện toán từ tầng KV cache đến quy mô tủ rack

Sự bùng nổ của các Mô hình Ngôn ngữ Lớn (LLM) và Trí tuệ Nhân tạo tạo sinh (Generative AI) đang tái định hình các nguyên lý thiết kế trung tâm dữ liệu. Đối với các kỹ sư hệ thống đang triển khai AI ở quy mô công nghiệp, bài toán tối ưu hóa không còn giới hạn ở mức độ vi kiến trúc (micro-architecture) của từng vi mạch. Để đạt được hiệu quả kinh tế ở quy mô lớn, chúng ta phải chuyển hướng sang xây dựng một kiến trúc hạ tầng AI factory nguyên bản (AI-native infrastructure).

Chúng tôi nhận thấy sự dịch chuyển này đang được dẫn dắt bởi sự cân bằng tinh tế giữa năng lực tính toán và băng thông bộ nhớ, sự chuyển dịch đơn vị tính toán lên quy mô tủ rack (rack-scale), và việc tiêu chuẩn hóa hạ tầng quản lý ngữ cảnh thông qua hệ thống phần mềm chuyên biệt.

Rack-scale: Đơn vị tính toán tiêu chuẩn của AI factory

Trong kỷ nguyên của các mô hình hàng chục đến hàng trăm tỷ tham số, một GPU đơn lẻ không còn là lăng kính phù hợp để đánh giá giới hạn hiệu năng. Nút thắt hệ thống đang dần chuyển dịch sang khả năng kết nối và luân chuyển dữ liệu ở quy mô lớn. Đó là lý do NVIDIA định nghĩa lại ranh giới của một hệ thống: Tủ rack giờ đây chính là một máy tính hợp nhất.

Các hệ thống kiến trúc mật độ cao như NVL72 là nền tảng của hạ tầng AI factory hiện đại. Thông qua hệ thống mạng NVLink thế hệ mới, hàng chục GPU có thể chia sẻ một không gian bộ nhớ chung với băng thông lên tới hàng chục Terabyte mỗi giây. Khả năng kết nối nguyên bản này giúp giảm thiểu đáng kể rào cản độ trễ của mạng trạm chuyển mạch truyền thống (như PCIe hay Ethernet tiêu chuẩn). Nhờ đó, tủ rack hoạt động như một cỗ máy suy luận duy nhất, cho phép triển khai các mô hình Mixture-of-Experts (MoE) khổng lồ mà không vấp phải sự phân mảnh về tài nguyên tính toán hay thắt cổ chai giao tiếp giữa các node.

Phân tích luồng hạ tầng KV cache và kinh tế học Token

Khi vận hành LLM trên môi trường production, thước đo tối thượng của hệ thống là chi phí trên mỗi token (cost-per-token) và thông lượng (throughput). Suy luận LLM không phải là một khối lượng công việc đồng nhất, mà là sự tương tác phức tạp giữa hai giai đoạn với các đặc tính nút thắt (bottleneck) hoàn toàn khác biệt:

Giai đoạn Prefill (Prefill phase): Xử lý prompt đầu vào. Giai đoạn này thực hiện tính toán ma trận với mật độ cao và thường bị giới hạn bởi năng lực tính toán thuần túy (compute-bound).

Giai đoạn Decode (Decode phase): Sinh từng token tuần tự. Giai đoạn này phụ thuộc nặng nề vào việc đọc/ghi dữ liệu từ bộ nhớ và thường bị giới hạn bởi băng thông bộ nhớ (memory-bandwidth bound).

Trong giai đoạn Decode, KV cache (Key-Value cache) chuyển mình từ một cơ chế phần mềm thành một tầng hạ tầng vật lý (infra layer) mang tính quyết định. Để duy trì ngữ cảnh cho hàng nghìn truy vấn đồng thời, hệ thống phải lưu trữ các tensor K và V trên bộ nhớ HBM (High Bandwidth Memory) của GPU.

Yêu cầu dung lượng bộ nhớ tĩnh cho KV cache có thể được mô hình hóa qua công thức:

Memory_KV = 2 * p * L * H * d * B * S

Giải thích các tham số đầu vào:

  • p: Số byte trên mỗi tham số (ví dụ: FP16 = 2, FP8 = 1)
  • L: Số lượng layer [Model size scaling]
  • H: Số head [Attention head count]
  • d: Kích thước head [Head dimension]
  • B: Batch size [Simultaneous sequence processing]
  • S: Chiều dài chuỗi sequence [Maximum token count]

Nếu không có chiến lược quản lý bộ nhớ ở cấp độ hạ tầng, sự phân mảnh (fragmentation) sẽ làm cạn kiệt HBM trước khi hệ thống đạt được batch size tối ưu, dẫn đến chi phí sinh token tăng vọt.

Sơ đồ luồng hạ tầng quản lý KV cache (Infra Flow)

Để giải quyết nút thắt này, hạ tầng AI factory áp dụng kỹ thuật PagedAttention và quản lý bộ nhớ động:

B1. Khởi tạo Yêu cầu (Request Initialization): Yêu cầu đến được cấp phát một dải các block vật lý rời rạc trong HBM thay vì một vùng nhớ liên tục.

B2. Giai đoạn Prefill: GPU tính toán các tensor K, V cho prompt và ghi vào các block vật lý đã cấp phát thông qua bảng phân trang (block table).

B3. Lập lịch linh hoạt (Continuous Batching): Trình quản lý hạ tầng (ví dụ: TensorRT-LLM) liên tục nạp các yêu cầu mới vào lô (batch) ngay khi một yêu cầu cũ hoàn thành, tối đa hóa tỷ lệ sử dụng GPU.

B4. Giai đoạn Decode: Các token mới được sinh ra. Nếu sequence dài ra vượt quá block hiện tại, hệ thống tự động cấp phát một block vật lý mới ở bất kỳ đâu trên HBM mà không cần sao chép toàn bộ bộ nhớ cũ.

B5. Thu hồi (Garbage Collection): Khi sequence kết thúc, các block vật lý ngay lập tức được giải phóng về memory pool cho các luồng xử lý khác.

Tiêu chuẩn hóa với NVIDIA NIM

Sức mạnh phần cứng ở quy mô rack cần một hệ điều hành tương xứng. NVIDIA NIM (NVIDIA Inference Microservices) được thiết kế để đóng vai trò lớp điều phối hạ tầng cốt lõi này.

Bằng cách tích hợp các mô hình nền tảng cùng với bộ thư viện tăng tốc tối ưu nhất (như TensorRT-LLM

) vào các container tiêu chuẩn, NIM cung cấp một kiến trúc sẵn sàng triển khai cho mọi AI factory. Khác với các giải pháp bọc API (API wrappers) thông thường, NIM can thiệp sâu vào tầng bộ nhớ, tự động hóa quá trình in-flight batching và tối ưu hóa cấp phát Paged KV cache. Điều này đảm bảo rằng các nhà phát triển phần mềm có thể tận dụng toàn bộ băng thông và năng lực tính toán của HBM/GPU mà không cần phải tự xây dựng lại các lớp quản lý bộ nhớ cấp thấp.

AI lý luận (Reasoning AI) và cấp phát ngân sách điện toán

Với sự xuất hiện của các mô hình tư duy đa bước (như dòng Nemotron), chúng ta đang chứng kiến sự thay đổi về cách phân bổ tài nguyên. Các khối lượng công việc này không chỉ tối ưu cho chỉ số “thời gian tạo token đầu tiên” (Time-to-First-Token – TTFT) mà đòi hỏi một ngân sách điện toán (compute budget) khổng lồ cho quá trình suy luận nội bộ trước khi đưa ra kết quả.

Hạ tầng AI factory của NVIDIA hỗ trợ sự dịch chuyển này bằng cách cho phép chia tách và cấu hình các cụm GPU động: một cụm với kiến trúc tối ưu cho xử lý prefill nặng nề (heavy reasoning), liên kết chặt chẽ qua hạ tầng mạng nội bộ với cụm chuyên trách sinh token tốc độ cao. Sự linh hoạt trong việc lập lịch và luân chuyển state giữa các cụm này chính là đặc quyền của một hạ tầng được thiết kế nguyên bản cho AI.

Tầm nhìn phía trước

Hạ tầng AI không còn là bài toán của việc ghép nối các linh kiện rời rạc. Thông qua việc nâng cấp quy mô tính toán lên mức tủ rack, xử lý triệt để bài toán kinh tế học token thông qua tầng quản lý KV cache, và thiết lập chuẩn mực triển khai với NVIDIA NIM, NVIDIA đang xây dựng nền móng vững chắc cho các AI factory thế hệ mới. Nền tảng này không chỉ cung cấp hiệu năng vượt trội mà còn đảm bảo khả năng mở rộng kinh tế dài hạn, biến năng lực suy luận AI thành một tiện ích sẵn sàng đáp ứng mọi giới hạn kỹ thuật của tương lai.