Top 5 kỹ thuật tối ưu hóa mô hình AI để suy luận nhanh hơn và thông minh hơn

Khi các mô hình AI ngày càng lớn hơn và kiến trúc trở nên phức tạp hơn, các nhà nghiên cứu và kỹ sư liên tục tìm ra các kỹ thuật mới để tối ưu hóa hiệu suất và chi phí tổng thể khi đưa các hệ thống AI vào sản xuất.

Tối ưu mô hình là một nhóm các kỹ thuật tập trung vào việc nâng cao hiệu quả dịch vụ suy luận. Những kỹ thuật này mang lại hiệu quả chi phí cao nhất, cải thiện trải nghiệm người dùng và khả năng mở rộng. Các kỹ thuật này bao gồm từ các phương pháp nhanh chóng và hiệu quả như lượng tử hóa mô hình đến các quy trình nhiều bước mạnh mẽ như cắt tỉa và chưng cất.

Bài viết này sẽ đề cập đến năm kỹ thuật tối ưu hóa mô hình hàng đầu được hỗ trợ bởi NVIDIA Model Optimizer và cách mỗi kỹ thuật góp phần cải thiện hiệu năng, tổng chi phí sở hữu (TCO) và khả năng mở rộng của các triển khai trên GPU NVIDIA.

Những kỹ thuật này là những công cụ mạnh mẽ và có khả năng mở rộng nhất hiện có trong Model Optimizer mà các nhóm có thể áp dụng ngay lập tức để giảm chi phí trên mỗi token, cải thiện thông lượng và tăng tốc suy luận ở quy mô lớn.

Hình ảnh minh họa gồm năm thẻ, mỗi thẻ có một biểu tượng nhỏ màu xanh lá cây và tiêu đề. Các kỹ thuật được liệt kê là: Lượng tử hóa sau huấn luyện (“Đường dẫn nhanh nhất đến tối ưu hóa”), Huấn luyện nhận biết lượng tử hóa (“Khôi phục độ chính xác đơn giản”), Chưng cất nhận biết lượng tử hóa (“Độ chính xác tối đa và tăng tốc”), Giải mã suy đoán (“Tăng tốc mà không cần thay đổi mô hình”) và Cắt tỉa & Chưng cất (“Thu gọn mô hình và giữ lại trí thông minh”). Tất cả các thẻ đều sử dụng nền trắng sạch với biểu tượng thanh/não/mạng màu xanh lá cây theo phong cách NVIDIA. — *Hình 1. Năm kỹ thuật tối ưu hóa mô hình có tác động mạnh mẽ nhất*

1. Lượng tử hóa sau huấn luyện

Lượng tử hóa sau huấn luyện (PTQ) là con đường nhanh nhất để tối ưu hóa mô hình. Bạn có thể tận dụng một mô hình hiện có (FP16/BF16/FP8) và nén nó xuống định dạng có độ chính xác thấp hơn (FP8, NVFP4, INT8, INT4) bằng cách sử dụng tập dữ liệu hiệu chuẩn—mà không cần thay đổi vòng lặp huấn luyện ban đầu. Đây là điểm mà hầu hết các nhóm nên bắt đầu. Phương pháp này dễ áp dụng với Model Optimizer và mang lại lợi ích ngay lập tức về độ trễ và thông lượng, ngay cả trên các mô hình nền tảng quy mô lớn (foundation models).

So sánh phạm vi biểu diễn và độ chính xác dữ liệu cho các định dạng FP16, FP8 và FP4. FP16 cho thấy phạm vi rộng nhất (−65.504 đến +65.504) với các giá trị A và B nằm sát nhau, thể hiện độ chính xác cao. FP8 có phạm vi hẹp hơn (−448 đến +448) với các giá trị lượng tử hóa QA và QB nằm cách xa nhau hơn, cho thấy độ chính xác thấp hơn. FP4 cho thấy phạm vi thậm chí còn nhỏ hơn (−6 đến +6), minh họa sự đánh đổi giữa phạm vi và độ chính xác khi giảm độ rộng bit. — *Hình 2. Điều gì xảy ra với phạm vi và chi tiết khi lượng tử hóa từ FP16 xuống FP8 hoặc FP4.*

Ưu điểm	Nhược điểm
–Thời gian đạt được giá trị nhanh nhất –Có thể đạt được với tập dữ liệu hiệu chuẩn nhỏ –Lợi ích về bộ nhớ, độ trễ và thông lượng được cộng dồn với các tối ưu hóa khác –Các công thức lượng tử hóa tùy chỉnh cao ( ví dụ: NVFP4 KV Cache )	– Có thể cần áp dụng kỹ thuật khác (QAT/QAD) nếu chất lượng tối thiểu giảm xuống dưới mức SLA.

Bảng 1. Ưu điểm và nhược điểm của PTQ

Để tìm hiểu thêm, hãy xem bài viết Tối ưu hóa LLM để đạt hiệu suất và độ chính xác cao hơn với lượng tử hóa sau huấn luyện .

2. Huấn luyện có tính đến lượng tử hóa

Huấn luyện có nhận thức lượng tử hóa (QAT) đưa vào một giai đoạn tinh chỉnh ngắn, có mục tiêu, trong đó mô hình được điều chỉnh để tính đến lỗi độ chính xác thấp. Nó mô phỏng nhiễu lượng tử hóa trong vòng lặp tiến trong khi tính toán gradient ở độ chính xác cao hơn. QAT là bước tiếp theo được khuyến nghị khi cần độ chính xác bổ sung vượt quá những gì PTQ đã cung cấp.

Sơ đồ minh họa quy trình huấn luyện nhận biết lượng tử hóa (Quantization Aware Training - QAT). Bên trái, mô hình có độ chính xác ban đầu được kết hợp với dữ liệu hiệu chuẩn và công thức lượng tử hóa của Model Optimizer để tạo thành mô hình sẵn sàng cho QAT. Mô hình này, cùng với một tập con dữ liệu huấn luyện ban đầu, được đưa vào vòng lặp huấn luyện QAT. Bên trong vòng lặp, các trọng số có độ chính xác cao được cập nhật và sau đó được sử dụng làm trọng số "lượng tử hóa giả" trong quá trình truyền tiến. Hàm mất mát huấn luyện được tính toán, và quá trình truyền ngược sử dụng bộ ước lượng trực tiếp (straight-through estimator - STE) để lan truyền gradient. Vòng lặp lặp lại cho đến khi quá trình huấn luyện hội tụ. — *Hình 3. Một mô hình được chuẩn bị, lượng tử hóa và huấn luyện lặp đi lặp lại với các trọng số mô phỏng có độ chính xác thấp trong quy trình QAT.*

Ưu điểm	Nhược điểm
–Khôi phục toàn bộ hoặc phần lớn độ chính xác bị mất ở độ chính xác thấp –Hoàn toàn tương thích với NVFP4, đặc biệt là về độ ổn định FP4	– Yêu cầu ngân sách huấn luyện cộng với dữ liệu – Thời gian triển khai lâu hơn so với chỉ sử dụng PTQ đơn thuần

Bảng 2. Ưu điểm và nhược điểm của QAT

Để tìm hiểu thêm, hãy xem Cách huấn luyện có nhận thức về lượng tử hóa giúp khôi phục độ chính xác ở độ phân giải thấp .

3. Chưng cất có tính đến lượng tử hóa

Phương pháp chưng cất có tính đến lượng tử hóa (QAD) tiến thêm một bước so với QAT. Với kỹ thuật này, mô hình học sinh học cách tính đến các lỗi lượng tử hóa đồng thời được căn chỉnh theo độ chính xác tối đa của mô hình giáo viên thông qua hàm mất mát chưng cất (distillation loss). QAD tăng cường khả năng của QAT bằng cách thêm các yếu tố giảng dạy từ các nguyên tắc chưng cất, cho phép bạn trích xuất chất lượng tối đa có thể trong khi vẫn chạy ở độ chính xác cực thấp trong quá trình suy luận. QAD là một lựa chọn hiệu quả cho các tác vụ tiếp theo thường bị suy giảm hiệu suất đáng kể sau khi lượng tử hóa.

Sơ đồ thuật toán của phương pháp chưng cất nhận biết lượng tử hóa (Quantization Aware Distillation - QAD). Bên trái, một mô hình có độ chính xác ban đầu được kết hợp với dữ liệu hiệu chuẩn và công thức lượng tử hóa để tạo ra một mô hình học sinh sẵn sàng cho QAD. Mô hình học sinh này được ghép nối với một mô hình giáo viên có độ chính xác cao hơn và một tập con của dữ liệu huấn luyện ban đầu. Trong vòng lặp huấn luyện QAD, mô hình học sinh sử dụng trọng số "lượng tử hóa giả" trong quá trình truyền tiến, trong khi mô hình giáo viên thực hiện quá trình truyền tiến tiêu chuẩn. Các đầu ra được so sánh để tính toán tổn thất QAD, kết hợp tổn thất chưng cất với tổn thất huấn luyện tiêu chuẩn. Độ dốc truyền ngược trở lại qua mô hình học sinh bằng cách sử dụng bộ ước lượng trực tiếp (straight-through estimator - STE), và các trọng số có độ chính xác cao của mô hình học sinh được cập nhật để thích ứng với các điều kiện lượng tử hóa. — Hình 4. QAD huấn luyện mô hình học sinh có độ chính xác thấp dưới sự hướng dẫn của giáo viên, kết hợp tổn thất chưng cất với các cập nhật QAT tiêu chuẩn.

Ưu điểm	Nhược điểm
– Khả năng phục hồi độ chính xác cao nhất – Lý tưởng cho các quy trình xử lý hậu huấn luyện nhiều giai đoạn, giúp thiết lập dễ dàng và hội tụ mạnh mẽ	– Thêm chu kỳ huấn luyện sau giai đoạn huấn luyện sơ bộ – Tiêu tốn nhiều bộ nhớ hơn – Quy trình triển khai hiện nay phức tạp hơn một chút.

Bảng 3. Ưu điểm và nhược điểm của QAD

Để tìm hiểu thêm, hãy xem Cách huấn luyện có nhận thức về lượng tử hóa giúp khôi phục độ chính xác ở độ phân giải thấp .

4. Giải mã suy đoán

Bước giải mã trong suy luận được biết đến là thường gặp phải các nút thắt cổ chai về thuật toán xử lý tuần tự. Giải mã suy đoán giải quyết trực tiếp vấn đề này bằng cách sử dụng một mô hình dự thảo nhỏ hơn hoặc nhanh hơn (như EAGLE-3) để đề xuất nhiều token trước, sau đó xác minh chúng song song với mô hình mục tiêu. Điều này giúp giảm độ trễ tuần tự xuống chỉ còn một bước duy nhất và giảm đáng kể số lần forward pass cần thiết ở độ dài chuỗi dài, mà không cần thay đổi trọng số của mô hình.

Phương pháp giải mã suy đoán được khuyến nghị khi bạn muốn tăng tốc độ tạo dữ liệu ngay lập tức mà không cần huấn luyện lại hoặc lượng tử hóa, và nó kết hợp hoàn hảo với các tối ưu hóa khác trong danh sách này để tăng cường thông lượng và độ trễ.

Ảnh GIF minh họa ví dụ đầu vào là “The Quick”. Từ đầu vào này, mô hình dự thảo đề xuất “Brown”, “Fox”, “Hopped”, “Over”. Mô hình đích tiếp nhận đầu vào và dự thảo, sau đó xác minh “Brown” và “Fox” trước khi loại bỏ “Hopped” và tiếp tục loại bỏ tất cả các kết quả sau đó. “Jumped” là kết quả do chính mô hình đích tạo ra từ quá trình truyền tiến. — *Hình 5. Phương pháp tiếp cận mục tiêu dự thảo để giải mã suy đoán hoạt động như một hệ thống hai mô hình.*

Ưu điểm	Nhược điểm
–Giảm đáng kể độ trễ giải mã –Tương thích hoàn hảo với PTQ/QAT/QAD và NVFP4	–Cần điều chỉnh (tỷ lệ chấp nhận là yếu tố quan trọng nhất) –Cần có mô hình hoặc head thứ hai tùy thuộc vào biến thể

Bảng 4. Ưu điểm và nhược điểm của giải mã suy đoán

Để tìm hiểu thêm, hãy xem Giới thiệu về Giải mã suy đoán để giảm độ trễ trong suy luận AI .

5. Cắt tỉa kết hợp chưng cất tri thức

Cắt tỉa là một con đường tối ưu hóa cấu trúc. Kỹ thuật này loại bỏ các trọng số, lớp và/hoặc đầu để làm cho mô hình nhỏ hơn. Sau đó, quá trình chưng cất sẽ dạy mô hình nhỏ hơn cách suy nghĩ giống như mô hình lớn hơn. Chiến lược tối ưu hóa nhiều bước này thay đổi vĩnh viễn hiệu suất của mô hình vì mức độ tính toán và bộ nhớ cơ bản được giảm xuống vĩnh viễn.

Việc cắt tỉa kết hợp với chưng cất tri thức có thể được tận dụng khi các kỹ thuật khác trong danh sách này không thể mang lại sự tiết kiệm bộ nhớ hoặc tài nguyên tính toán cần thiết để đáp ứng yêu cầu của ứng dụng. Cách tiếp cận này cũng có thể được sử dụng khi các nhóm sẵn sàng thực hiện những thay đổi mạnh mẽ hơn đối với mô hình hiện có để điều chỉnh nó cho các trường hợp sử dụng chuyên biệt cụ thể ở khâu sau.

Sơ đồ này minh họa kết quả thành công của quá trình chắt lọc kiến thức bằng cách so sánh mạng lưới giáo viên với mạng lưới học sinh nhỏ hơn, đã được huấn luyện. Mô hình học sinh, mặc dù nhỏ gọn hơn, tạo ra một vectơ xác suất đầu ra gần giống với vectơ của giáo viên. — *Hình 6. Kết quả đầu ra của mô hình học sinh và giáo viên được đào tạo về phương pháp chưng cất tri thức.*

Ưu điểm	Nhược điểm
– Giảm số lượng tham số → tiết kiệm chi phí lâu dài và về mặt cấu trúc – Cho phép tạo ra các mô hình nhỏ hơn nhưng vẫn hoạt động như các mô hình lớn	–Cắt tỉa mạnh tay mà không dùng distill → làm giảm độ chính xác đột ngột –Đòi hỏi nhiều công sức hơn để xây dựng pipeline so với chỉ sử dụng PTQ đơn thuần

Bảng 5. Ưu điểm và nhược điểm của cắt tỉa kết hợp chưng cất tri thức.

Để tìm hiểu thêm, hãy xem bài viết “Cắt tỉa và tinh chế LLM bằng NVIDIA TensorRT Model Optimizer” .

Bắt đầu với tối ưu hóa mô hình AI

Các kỹ thuật tối ưu hóa rất đa dạng và phong phú. Bài viết này sẽ nêu bật năm kỹ thuật tối ưu hóa mô hình hàng đầu được hỗ trợ thông qua Model Optimizer.

PTQ, QAT, QAD, cùng với việc cắt tỉa và chưng cất giúp mô hình của bạn trở nên rẻ hơn, nhỏ gọn hơn và tiết kiệm bộ nhớ hơn khi vận hành.
Giải mã suy đoán giúp quá trình tạo ra dữ liệu nhanh hơn bằng cách giảm thiểu độ trễ tuần tự.

Để bắt đầu và tìm hiểu thêm, hãy khám phá các bài viết chuyên sâu liên quan đến từng kỹ thuật để có được giải thích kỹ thuật, thông tin chi tiết về hiệu suất và hướng dẫn sử dụng Jupyter Notebook.