llm – NTC AI

Blog

Tự động hóa quá trình tối ưu hóa Inference với NVIDIA TensorRT-LLM AutoDeploy

NVIDIA TensorRT-LLM cho phép các nhà phát triển xây dựng các engine suy luận (inference engines) hiệu suất cao cho các mô hình ngôn ngữ lớn (LLM). Tuy nhiên, việc …

Blog

Retrieval-Augmented Generation (RAG) là gì?

Retrieval-Augmented Generation (RAG) là một kỹ thuật AI cho phép kết nối một nguồn dữ liệu bên ngoài với mô hình ngôn ngữ lớn (LLM) để tạo ra các phản …