Mình vừa fork và trải nghiệm một giải pháp được phát triển từ bộ khung gốc cực kỳ xịn sò của NVIDIA: NVIDIA AI Virtual Assistant for Customer Service. Bản fork này mang tên ai-virtual-assistant-provider, đóng vai trò như một kiến trúc tham khảo (Reference Architecture) chuẩn chỉnh giúp anh em xây dựng trợ lý CSKH dạng văn bản dựa trên mô hình RAG kết hợp điều phối đa tác tử (Agentic Orchestration).
Dù repo gốc của giải pháp này đã được đánh dấu deprecated từ tháng 04/2026, tư duy thiết kế microservices và cách phối hợp dòng chảy dữ liệu trong này vẫn là “sách giáo khoa” điểm 10 để chúng ta học hỏi và tái sử dụng pattern.
1. Kiến Trúc Tổng Quan (Microservices)
Hệ thống không đi theo hướng monolithic (nguyên khối) mà tách nhỏ thành các service chuyên biệt bằng FastAPI để tối ưu hiệu năng và dễ scale độc lập:

- Người dùng gửi câu hỏi: Điểm bắt đầu của hệ thống, nơi khách hàng nhập yêu cầu từ giao diện chat.
- Cổng tiếp nhận yêu cầu: Nhận câu hỏi từ người dùng, quản lý phiên làm việc và chuyển request vào hệ thống xử lý.
- Bộ não AI phân tích nhu cầu: Phân tích nội dung câu hỏi để xác định người dùng đang cần hỗ trợ về sản phẩm, đơn hàng hay đổi trả.
- Nhóm trợ lý chuyên trách:
- Tư vấn sản phẩm: Trả lời các câu hỏi liên quan đến sản phẩm, tài liệu, hướng dẫn hoặc FAQ.
- Kiểm tra đơn hàng: Xử lý các câu hỏi về trạng thái đơn hàng, giao hàng hoặc thông tin khách hàng.
- Hỗ trợ đổi trả: Tiếp nhận và xử lý các yêu cầu liên quan đến đổi/trả hàng.
- Kho dữ liệu:
- Kho tri thức sản phẩm: Chứa tài liệu sản phẩm, FAQ và nội dung phi cấu trúc để phục vụ RAG.
- Dữ liệu đơn hàng: Chứa thông tin khách hàng, đơn hàng và các nghiệp vụ liên quan trong cơ sở dữ liệu.
- NVIDIA AI tạo câu trả lời: Tổng hợp dữ liệu đã truy xuất, hiểu ngữ cảnh và sinh câu trả lời tự nhiên cho người dùng.
- Phân tích sau hội thoại: Chạy ngầm sau khi phiên chat kết thúc để tóm tắt nội dung, phân tích cảm xúc và lưu tín hiệu feedback nhằm cải thiện hệ thống.
2. Các Điểm Sáng Kỹ Thuật Khi “Soi” Vào Source Code
-
Human-in-the-loop (Cơ chế Interrupt): Nằm trong thư mục
src/agent/, luồng xử lý đổi trả hàng (Return Processing Assistant) sẽ kích hoạt một node ngắt trong LangGraph ngay trước khi gọi các tool nhạy cảm liên quan đến database nhưupdate_return. AI sẽ dừng lại chờ con người phê duyệt thủ công thì mới chính thức ghi dữ liệu. -
Data Flywheel thực tế: Cơ chế Feedback nằm hoàn toàn ở backend API chứ không phải một UI component hiển thị. Các endpoint
/feedback/*nhận điểm số dạng float từ-1đến1để lưu lại làm tín hiệu (signals) phục vụ offline evaluation hoặc cải tiến prompt, hoàn toàn không có trường điền text comment. -
Bộ Model tối ưu từ NVIDIA: Mặc định hệ thống gọi qua Hosted NVIDIA AI Endpoints bản
meta/llama-3.3-70b-instruct. Khi tìm kiếm trên tài liệu phi cấu trúc, sự kết hợp giữa embedding modelnvidia/llama-3.2-nv-embedqa-1b-v2và bộ Rerankernvidia/llama-3.2-nv-rerankqa-1b-v2giúp tăng độ chính xác ngữ cảnh vượt trội cho RAG.
3. Hướng Dẫn Khởi Động Nhanh (Quick Start)
Để chạy thử toàn bộ stack này bằng Docker Compose mà không cần cấu hình port hay môi trường thủ công, bạn chỉ cần tận dụng các helper script có sẵn ở ngay thư mục gốc của bản fork:
cd ai-virtual-assistant-provider
cp .env.example .env # Mở .env điền NVIDIA_API_KEY và NGC_API_KEY vào
chmod +x setup.sh start.sh stop.sh run.sh
./run.sh
Cách hoạt động: Lệnh
./run.shsẽ gọisetup.shđể chuẩn bị môi trường, sau đóstart.shsẽ tự động kiểm tra port trống trên máy host (tự đổi port nếu trùng), tự động login vào container registrynvcr.iovà kích hoạt Docker Compose. Khi chạy xong, script sẽ in ra URL thực tế của giao diện UI (mặc định:3001) và API Gateway Docs (:9000/docs) để bạn vào test ngay.
Sau khi hệ thống khởi động, bạn chỉ cần chạy notebook notebooks/ingest_data.ipynb để đẩy tài liệu mẫu vào Milvus là có thể bắt đầu trải nghiệm luồng chat hành động hoàn chỉnh.
Bài viết liên quan
- Giải mã NVIDIA AI-Q Blueprint: Kiến trúc multi-agent và bài toán hiệu năng trong Deep Research
- Cách nền tảng NVIDIA Vera Rubin giải quyết bài toán mở rộng quy mô (Scale-Up) của Agentic AI
- Blueprint: Multi-Agent Intelligent Warehouse – Tương lai của ngành quản lý kho vận
- Blueprint: NVIDIA Agentic Commerce – Kiến trúc Microservices kết hợp Agentic Workflow
- NVIDIA Nemotron 3 Nano Omni hỗ trợ suy luận tác nhân đa phương thức trong một mô hình mở hiệu quả duy nhất.
