AI Virtual Assistant cho chăm sóc khách hàng với RAG, Agentic Workflow và Microservices

Mình vừa fork và trải nghiệm một giải pháp được phát triển từ bộ khung gốc cực kỳ xịn sò của NVIDIA: NVIDIA AI Virtual Assistant for Customer Service. Bản fork này mang tên ai-virtual-assistant-provider, đóng vai trò như một kiến trúc tham khảo (Reference Architecture) chuẩn chỉnh giúp anh em xây dựng trợ lý CSKH dạng văn bản dựa trên mô hình RAG kết hợp điều phối đa tác tử (Agentic Orchestration).

Dù repo gốc của giải pháp này đã được đánh dấu deprecated từ tháng 04/2026, tư duy thiết kế microservices và cách phối hợp dòng chảy dữ liệu trong này vẫn là “sách giáo khoa” điểm 10 để chúng ta học hỏi và tái sử dụng pattern.

1. Kiến Trúc Tổng Quan (Microservices)

Hệ thống không đi theo hướng monolithic (nguyên khối) mà tách nhỏ thành các service chuyên biệt bằng FastAPI để tối ưu hiệu năng và dễ scale độc lập:

Người dùng gửi câu hỏi: Điểm bắt đầu của hệ thống, nơi khách hàng nhập yêu cầu từ giao diện chat.
Cổng tiếp nhận yêu cầu: Nhận câu hỏi từ người dùng, quản lý phiên làm việc và chuyển request vào hệ thống xử lý.
Bộ não AI phân tích nhu cầu: Phân tích nội dung câu hỏi để xác định người dùng đang cần hỗ trợ về sản phẩm, đơn hàng hay đổi trả.
Nhóm trợ lý chuyên trách:
Tư vấn sản phẩm: Trả lời các câu hỏi liên quan đến sản phẩm, tài liệu, hướng dẫn hoặc FAQ.
Kiểm tra đơn hàng: Xử lý các câu hỏi về trạng thái đơn hàng, giao hàng hoặc thông tin khách hàng.
Hỗ trợ đổi trả: Tiếp nhận và xử lý các yêu cầu liên quan đến đổi/trả hàng.

Kho dữ liệu:
Kho tri thức sản phẩm: Chứa tài liệu sản phẩm, FAQ và nội dung phi cấu trúc để phục vụ RAG.
Dữ liệu đơn hàng: Chứa thông tin khách hàng, đơn hàng và các nghiệp vụ liên quan trong cơ sở dữ liệu.

NVIDIA AI tạo câu trả lời: Tổng hợp dữ liệu đã truy xuất, hiểu ngữ cảnh và sinh câu trả lời tự nhiên cho người dùng.
Phân tích sau hội thoại: Chạy ngầm sau khi phiên chat kết thúc để tóm tắt nội dung, phân tích cảm xúc và lưu tín hiệu feedback nhằm cải thiện hệ thống.

2. Các Điểm Sáng Kỹ Thuật Khi “Soi” Vào Source Code

Human-in-the-loop (Cơ chế Interrupt): Nằm trong thư mục src/agent/, luồng xử lý đổi trả hàng (Return Processing Assistant) sẽ kích hoạt một node ngắt trong LangGraph ngay trước khi gọi các tool nhạy cảm liên quan đến database như update_return. AI sẽ dừng lại chờ con người phê duyệt thủ công thì mới chính thức ghi dữ liệu.
Data Flywheel thực tế: Cơ chế Feedback nằm hoàn toàn ở backend API chứ không phải một UI component hiển thị. Các endpoint /feedback/* nhận điểm số dạng float từ -1 đến 1 để lưu lại làm tín hiệu (signals) phục vụ offline evaluation hoặc cải tiến prompt, hoàn toàn không có trường điền text comment.
Bộ Model tối ưu từ NVIDIA: Mặc định hệ thống gọi qua Hosted NVIDIA AI Endpoints bản meta/llama-3.3-70b-instruct. Khi tìm kiếm trên tài liệu phi cấu trúc, sự kết hợp giữa embedding model nvidia/llama-3.2-nv-embedqa-1b-v2 và bộ Reranker nvidia/llama-3.2-nv-rerankqa-1b-v2 giúp tăng độ chính xác ngữ cảnh vượt trội cho RAG.

3. Hướng Dẫn Khởi Động Nhanh (Quick Start)

Để chạy thử toàn bộ stack này bằng Docker Compose mà không cần cấu hình port hay môi trường thủ công, bạn chỉ cần tận dụng các helper script có sẵn ở ngay thư mục gốc của bản fork:

Bash
cd ai-virtual-assistant-provider
cp .env.example .env # Mở .env điền NVIDIA_API_KEY và NGC_API_KEY vào
chmod +x setup.sh start.sh stop.sh run.sh
./run.sh

Cách hoạt động: Lệnh ./run.sh sẽ gọi setup.sh để chuẩn bị môi trường, sau đó start.sh sẽ tự động kiểm tra port trống trên máy host (tự đổi port nếu trùng), tự động login vào container registry nvcr.io và kích hoạt Docker Compose. Khi chạy xong, script sẽ in ra URL thực tế của giao diện UI (mặc định :3001) và API Gateway Docs (:9000/docs) để bạn vào test ngay.

Sau khi hệ thống khởi động, bạn chỉ cần chạy notebook notebooks/ingest_data.ipynb để đẩy tài liệu mẫu vào Milvus là có thể bắt đầu trải nghiệm luồng chat hành động hoàn chỉnh.

____
Bài viết liên quan