Cách “cảnh sát ảo giác” giúp LLM trở nên đáng tin cậy hơn trong lĩnh vực tài chính

Trong thế giới tài chính đầy rủi ro, một sai lầm nhỏ từ mô hình AI cũng có thể dẫn đến hậu quả kinh tế khổng lồ. Tuy nhiên, thách thức lớn nhất hiện nay khi triển khai các công cụ AI tạo sinh (GenAI) chính là ảo giác (hallucination) — tình trạng mô hình đưa ra thông tin nghe có vẻ thuyết phục nhưng hoàn toàn sai lệch.

Tại sao chúng ta không thể tin LLM một cách mù quáng?

Lĩnh vực tài chính có yêu cầu quản trị mô hình cực kỳ khắt khe do rủi ro hệ thống. Hiện nay, 0% công cụ GenAI tài chính thực sự cho phép chúng ta nhìn thấu vào bên trong cách mô hình hoạt động. Chúng ta thường coi AI như một “hộp đen” chứa đầy các phép toán tuyến tính và hy vọng câu trả lời đầu ra là đúng. Nhưng trong các tình huống nhạy cảm, việc chỉ kiểm soát từ bên ngoài (prompt, guardrails) là chưa đủ.

“Cảnh sát Ảo giác”: Hệ thống giám sát từ bên trong

Để giải quyết vấn đề này, các chuyên gia tại Barclays đã phát triển một phương pháp tiếp cận mới gọi là “Hallucination Police” (Cảnh sát ảo giác) dựa trên kỹ thuật Mechanistic Interpretability. Thay vì chỉ dựa vào câu trả lời cuối cùng, hệ thống này giám sát các nơ-ron bên trong mô hình khi nó đang xử lý truy vấn.

Quy trình hoạt động gồm 3 bước cốt lõi:

Lọc đặc tính tài chính: Sử dụng Sparse Autoencoders (SAE) để xác định và trích xuất các nơ-ron chuyên biệt cho kiến thức tài chính (ví dụ: các cụm từ về quy định của SEC, thuật ngữ thị trường chứng khoán).
Giám sát ngưỡng kích hoạt: Khi người dùng đặt một câu hỏi tài chính, hệ thống sẽ đo lường tỷ lệ kích hoạt nơ-ron tài chính. Nếu tỷ lệ này nằm dưới một ngưỡng nhất định (ví dụ <20%), mô hình bị coi là không có đủ “sự tự tin” về kiến thức chuyên môn và có rủi ro tạo ra ảo giác.
Tăng cường dựa trên dữ liệu thực: Nếu cảnh báo được kích hoạt, hệ thống sẽ không cho phép xuất kết quả trực tiếp. Thay vào đó, nó sẽ tự động kích hoạt Prompt Enhancement — bổ sung dữ liệu thực từ các báo cáo SEC hoặc tài liệu tài chính từ cơ sở dữ liệu vector để “nắn chỉnh” câu trả lời của AI.

Kết quả thực tế: Từ câu trả lời sơ sài đến độ chính xác quy định

Một ví dụ điển hình là khi truy vấn về quy định nộp mẫu 8-K của SEC:

LLM thông thường: Chỉ đưa ra thông tin chung chung là phải nộp trong 4 ngày làm việc.
LLM được giám sát bởi “Cảnh sát Ảo giác”: Khi phát hiện kích hoạt nơ-ron thấp, hệ thống đã bổ sung các trường hợp ngoại lệ cụ thể (như Mục 7.01 yêu cầu nộp trong ngày) và cung cấp chính xác nguồn trích dẫn từ quy định của SEC.

Tầm nhìn tương lai

Khả năng “nhìn sâu” vào bên trong mô hình không chỉ giúp chặn đứng ảo giác mà còn mở ra những ứng dụng mới như:

Warren Buffet AI: Tìm kiếm các nơ-ron có tỷ lệ tín hiệu trên nhiễu (signal-to-noise) cao để phát hiện các dấu hiệu vĩ mô và mô hình biến động giá.
Giám sát Agent: Theo dõi quá trình lập luận của các tác vụ AI tự động để can thiệp kịp thời nếu chúng đi chệch hướng.

Kết luận:

Khả năng giải thích không chỉ là một tính năng phụ, mà là chìa khóa để xây dựng niềm tin với các cơ quan quản lý và mở rộng quy mô áp dụng AI trong ngành tài chính. Việc hiểu rõ “bộ não” của AI sẽ giúp chúng ta tránh được những cuộc khủng hoảng tài chính do sự thiếu hiểu biết về mô hình gây ra.

____
Bài viết liên quan