Blueprint: Video Search and Summarization – Biến video thành trí tuệ có thể tìm kiếm và hành động tức thì

Trong thế giới vận hành dựa trên dữ liệu ngày nay, các tổ chức ngày càng dựa vào video để ghi lại thông tin quan trọng, nhưng việc trích xuất các insight có ý nghĩa theo thời gian thực từ khối lượng cảnh quay khổng lồ vẫn là một thách thức. NVIDIA Metropolis Blueprint for video search and summarization (VSS) vượt qua rào cản này bằng cách biến hàng triệu luồng video trực tiếp hoặc nhiều giờ video đã ghi thành “thông tin tình báo” có thể tìm kiếm tức thì và hành động được.

VSS cung cấp một kiến trúc tham chiếu để xây dựng AI agent phân tích video có khả năng nhận thức, suy luận và hành động theo thời gian thực trên khối lượng rất lớn các luồng video trực tiếp và dữ liệu đã ghi. VSS sử dụng các microservice dựa trên thị giác được tăng tốc, mô hình thị giác-ngôn ngữ (VLM) , mô hình ngôn ngữ lớn (LLM) , và các retriever cho trí tuệ video theo thời gian thực, tìm kiếm agentic và báo cáo tự động. VSS giúp doanh nghiệp giám sát vận hành, phát hiện xu hướng và đưa ra quyết định có cơ sở nhanh hơn bao giờ hết. Phiên bản VSS mới nhất mang đến thiết kế mô-đun mới, năng lực tìm kiếm hợp nhất nâng cao và một bộ skill để dễ dàng tích hợp với các agent tự chủ.

Trong bài viết này, bạn sẽ học cách sử dụng các VSS skill mới với coding agent để tự động hóa việc triển khai VSS và tích hợp vào các ứng dụng tùy chỉnh, tiếp theo là phần đi sâu vào công nghệ đằng sau VSS 3. Hãy đọc tiếp để tìm hiểu cách sử dụng VSS skill với coding agent nhằm xây dựng các AI Agent phân tích video tự chủ.

Bạn cũng có thể xem bản ghi để tìm hiểu cách xây dựng một AI agent phân tích video bằng VSS skill.

Hình 1. Kiến trúc VSS bao gồm một tập hợp các microservice, cơ sở dữ liệu và agent để phân tích video

Xây dựng video AI agent với VSS skills và coding agents

Trước đây, các nhà phát triển phải cấu hình, triển khai và tích hợp thủ công bộ microservice phong phú mà VSS cung cấp cho quản lý video, tìm kiếm, tóm tắt và nhiều tác vụ khác để xây dựng các ứng dụng phân tích video. Ngày nay, có thể sử dụng coding agents được tăng cường bằng VSS skills để tự động hóa việc triển khai, sử dụng và tích hợp VSS, tất cả thông qua một giao diện chat agentic đơn giản.

VSS skills được lưu trữ trên VSS GitHub Repository và tuân theo đặc tả agent skills , cho phép chúng được sử dụng với nhiều loại agent khác nhau. Điều kiện tiên quyết để sử dụng các skills này là có một hệ thống đã được thiết lập để chạy VSS và một agent tương thích với skills như Codex, Claude Code, OpenClaw hoặc NemoClaw.

Trước tiên, chúng tôi sẽ trình bày một ví dụ về cách thêm VSS skill vào Codex và dùng nó để triển khai hồ sơ tìm kiếm VSS. Sau đó, chúng tôi sẽ trình bày cách thêm VSS skill vào OpenClaw, cho phép chúng ta tương tác với triển khai VSS của mình thông qua gần như bất kỳ giao diện chat nào để tìm kiếm và phân tích khối lượng video lớn.

Thiết lập các điều kiện tiên quyết (prerequisites) cho VSS

Bước đầu tiên là chuẩn bị một hệ thống để chạy VSS. Cách dễ nhất để làm việc này là dùng NVIDIA Brev Launchable cho VSS. Truy cập trang tài liệu VSS launchable rồi nhấp vào nút “Launch Blueprint”, sau đó nhấp “Deploy Launchable”.

Sau khi triển khai, hãy nhấp vào nút Open Notebook và điều hướng đến notebook /video-search-and-summarization/scripts/deploy_vss_launchable.ipynb. Dán NGC_CLI_API_KEY của bạn từ NGC vào ô đầu tiên, rồi thực thi toàn bộ notebook, bao gồm cả phần tear-down. Việc này sẽ đảm bảo hệ thống được thiết lập đầy đủ cho VSS, sau đó bạn có thể dùng kỹ năng triển khai để quản lý triển khai VSS của chúng tôi từ coding agent.

Sau khi notebook chạy hoàn tất, hãy cài đặt Brev CLI trên hệ thống host của bạn, khởi chạy VSCode và kết nối từ xa đến Brev Instance của bạn theo phần Using Brev CLI (SSH) trên trang Launchable, như minh họa trong Hình 2 bên dưới.

Hình 2. Trang NVIDIA Brev Launchable để sử dụng Brev CLI

Sau khi đã cấu hình quyền truy cập từ xa, bạn có thể cài đặt Codex thông qua tiện ích mở rộng VSCode để sử dụng làm coding agent.

Triển khai VSS với Codex

Trong VSCode, bạn sẽ dùng tab extensions để tìm kiếm và cài đặt Codex. Sau khi cài đặt, bạn cần cài đặt các VSS skills. Bạn có thể làm việc này bằng cách yêu cầu Codex tự cài đặt các VSS skills và cung cấp cho nó vị trí kho lưu trữ VSS Github của chúng tôi như trong prompt sau:

Read ~/video-search-and-summarization/skills/README.md and every SKILL.md file under ~/video-search-and-summarization/skills/. For each skill in the catalog, install it for this host so I can invoke it from a shell or chat session. Use the host's standard skills directory:

Claude Code: ~/.claude/skills/<name>/
Codex: ~/.codex/skills/<name>/
Hosts that follow the agentskills.io universal path: ~/.agents/skills/<name>/
Symlink each skill folder rather than copying it so a git pull here keeps every install up to date. Skip skills that are already installed and pointing at this checkout. When you're done, list the skills you registered and which directory you used.

Hình 3 bên dưới cho thấy cách agent sẽ phản hồi, xác minh rằng nó có thể truy cập các VSS skills.

Hình 3: Phản hồi của Codex để xác minh tính khả dụng của VSS skill

Sau khi agent của bạn được nạp các VSS skills, bạn có thể dùng nó để triển khai các thành phần và profile VSS khác nhau. Sau đó, bạn có thể dùng Codex để triển khai profile VSS Search mới, như minh họa trong Hình 4 bên dưới.

Hình 4: Codex triển khai thành công hồ sơ tìm kiếm VSS

Sau đó, Codex sẽ lập kế hoạch triển khai, cấu hình các biến môi trường cần thiết và triển khai tất cả các container cần có để kích hoạt khả năng VSS Search. Từ đây, bạn có thể tiếp tục dùng Codex để tương tác với VSS nhằm tìm kiếm video, hoặc chuyển sang phần tiếp theo để xem cách dùng OpenClaw cùng với VSS skills.

Tìm kiếm video với VSS và OpenClaw

Khi search profile đang chạy, bạn có thể cài đặt và cấu hình OpenClaw để trở thành một agent tự hành dùng VSS để phân tích video.

Chúng tôi sẽ hướng dẫn bạn cách thiết lập OpenClaw trên hệ thống Brev để xem một agent tự hành mạnh mẽ có thể làm được gì. Bạn sẽ làm theo hướng dẫn cài đặt OpenClaw tiêu chuẩn từ terminal VSCode được kết nối với instance Brev và sử dụng script cài đặt được khuyến nghị.

Sau khi chạy qua phần cấu hình ban đầu, bạn có thể hatch agent của chúng ta như minh họa trong Hình 5 bên dưới, và cung cấp cho nó một số ngữ cảnh rằng nó sẽ là một agent để xây dựng các ứng dụng phân tích video bằng VSS.

Hình 5: Khởi tạo OpenClaw với ngữ cảnh về VSS

Sau phần thiết lập ban đầu, bạn cần cung cấp VSS Skills cho OpenClaw. Cách dễ nhất để làm điều này là sao chép thủ công các skills vào workspace của OpenClaw.

mkdir ~/.openclaw/workspace/skills 
cp -r ~/video-search-and-summarization/skills/* ~/.openclaw/workspace/skills

Bây giờ, hãy mở OpenClaw UI bằng cách chạy lệnh openclaw dashboard trong terminal; lệnh này sẽ trả về một liên kết có thể nhấp để truy cập OpenClaw UI. Sau khi mở, bạn có thể xác minh rằng OpenClaw có quyền truy cập vào VSS Skills.

Hình 6: OpenClaw xác minh các skill VSS

Bây giờ, bạn có thể yêu cầu OpenClaw sử dụng VSS search profile đã được triển khai ở phần trước để bắt đầu phân tích khối lượng lớn dữ liệu video. Trong ví dụ này, bạn sẽ cung cấp đường dẫn đến ba video dài 10 phút được ghi trong một nhà kho, cần được phân tích về việc sử dụng thang an toàn. Bạn muốn OpenClaw dùng khả năng tìm kiếm để tìm tất cả các trường hợp sử dụng thang trong video và xác minh rằng công nhân đang đội mũ bảo hộ và mặc áo phản quang an toàn. Để làm việc này, bạn sẽ dùng prompt sau:

I have a set of warehouse videos located at ~/warehouse_videos. I need to find any instances of a worker climbing a ladder and verify they are wearing a hardhat and safety vest. Can you do this with the VSS Search profile that is deployed?

Sau khi nhận prompt, OpenClaw sẽ bắt đầu hoạt động ở hậu trường để xác định các skill cần thiết và các lệnh gọi tool liên quan mà nó cần thực hiện để hoàn thành tác vụ.

OpenClaw sử dụng các skill của VSS để tải các tệp video của bạn lên VIOS, nạp video thông qua các embedding microservices nhằm tạo các chỉ mục có thể tìm kiếm, rồi dùng khả năng fusion search trong VSS để tìm các đoạn video có cảnh một công nhân đội mũ bảo hộ và mặc áo phản quang đang leo thang.

Hình 7: Kết quả OpenClaw sử dụng hồ sơ tìm kiếm VSS để xác minh việc sử dụng thang an toàn

Sau khi hoàn tất, OpenClaw trả về một báo cáo ngắn gọn về toàn bộ các lần sử dụng thang được ghi nhận trong các video, cùng với ảnh chụp màn hình từ các video đó.

Phần này chỉ trình bày một ví dụ đơn giản về việc sử dụng Codex để triển khai và OpenClaw để phân tích video với VSS Skills. Bằng cách tăng cường agent bằng VSS Skills, chúng có vô số khả năng để thu được những insight giá trị từ dữ liệu video và xây dựng các ứng dụng mới với VSS.

Giờ đây, bạn có thể đi sâu hơn vào công nghệ vận hành bộ năng lực phân tích video phong phú trong VSS 3.

Video thông minh hơn: Từ cảnh báo đến tìm kiếm

Tìm kiếm video quy mô lớn vẫn là một trong những biên giới thách thức nhất của truy xuất thông tin hiện đại. Các truy vấn của người dùng vốn phức tạp và mơ hồ—việc nắm bắt toàn bộ ý định ngữ nghĩa trong một embedding trực quan duy nhất về cơ bản là không đủ, đặc biệt khi các đối tượng và sự kiện mang những thuộc tính nhiều lớp, khó có thể biểu diễn đơn giản bằng vector.

Ở quy mô cực lớn, việc định vị một khoảnh khắc cụ thể trong hàng triệu giờ cảnh quay trở thành một bài toán “mò kim đáy bể” đúng nghĩa, trong đó tìm kiếm láng giềng gần nhất trên một không gian embedding đơn khối nhanh chóng suy giảm cả về độ chính xác lẫn độ bao phủ.

Video 1: Tìm kiếm video theo kiểu agentic dựa trên thuộc tính, sự kiện và hành động bằng ngôn ngữ tự nhiên

Để giải quyết những hạn chế này, cần có một kiến trúc tìm kiếm tinh vi hơn được xây dựng trên hai năng lực cốt lõi:

Trích xuất và truy xuất embedding đa loại, kết hợp với lọc mức độ liên quan và khử trùng lặp ngữ nghĩa.
Điều phối tìm kiếm được dẫn dắt bởi suy luận agentic; phân rã các truy vấn phức tạp thành các truy vấn con dễ xử lý, áp dụng các chiến lược truy xuất dựa trên suy luận ở từng bước, đồng thời chạy các vòng lặp xác minh và phản tư lặp lại để dần tinh chỉnh kết quả.

Kiến trúc tìm kiếm trước tiên sử dụng RTVI-CV với các microservice embedding và RTVI-embedding để nạp video và trích xuất đặc trưng. Sau đó, VSS agent sử dụng dữ liệu đặc trưng này cùng các tool có nhận thức về thị giác để thực hiện tìm kiếm sâu, lặp lại trên video, tạo kế hoạch và truy xuất kết quả nhằm định vị các đối tượng hoặc sự kiện cụ thể trong dòng thời gian video.

Hình 8. Quy trình tìm kiếm đa embedding

Kiến trúc mô-đun mang lại tính linh hoạt và hiệu năng cao

VSS được thiết kế xoay quanh một hệ thống profile dành cho nhà phát triển dạng mô-đun dựa trên docker-compose: Một base agent được triển khai trong chưa đầy năm phút, và các workflow bổ sung được xếp lớp lên trên khi cần.

Workflow	Profile	Core Capability
Base / Q&A	base	VLM-based Q&A and report generation on short clips
Alert Verification	alerts (verification)	CV pipeline + Behavior Analytics + VLM verification
Real-Time VLM Alerts	alerts (VLM)	Continuous VLM anomaly detection on live streams
Search	search	Agentic multi-embedding search across video archives
Video Summarization	lvs	Chunked summarization of extended recordings

Bảng 1. Các hồ sơ nhà phát triển VSS hiện có

Mỗi quy trình làm việc được hỗ trợ trên nhiều loại GPU với các cấu hình khác nhau để đáp ứng nhu cầu về phần cứng và hiệu năng của bạn.

Hãy xem một số benchmark cho các quy trình làm việc và cấu hình khác nhau.

Quy trình làm việc tìm kiếm agentic có thể được mô tả bằng số lượng luồng đầu vào đồng thời tối đa, thời gian cần để ingest các luồng đến và độ trễ truy xuất để nhận kết quả tìm kiếm. Bảng 2 bên dưới hiển thị các chỉ số này trên cấu hình một GPU cho H100 và NVIDIA RTX PRO 6000.

GPU	Max Concurrent Streams	Max Ingestion Latency (s)	Retrieval Latency (s)
1x H100	33	0.079	2.24
1x RTX PRO 6000	51	0.101	1.87

Bảng 2: Các chỉ số hiệu năng chính cho quy trình tìm kiếm agentic

Đối với workflow xác minh cảnh báo, số luồng đồng thời tối đa được đo cùng với độ trễ để quá trình xác minh diễn ra. Bảng 3 bên dưới hiển thị các chỉ số này, được đo bằng RT-DETR làm bộ phát hiện, Cosmos Reason 2 làm VLM xác minh, hoạt động trên các luồng có trung bình 1 sự kiện cảnh báo mỗi phút.

GPU	Max Concurrent Streams	Verification Latency (s)
1x DGX Spark 1x AGX Thor	14	0.89
1x H100	147	1.01
1x RTX PRO 6000	87	0.82

Bảng 3. Các chỉ số hiệu năng chính cho quy trình xác minh cảnh báo

Microservice tóm tắt video dài nhanh chóng tạo bản tóm tắt cho nhiều giờ cảnh quay video. Hình bên dưới cho thấy thời gian cần thiết để một cấu hình GPU nhất định tóm tắt một video dài một giờ. Việc mở rộng microservice LVS lên nhiều GPU có thể giảm đáng kể thời gian tóm tắt.

Hình 9: Thời gian để tóm tắt một video dài 1 giờ bằng microservice tóm tắt video dài trên nhiều cấu trúc liên kết GPU khác nhau.

Bắt đầu với VSS skills

VSS skills cho phép nhà phát triển biến video thành dữ liệu có thể tìm kiếm và có ý nghĩa bằng ngôn ngữ tự nhiên—giúp dễ dàng hơn trong việc khám phá insight, tạo bản tóm tắt và xây dựng các ứng dụng thông minh hơn.

Để tìm hiểu sâu hơn về VSS, hãy xem tài liệu . Khám phá tất cả kỹ năng VSS trên Github .

Nếu có câu hỏi kỹ thuật, hãy truy cập diễn đàn của chúng tôi .

Sự kiện GTC: Hãy tham gia cùng chúng tôi tại NVIDIA GTC Taipei vào tháng 6, nơi các nhà phát triển, nhà nghiên cứu và lãnh đạo ngành cùng hội tụ để khám phá tương lai của AI, từ AI agentic và AI suy luận đến AI vật lý, robotics và hơn thế nữa. Xem chi tiết .

____
Bài viết liên quan