Tutorial: Bắt đầu với AI tại biên trên NVIDIA Jetson – LLM, VLM và các mô hình nền tảng cho robot

Việc chạy các tác vụ trí tuệ nhân tạo (AI) và thị giác máy tính (Computer Vision) tiên tiến trên các thiết bị nhỏ gọn, tiết kiệm năng lượng ở khu vực biên đang trở thành một thách thức ngày càng lớn. Robot, camera thông minh và máy móc tự hành cần trí thông minh thời gian thực để nhìn thấy, hiểu và phản ứng mà không cần phụ thuộc vào điện toán đám mây. Nền tảng NVIDIA Jetson đáp ứng nhu cầu này với các mô-đun nhỏ gọn, tăng tốc bởi GPU và bộ công cụ phát triển được thiết kế chuyên dụng cho trí tuệ nhân tạo và robot ở vùng biên.

Các hướng dẫn bên dưới sẽ chỉ cho bạn cách đưa các mô hình AI mã nguồn mở mới nhất vào hoạt động trên NVIDIA Jetson, chạy hoàn toàn độc lập và sẵn sàng triển khai ở bất cứ đâu. Sau khi nắm vững những kiến thức cơ bản, bạn có thể nhanh chóng chuyển từ các bản demo đơn giản sang xây dựng bất cứ thứ gì, từ trợ lý lập trình cá nhân đến robot tự hành hoàn toàn.

Tutorial 1: Trợ lý AI cá nhân của bạn – Mô hình LLM cục bộ và Mô hình Thị giác

Một cách tuyệt vời để làm quen với AI biên là chạy mô hình LLM hoặc VLM cục bộ. Việc chạy mô hình trên các phần cứng của riêng bạn như máy tính AI cá nhân DGX Spark hoặc máy tính biên chuyên dụng từ Lanner, C&T, mang lại hai lợi thế chính: bảo mật hoàn toàn và độ trễ mạng bằng không.

Khi bạn dựa vào các API bên ngoài, dữ liệu của bạn sẽ nằm ngoài tầm kiểm soát. Trên Jetson, các yêu cầu của bạn — cho dù đó là ghi chú cá nhân, mã nguồn độc quyền hay nguồn cấp dữ liệu camera — không bao giờ rời khỏi thiết bị, đảm bảo bạn giữ quyền sở hữu hoàn toàn thông tin của mình. Việc thực thi cục bộ này cũng loại bỏ các tắc nghẽn mạng, giúp các tương tác diễn ra tức thì.

Cộng đồng mã nguồn mở đã làm cho việc này trở nên vô cùng dễ dàng, và loại Jetson bạn chọn sẽ quyết định kích cỡ của trợ lý ảo mà bạn có thể chạy:

Bộ công cụ phát triển NVIDIA Jetson Orin Nano Super (8GB): Tuyệt vời cho việc hỗ trợ AI chuyên biệt, tốc độ cao. Bạn có thể triển khai các mô hình SLM tốc độ cao như Llama 3.2 3B hoặc Phi-3. Các mô hình này cực kỳ hiệu quả, và cộng đồng thường xuyên phát hành các bản tinh chỉnh mới trên Hugging Face được tối ưu hóa cho các tác vụ cụ thể — từ lập trình đến viết sáng tạo — chạy cực nhanh trong giới hạn bộ nhớ 8GB.
NVIDIA Jetson AGX Orin (64GB): Cung cấp dung lượng bộ nhớ cao và khả năng tính toán AI tiên tiến cần thiết để chạy các mô hình lớn hơn, phức tạp hơn như gpt-oss-20b hoặc lượng tử hóa Llama 3.1 70B cho suy luận sâu.
NVIDIA Jetson AGX Thor (128GB): Mang đến hiệu năng vượt trội, cho phép bạn chạy các mô hình khổng lồ với hơn 100 tỷ tham số và đưa trí thông minh cấp trung tâm dữ liệu đến vùng biên.

Nếu bạn có AGX Orin, bạn có thể khởi tạo ngay một phiên bản gpt-oss-20b bằng cách sử dụng vLLM làm công cụ suy luận và Open WebUI làm giao diện người dùng đẹp mắt và thân thiện.

docker run --rm -it \
--network host \
--shm-size=16g \
--ulimit memlock=-1 \
--ulimit stack=67108864 \
--runtime=nvidia \
--name=vllm \
-v $HOME/data/models/huggingface:/root/.cache/huggingface \
-v $HOME/data/vllm_cache:/root/.cache/vllm \
ghcr.io/nvidia-ai-iot/vllm:latest-jetson-orin
vllm serve openai/gpt-oss-20b

Chạy Open WebUI trong một cửa sổ terminal riêng biệt:

docker run -d \
--network=host \
-v ${HOME}/open-webui:/app/backend/data \
-e OPENAI_API_BASE_URL=http://0.0.0.0:8000/v1 \
--name open-webui \
ghcr.io/open-webui/open-webui:main

Sau đó, hãy truy cập địa chỉ http://localhost:8080 trên trình duyệt của bạn.

Từ đây, bạn có thể tương tác với LLM và thêm các công cụ cung cấp khả năng tác nhân, chẳng hạn như tìm kiếm, phân tích dữ liệu và xuất giọng nói (TTS).

Hình 1. Minh họa quá trình suy luận gpt-oss-20b trên NVIDIA Jetson AGX Orin sử dụng vLLM, đạt tốc độ tạo 40 token/giây thông qua giao diện WebUI mở.

Tuy nhiên, chỉ văn bản thôi là chưa đủ để xây dựng các tác nhân tương tác với thế giới vật lý; chúng cũng cần khả năng nhận thức đa phương thức. Các mô hình học máy ảo (VLM) như VILA và Qwen2.5-VL đang trở nên phổ biến để bổ sung khả năng này vì chúng có thể suy luận về toàn bộ khung cảnh chứ không chỉ phát hiện các đối tượng. Ví dụ, với nguồn cấp dữ liệu video trực tiếp, chúng có thể trả lời các câu hỏi như “Bản in 3D có bị lỗi không?” hoặc “Hãy mô tả mô hình giao thông bên ngoài.”

Trên Jetson Orin Nano Super, bạn có thể chạy các VLM hiệu quả như VILA-2.7B để giám sát cơ bản và thực hiện các truy vấn trực quan đơn giản. Đối với phân tích độ phân giải cao hơn, nhiều luồng camera hoặc các kịch bản với nhiều tác nhân chạy đồng thời, Jetson AGX Orin cung cấp bộ nhớ và khả năng tính toán bổ sung cần thiết để mở rộng quy mô các khối lượng công việc này.

Để thử nghiệm điều này, bạn có thể khởi chạy giao diện web Live VLM từ Jetson AI Lab . Nó kết nối với camera của máy tính xách tay thông qua WebRTC và cung cấp một môi trường thử nghiệm để truyền phát video trực tiếp đến các mô hình AI để phân tích và mô tả ngay lập tức.

Giao diện web Live VLM hỗ trợ Ollama, vLLM và hầu hết các công cụ suy luận có máy chủ tương thích với OpenAI.

Để bắt đầu sử dụng VLM WebUI với Ollama, hãy làm theo các bước dưới đây:

# Install ollama (skip if already installed)
curl -fsSL https://ollama.com/install.sh | sh
 
# Pull a small VLM-compatible model
ollama pull gemma3:4b
 
# Clone and start Live VLM WebUI
git clone https://github.com/nvidia-ai-iot/live-vlm-webui.git
cd live-vlm-webui
./scripts/start_container.sh

Tiếp theo, hãy mở https://localhost:8090 trong trình duyệt của bạn để thử.

Cấu hình này cung cấp một nền tảng vững chắc để xây dựng các hệ thống an ninh thông minh, hệ thống giám sát động vật hoang dã hoặc trợ lý ảo.

Hình 2. Suy luận VLM tương tác sử dụng giao diện web Live VLM trên NVIDIA Jetson.

Bạn có thể chạy những mô hình VLM nào?

Jetson Orin Nano 8GB phù hợp với các mô hình VLM và LLM có số tham số lên đến gần 4B, chẳng hạn như Qwen2.5-VL-3B, VILA 1.5–3B hoặc Gemma-3/4B. Jetson AGX Orin 64GB nhắm đến các mô hình tầm trung trong phạm vi 4B–20B và có thể chạy các mô hình VLM như LLaVA-13B, Qwen2.5-VL-7B hoặc Phi-3.5-Vision. Jetson AGX Thor 128GB được thiết kế cho các khối lượng công việc lớn nhất, hỗ trợ nhiều mô hình đồng thời hoặc các mô hình đơn lẻ từ khoảng 20B đến khoảng 120B tham số—ví dụ: các mô hình Llama 3.2 Vision 70B hoặc 120B.

Bạn muốn tìm hiểu sâu hơn? Tìm kiếm và Tóm tắt Hình ảnh (Vision Search and Summarization – VSS) cho phép bạn xây dựng các hệ thống lưu trữ thông minh. Bạn có thể tìm kiếm video theo nội dung thay vì tên tệp và tự động tạo tóm tắt cho các bản ghi dài. Đây là một sự mở rộng tự nhiên của quy trình làm việc VLM dành cho bất kỳ ai muốn tổ chức và diễn giải khối lượng lớn dữ liệu hình ảnh.

Tutorial 2: Lập trình robot với các mô hình nền tảng

Ngành robot đang trải qua một sự thay đổi kiến trúc cơ bản. Trong nhiều thập kỷ, việc điều khiển robot dựa trên logic cứng nhắc, được mã hóa cứng và các quy trình nhận thức riêng biệt: phát hiện vật thể, tính toán quỹ đạo, thực hiện chuyển động. Cách tiếp cận này đòi hỏi phải tinh chỉnh thủ công rộng rãi và lập trình rõ ràng cho mọi trường hợp ngoại lệ, khiến việc tự động hóa ở quy mô lớn trở nên khó khăn.

Ngành công nghiệp hiện đang hướng tới học tập mô phỏng từ đầu đến cuối . Thay vì lập trình các quy tắc rõ ràng, chúng ta đang sử dụng các mô hình nền tảng như NVIDIA Isaac GR00T N1 để học các chính sách trực tiếp từ việc trình diễn. Đây là các mô hình Thị giác-Ngôn ngữ-Hành động (VLA) làm thay đổi căn bản mối quan hệ đầu vào-đầu ra của việc điều khiển robot. Trong kiến trúc này, mô hình tiếp nhận luồng dữ liệu hình ảnh liên tục từ camera của robot cùng với các lệnh ngôn ngữ tự nhiên của bạn (ví dụ: “Mở ngăn kéo”). Nó xử lý ngữ cảnh đa phương thức này để trực tiếp dự đoán các vị trí khớp hoặc vận tốc động cơ cần thiết cho bước thời gian tiếp theo.

Tuy nhiên, việc huấn luyện các mô hình này đặt ra một thách thức đáng kể: nút thắt cổ chai về dữ liệu. Không giống như các mô hình ngôn ngữ được huấn luyện trên văn bản từ internet, robot yêu cầu dữ liệu tương tác vật lý, vốn rất tốn kém và mất nhiều thời gian để thu thập. Giải pháp nằm ở mô phỏng. Bằng cách sử dụng NVIDIA Isaac Sim , bạn có thể tạo dữ liệu huấn luyện tổng hợp và xác thực các chính sách trong môi trường ảo chính xác về vật lý. Bạn thậm chí có thể thực hiện kiểm thử phần cứng trong vòng lặp (HIL), trong đó Jetson chạy chính sách điều khiển trong khi được kết nối với trình mô phỏng được hỗ trợ bởi GPU NVIDIA RTX . Điều này cho phép bạn xác thực toàn bộ hệ thống đầu cuối của mình, từ nhận thức đến điều khiển, trước khi bạn đầu tư vào phần cứng vật lý hoặc cố gắng triển khai.

Sau khi được xác thực, quy trình làm việc sẽ chuyển đổi liền mạch sang môi trường thực tế. Bạn có thể triển khai chính sách được tối ưu hóa đến thiết bị biên, nơi các tối ưu hóa như TensorRT cho phép các chính sách dựa trên Transformer phức tạp chạy với độ trễ thấp (dưới 30 ms) cần thiết cho các vòng điều khiển thời gian thực. Cho dù bạn đang xây dựng một bộ phận thao tác đơn giản hay khám phá các hình dạng robot hình người, mô hình này—học các hành vi trong mô phỏng và triển khai chúng đến thiết bị biên vật lý—hiện là tiêu chuẩn cho sự phát triển robot hiện đại.

Bạn có thể bắt đầu thử nghiệm các quy trình làm việc này ngay hôm nay. Kho lưu trữ Isaac Lab Evaluation Tasks trên GitHub cung cấp các bài kiểm tra chuẩn về thao tác công nghiệp được xây dựng sẵn, chẳng hạn như đổ đai ốc và phân loại ống xả, mà bạn có thể sử dụng để kiểm tra các chính sách trong mô phỏng trước khi triển khai lên phần cứng. Sau khi được xác thực, hướng dẫn triển khai GR00T Jetson sẽ hướng dẫn bạn quy trình chuyển đổi và chạy các chính sách này trên Jetson với suy luận TensorRT được tối ưu hóa. Đối với những người muốn huấn luyện lại hoặc tinh chỉnh các mô hình GR00T trên các tác vụ tùy chỉnh, tích hợp LeRobot cho phép bạn tận dụng các tập dữ liệu và công cụ cộng đồng để học bắt chước, thu hẹp khoảng cách giữa thu thập dữ liệu và triển khai.

Tham gia cộng đồng: Hệ sinh thái robot rất sôi động và đang phát triển. Từ các thiết kế robot mã nguồn mở đến các nguồn tài liệu học tập được chia sẻ, bạn không hề đơn độc trên hành trình này. Các diễn đàn, kho lưu trữ GitHub và các buổi giới thiệu sản phẩm của cộng đồng cung cấp cả nguồn cảm hứng và hướng dẫn thực tiễn. Tham gia cộng đồng Discord của LeRobot để kết nối với những người khác đang xây dựng tương lai của ngành robot.

Đúng vậy, việc chế tạo một robot vật lý cần nhiều công sức: thiết kế cơ khí, lắp ráp và tích hợp với các nền tảng hiện có. Nhưng lớp trí tuệ nhân tạo thì khác. Đó là điều mà Jetson mang lại: thời gian thực, mạnh mẽ và sẵn sàng triển khai.

Thiết bị Jetson nào phù hợp với bạn?

Hãy sử dụng Jetson Orin Nano Super (8GB) nếu bạn mới bắt đầu với AI cục bộ, chạy các mô hình LLM hoặc VLM nhỏ, hoặc xây dựng các nguyên mẫu robot và thiết bị biên ở giai đoạn đầu. Nó đặc biệt phù hợp cho các dự án robot nghiệp dư và các dự án nhúng, nơi chi phí, sự đơn giản và kích thước nhỏ gọn quan trọng hơn dung lượng mô hình tối đa.

Hãy chọn Jetson AGX Orin (64GB) nếu bạn là người đam mê công nghệ hoặc nhà phát triển độc lập muốn chạy một trợ lý ảo cục bộ mạnh mẽ, thử nghiệm các quy trình làm việc kiểu tác nhân hoặc xây dựng các hệ thống quản lý dự án cá nhân có thể triển khai. Bộ nhớ 64GB giúp việc kết hợp các mô hình nhận dạng hình ảnh, ngôn ngữ và giọng nói (ASR và TTS) trên một thiết bị duy nhất trở nên dễ dàng hơn mà không gặp phải giới hạn bộ nhớ thường xuyên.

Hãy chọn Jetson AGX Thor (128GB) nếu trường hợp sử dụng của bạn liên quan đến các mô hình rất lớn, nhiều mô hình chạy đồng thời hoặc các yêu cầu thời gian thực nghiêm ngặt ở vùng biên.

Bước tiếp theo: Bắt đầu làm quen

Bạn đã sẵn sàng để bắt đầu chưa? Dưới đây là một số gợi ý để bạn bắt đầu lập trình với Jetson:

Chọn thiết bị Jetson của bạn: Dựa trên mong muốn và ngân sách của bạn, hãy chọn bộ công cụ phát triển phù hợp nhất với nhu cầu.
Cài đặt và thiết lập: Các Hướng dẫn Bắt đầu bên dưới giúp việc thiết lập trở nên đơn giản và bạn sẽ có thể sử dụng được trong vòng chưa đầy một giờ.
- Bộ công cụ phát triển Jetson Orin Nano: Hướng dẫn bắt đầu
- Bộ công cụ phát triển Jetson AGX Orin: Hướng dẫn bắt đầu
- Bộ công cụ phát triển Jetson AGX Thor: Hướng dẫn bắt đầu
Tìm hiểu thêm các nguồn tài liệu:
- Jetson AI Lab: Hướng dẫn toàn diện với các liên kết đến các container được xây dựng sẵn ( Open WebUI, Live VLM WebUI, và nhiều hơn nữa). Thử nghiệm các mô hình đầu tiên của bạn.
- Diễn đàn cộng đồng: Kết nối với các nhà phát triển khác, chia sẻ dự án, nhận hỗ trợ.
Bắt đầu xây dựng: Chọn một dự án, tìm hiểu một dự án mẫu dạng tutorial trên GitHub, xem những gì có thể thực hiện được và sau đó tiếp tục phát triển lên.

Dòng sản phẩm NVIDIA Jetson được tạo ra để cung cấp cho các nhà phát triển những công cụ nhằm thiết kế, xây dựng và triển khai các thế hệ máy móc thông minh thế hệ mới.