R²D²: Cải thiện khả năng điều khiển robot bằng mô phỏng và mô hình ngôn ngữ

Các hệ thống thao tác robot gặp khó khăn trong việc xử lý các vật thể, ánh sáng và động lực tiếp xúc khi chúng hoạt động trong môi trường thực tế luôn thay đổi. Thêm vào đó, khoảng cách giữa mô phỏng và thực tế, cùng với các bộ phận cầm nắm hoặc công cụ chưa được tối ưu hóa thường hạn chế độ tin cậy của robot trong việc khái quát hóa, thực hiện các nhiệm vụ dài hạn và đạt được sự khéo léo ở mức độ con người trong nhiều nhiệm vụ khác nhau.

Ấn bản này của Bản tóm tắt Nghiên cứu và Phát triển Robot NVIDIA (R²D²) khám phá các phương pháp tiếp cận mới để cải thiện kỹ năng thao tác của robot. Trong bài này, chúng ta sẽ thảo luận về ba nỗ lực nghiên cứu sử dụng các LLM lý luận, huấn luyện kết hợp mô phỏng và thực tế (sim-and-real co-training), và mô hình tuyến tính ảo (VLM) để thiết kế các công cụ thao tác:

Chúng ta cũng sẽ tìm hiểu cách cải thiện khả năng điều khiển robot bằng cách sử dụng tăng cường dữ liệu và các công thức khác từ Cosmos Cookbook. Cuốn sách hướng dẫn này là một nguồn tài nguyên mã nguồn mở bao gồm các ví dụ về ứng dụng thực tế của NVIDIA Cosmos trong lĩnh vực robot và lái xe tự hành.

Nâng cao khả năng suy luận và thực thi hành động của robot với ThinkAct

Trong lĩnh vực robot học, các mô hình thị giác-ngôn ngữ-hành động (VLA) tạo ra các hành động của robot từ các hướng dẫn đa phương thức, chẳng hạn như thị giác và ngôn ngữ tự nhiên. Một mô hình VLA mạnh mẽ cần có khả năng hiểu và thực hiện các hành động phức tạp, nhiều bước trong môi trường năng động. Các phương pháp hiện tại để điều khiển robot huấn luyện các mô hình VLA từ đầu đến cuối mà không có bước suy luận rõ ràng. Điều này gây khó khăn cho các mô hình VLA trong việc lập kế hoạch các nhiệm vụ dài hạn và thích ứng với các nhiệm vụ và môi trường khác nhau.

ThinkAct thu hẹp khoảng cách này bằng cách tích hợp tư duy cấp cao với hành động thực thi cấp thấp trong khuôn khổ hệ thống kép. Khuôn khổ “suy nghĩ trước khi hành động” này được thực hiện thông qua việc tăng cường lập kế hoạch tiềm ẩn trực quan.

Đầu tiên, một mô hình ngôn ngữ đa phương thức (MLLM) được huấn luyện để tạo ra các kế hoạch suy luận để cho robot tuân theo. Các kế hoạch này được tạo ra bằng cách sử dụng kỹ thuật học tăng cường, trong đó phần thưởng trực quan khuyến khích MLLM lập kế hoạch dẫn đến hoàn thành mục tiêu bằng cách tuân theo các quỹ đạo thực tế về mặt vật lý. Để làm được điều này, ThinkAct sử dụng video của con người và robot để thực hiện suy luận dựa trên quan sát trực quan. Việc huấn luyện theo cách này đảm bảo rằng kế hoạch của robot không chỉ đúng về mặt lý thuyết mà còn khả thi về mặt vật lý theo phản hồi trực quan. Đây chính là phần “Suy nghĩ”.

Giờ đến phần “Hành động”. Các bước trung gian trong một kế hoạch suy luận được nén lại thành một quỹ đạo tiềm ẩn nhỏ gọn. Biểu diễn này chứa đựng ý định và ngữ cảnh thiết yếu từ kế hoạch. Quỹ đạo tiềm ẩn sau đó hướng dẫn một mô hình hành động riêng biệt, cho phép robot thực hiện các hành động trong nhiều môi trường khác nhau. Bằng cách này, suy luận cấp cao cung cấp thông tin và cải thiện các hành động cấp thấp của robot trong các tình huống thực tế.

Hình 1. Tổng quan về ThinkAct.

ThinkAct đã được kiểm nghiệm các điểm hiệu năng về thao tác robot và suy luận thể hiện. Nó thực hiện thành công việc triển khai với số lượng mẫu ít, thao tác tầm xa và tự điều chỉnh trong các nhiệm vụ trí tuệ nhân tạo thể hiện.

Hình 2. Minh họa trực quan về nhiệm vụ thao tác tầm nhìn dài hạn.

Huấn luyện phối hợp với chính sách “Sim-and-Real”

Việc huấn luyện robot thực hiện các nhiệm vụ thao tác đòi hỏi phải thu thập dữ liệu từ nhiều nhiệm vụ, môi trường và cấu hình vật thể khác nhau. Một cách tiêu chuẩn để làm điều này là thông qua sao chép hành vi, trong đó các minh họa của chuyên gia được ghi lại trong thế giới thực. Điều này nghe có vẻ hay trên lý thuyết, nhưng nó tốn kém và không khả thi trên thực tế. Việc thu thập dữ liệu trong thế giới thực đòi hỏi người vận hành phải tự tạo ra các minh họa hoặc giám sát robot, điều này chậm và bị hạn chế bởi sự sẵn có của phần cứng robot.

Một giải pháp là thu thập các ví dụ minh họa trong môi trường mô phỏng, có thể được tự động hóa và song song hóa để thu thập dữ liệu nhanh chóng và dễ dàng. Tuy nhiên, các chính sách được huấn luyện trên dữ liệu mô phỏng không phải lúc nào cũng áp dụng tốt vào thế giới thực. Đây là khoảng cách giữa mô phỏng và thực tế được quan sát thấy bởi vì mô phỏng không thể tái tạo hoàn hảo sự phức tạp của vật lý, động lực học, nhiễu và phản hồi trong thế giới thực.

Phương pháp huấn luyện đồng thời chính sách mô phỏng và thực tế thu hẹp khoảng cách này bằng cách sử dụng cả mô phỏng và một vài ví dụ thực tế để học các chính sách thao tác có thể khái quát hóa. Đây là một khung huấn luyện đồng thời mô phỏng và thực tế thống nhất, học một không gian tiềm ẩn chung, nơi các quan sát từ mô phỏng và thế giới thực được căn chỉnh. Nó dựa trên công trình được trình bày trong huấn luyện đồng thời mô phỏng và thực tế và sử dụng một không gian biểu diễn tốt hơn để căn chỉnh. Biểu diễn này cũng nắm bắt thông tin liên quan đến hành động. Ý tưởng chính là căn chỉnh các quan sát và các hành động tương ứng của chúng, để chính sách học được các hành vi hoạt động trong cả môi trường mô phỏng và thực tế.

Các biểu diễn này được học thông qua một kỹ thuật gọi là vận chuyển tối ưu (Optimal Transport). OT giúp các chính sách phát hiện các mẫu tương tự trong dữ liệu mô phỏng và dữ liệu thực tế để thông tin cần thiết cho việc lựa chọn hành động vẫn giữ nguyên, bất kể đầu vào là dữ liệu mô phỏng hay dữ liệu thực. Thông thường, dữ liệu mô phỏng nhiều hơn dữ liệu thực, vì vậy sự mất cân bằng dữ liệu này được xử lý bằng cách mở rộng sang khung OT không cân bằng (UOT). UOT sử dụng một phương pháp lấy mẫu giúp việc huấn luyện hiệu quả hơn ngay cả khi các tập dữ liệu có kích thước khác nhau.

Hình 3. Tổng quan về huấn luyện song song chính sách mô phỏng và thực tế sử dụng OT.

Các chính sách được huấn luyện bằng framework này đã thành công trong việc khái quát hóa các tình huống thực tế, ngay cả khi những tình huống đó chỉ xuất hiện trong phần dữ liệu huấn luyện được mô phỏng. Cả khả năng chuyển giao từ mô phỏng sang mô phỏng và từ mô phỏng sang thực tế đều được đánh giá trên các nhiệm vụ thao tác robot như nâng vật, xếp chồng khối lập phương và đặt hộp vào thùng.

Hình 4. Sử dụng phương pháp huấn luyện kết hợp mô phỏng và thực tế, thuật toán học được các nhiệm vụ dài hạn, chẳng hạn như sắp xếp đồ vật vào ngăn kéo kín, chỉ với 25 lần trình diễn.

Cải tiến thiết kế công cụ robot với RobotSmith

Hầu hết các nhiệm vụ thao tác của robot đều liên quan đến việc sử dụng các công cụ và vật thể khác nhau. Sử dụng công cụ là một khả năng cần thiết để robot tương tác với môi trường và thực hiện các hành động phức tạp. Vấn đề là các công cụ được thiết kế cho con người lại khó sử dụng đối với robot do hình dạng đa dạng và phức tạp. Các phương pháp thiết kế công cụ robot hiện nay sử dụng các mẫu định sẵn không thể tùy chỉnh hoặc các phương pháp tạo hình 3D không được tối ưu hóa cho mục đích này.

RobotSmith giải quyết thách thức này bằng cách cung cấp một bộ khung thiết kế công cụ tự động sử dụng các mô hình ngôn ngữ thị giác (VLM). VLM có khả năng suy luận tốt về không gian 3D và tương tác vật lý, cũng như hiểu được những hành động mà robot có thể thực hiện với các vật thể khác nhau. Những khả năng quan trọng này làm cho VLM rất hữu ích trong việc thiết kế công cụ hiệu quả.

RobotSmith tích hợp kiến thức có sẵn từ các mô hình VLM với quy trình tối ưu hóa chung trong mô phỏng để tạo ra các công cụ chuyên biệt cho từng nhiệm vụ. Ba thành phần cốt lõi là:

Nhà thiết kế công cụ phê bình: Hai tác nhân VLM cộng tác để tạo ra các hình dạng công cụ tiềm năng.
Công cụ lập kế hoạch sử dụng: Tạo ra quỹ đạo thao tác dựa trên công cụ và bối cảnh đã thiết kế. Các quỹ đạo và thao tác nắm bắt tiềm năng được thực hiện và đánh giá trong mô phỏng.
Bộ tối ưu hóa đồng thời: Hình học công cụ và các thông số quỹ đạo được tinh chỉnh đồng thời trong mô phỏng để tối đa hóa hiệu suất. Điều này rất quan trọng để loại bỏ các cặp công cụ và quỹ đạo không tối ưu có thể dẫn đến thất bại trong công việc.

Bằng cách này, RobotSmith tạo ra nhiều thiết kế công cụ đa dạng cho các nhiệm vụ như đẩy, xúc hoặc bao bọc.

Hình 5. RobotSmith lặp lại quá trình thiết kế công cụ, xác định một thiết kế hiệu quả và tạo ra quỹ đạo di chuyển bằng công cụ đã thiết kế để hoàn thành nhiệm vụ của người dùng.

RobotSmith đã được đánh giá trong môi trường mô phỏng và trên các nhiệm vụ thực tế. Danh sách đầy đủ các thí nghiệm và kết quả có trong bài báo. Một trong những thử nghiệm thực tế là làm chiếc bánh nướng, trong đó framework đã thiết kế và sử dụng các công cụ riêng biệt cho từng bước như làm phẳng, múc và dàn đều bột. Điều này đã chứng minh khả năng của framework trong việc thực hiện thành công các nhiệm vụ dài hạn.

Hình 6. RobotSmith thiết kế và sử dụng các công cụ được tối ưu hóa cho từng nhiệm vụ phụ trong kịch bản thao tác tầm xa.

Thu hẹp khoảng cách giữa mô phỏng và thực tế thông qua sách hướng dẫn NVIDIA Cosmos Cookbook

Chúng ta đã thảo luận về khoảng cách giữa mô phỏng và thực tế ở phần trước của bài viết này, và bàn về cách sử dụng dữ liệu tổng hợp để huấn luyện các thuật toán robot. Các tập dữ liệu tổng hợp đa dạng và có vẻ ngoài thực tế sẽ tạo ra các thuật toán mạnh mẽ, có khả năng áp dụng tốt vào thế giới thực. Các mô hình nền tảng thế giới mở NVIDIA Cosmos (WFM), đặc biệt là Cosmos Transfer, có thể được sử dụng để mở rộng quy mô các tập dữ liệu tổng hợp bằng cách tạo ra dữ liệu đa dạng và chân thực từ một mô phỏng duy nhất. Toàn bộ quy trình làm việc được trình bày trong Thư viện Thích ứng Miền Robot trong sách hướng dẫn.

Ngoài quy trình làm việc này, NVIDIA Cosmos Cookbook cung cấp các công thức từng bước và các kịch bản sau huấn luyện để nhanh chóng xây dựng, tùy chỉnh và triển khai Cosmos WFM cho robot, hệ thống tự hành và hệ thống tác nhân. Sách này trình bày chi tiết các ví dụ và khái niệm sau:

Các ví dụ suy luận nhanh để bạn bắt đầu sử dụng.
Các quy trình hậu đào tạo nâng cao để tinh chỉnh chuyên biệt theo từng lĩnh vực.
Các công thức đã được kiểm chứng để triển khai hệ thống có khả năng mở rộng và sẵn sàng cho sản xuất.
Các khái niệm cốt lõi bao gồm các chủ đề cơ bản, kỹ thuật, mô hình kiến trúc và tài liệu hướng dẫn sử dụng công cụ.

Cosmos Cookbook là một nguồn tài liệu từ cộng đồng AI vật lý nhằm chia sẻ kiến thức thực tiễn về Cosmos WFM. Chúng tôi hoan nghênh các đóng góp bao gồm quy trình làm việc, công thức, thực tiễn tốt nhất và các điều chỉnh chuyên biệt theo lĩnh vực trên GitHub .

Bắt đầu

Trong bài viết này, chúng ta đã thảo luận về các quy trình làm việc mới để cải thiện kỹ năng thao tác của robot. Chúng ta đã trình bày cách ThinkAct sử dụng khung “suy nghĩ trước khi hành động” để lập luận và thực hiện các hành động của robot. Tiếp theo, chúng ta đã nói về cách sử dụng mô phỏng và dữ liệu thực để huấn luyện dẫn đến các chính sách thao tác có thể khái quát hóa. Chúng ta đã chia sẻ cách RobotSmith tạo ra các thiết kế công cụ robot để tối ưu hóa việc sử dụng công cụ cần thiết trong các nhiệm vụ phức tạp. Cuối cùng, chúng ta đã thấy cách Cosmos Cookbook cung cấp các ví dụ và một nơi chia sẻ cho các dự án AI vật lý sử dụng các mô hình Cosmos.

Hãy tham khảo các nguồn tài liệu sau để tìm hiểu thêm về công việc được thảo luận trong blog này:

ThinkAct: Bài báo, Trang web dự án
Thích ứng miền tổng quát cho huấn luyện đồng thời chính sách mô phỏng và thực tế: Bài báo, Trang web dự án
RobotSmith: Bài báo, Trang web dự án
Sách hướng dẫn nấu ăn Cosmos: Trang web, GitHub

ThinkAct, Generalizable Domain Adaptation, và RobotSmith, cùng nhiều bài báo khác từ các nhóm nghiên cứu của NVIDIA, đã được chấp nhận tại NeurIPS 2025.

Bài viết này là một phần trong Bản tóm tắt Nghiên cứu và Phát triển Robot của NVIDIA (R2D2 ) nhằm cung cấp cho các nhà phát triển cái nhìn sâu sắc hơn về những đột phá mới nhất từ NVIDIA Research trong các ứng dụng trí tuệ nhân tạo vật lý và robot.

Hãy luôn cập nhật thông tin bằng cách đăng ký nhận bản tin và theo dõi NVIDIA Robotics trên YouTube, Discord và các diễn đàn dành cho nhà phát triển . Để bắt đầu hành trình khám phá robot của bạn, hãy đăng ký các khóa học cơ bản về robot của NVIDIA miễn phí.

NVIDIA Developer Blog