Groq xây dựng khả năng suy luận AI nhanh chóng. Công nghệ suy luận AI Groq® LPU™ mang lại tốc độ tính toán AI vượt trội, chất lượng cao và giá cả phải chăng ở quy mô lớn.
Cơ sở hạ tầng suy luận AI của Groq, cụ thể là GroqCloud™ , được hỗ trợ bởi Bộ xử lý ngôn ngữ (LPU), một loại bộ xử lý mới. Groq đã tạo ra và xây dựng LPU từ đầu để đáp ứng các nhu cầu đặc thù của AI. LPU chạy các Mô hình ngôn ngữ lớn (LLM) và các mô hình hàng đầu khác với tốc độ nhanh hơn đáng kể và, ở cấp độ kiến trúc, hiệu quả hơn tới 10 lần về mặt năng lượng so với GPU.
Dưới đây là bốn nguyên tắc thiết kế cốt lõi của Groq LPU và lý do tại sao kiến trúc của nó mang lại hiệu năng vượt trội như vậy.
Lý lịch
Từ định luật Moore đến suy luận AI
Trong nhiều thập kỷ, phần mềm máy tính đã hưởng lợi từ Định luật Moore, lời tiên tri tự ứng nghiệm năm 1965 của Gordon Moore rằng sức mạnh xử lý của một con chip sẽ tăng gấp đôi sau khoảng hai năm trong khi chi phí vẫn ổn định. Định luật này đã đúng trong vài thập kỷ, được hỗ trợ bởi việc sử dụng ngày càng nhiều bộ xử lý đa lõi (CPU và GPU).
Mỗi bước tiến trong quá trình phát triển phần cứng đều làm tăng thêm độ phức tạp cho hệ thống. Ví dụ, CPU và GPU đa lõi rất mạnh mẽ và có thể xử lý nhiều ứng dụng, nhưng lại yêu cầu các thành phần phụ trợ trên chip – bộ nhớ đệm, bộ đệm đệm, bộ tìm nạp trước – để tối ưu hóa việc thực thi. Sự phức tạp này tạo ra sự không nhất quán trong quá trình thực thi chương trình. Điều này có thể được quản lý bằng các nhân phần mềm, tạo ra tính nhất quán thực thi tốt hơn nhưng bản thân chúng lại khá phức tạp.

Với sự chuyển dịch sang suy luận cùng sự xuất hiện của các mô hình tuyến tính logic (LLM) và các khối lượng công việc AI tương tự, Groq đã nắm bắt cơ hội để xem xét lại kiến trúc phần mềm và phần cứng. Các mô hình LLM rất mạnh mẽ, nhưng khi chạy trong suy luận, chúng dựa vào một tập hợp hạn chế các phép toán đại số tuyến tính, chủ yếu là các phép nhân ma trận. Tính toán suy luận AI tóm lại là chạy một lượng lớn các phép toán đại số tuyến tính trên dữ liệu quy mô lớn. Mặc dù phần cứng GPU có thể thực hiện các phép toán này, nhưng nó không được thiết kế cho mục đích đó. GPU sẽ luôn bị hạn chế về khả năng tăng tốc độ và hiệu quả suy luận vì kiến trúc truyền thống của chúng được xây dựng cho các hoạt động song song độc lập như xử lý đồ họa.
Vì vậy, Groq đã chế tạo LPU. Bốn nguyên tắc thiết kế cốt lõi của nó mang lại lợi thế về hiệu năng cả hiện tại và tương lai. Chúng bao gồm:
- Ưu tiên phần mềm
- Kiến trúc dây chuyền lắp ráp có thể lập trình
- Tính toán và mạng xác định
- Bộ nhớ trên chip
Nguyên tắc thiết kế LPU 1
Ưu tiên phần mềm
Kiến trúc LPU của Groq bắt đầu với nguyên tắc “phần mềm là trên hết”. Mục tiêu là làm cho công việc của nhà phát triển phần mềm dễ dàng hơn trong việc tối đa hóa việc sử dụng phần cứng và trao quyền kiểm soát tối đa cho nhà phát triển.
GPU rất đa năng và mạnh mẽ; chúng có thể xử lý nhiều tác vụ tính toán khác nhau. Nhưng chúng cũng phức tạp, tạo thêm gánh nặng cho phần mềm. Phần mềm phải tính đến sự biến đổi trong cách thức thực thi khối lượng công việc, trong và giữa nhiều chip, khiến việc lập lịch thực thi thời gian chạy và tối đa hóa việc sử dụng phần cứng trở nên khó khăn hơn nhiều. Để tối đa hóa việc sử dụng phần cứng trên GPU, mỗi mô hình AI mới đều yêu cầu lập trình các nhân cụ thể cho mô hình đó. Đây là lý do tại sao nguyên tắc “phần mềm là trên hết” của chúng tôi lại quan trọng đến vậy – với GPU, phần mềm luôn luôn là thứ yếu so với phần cứng.
Bộ xử lý LPU của Groq được thiết kế ngay từ đầu cho các phép tính đại số tuyến tính – yêu cầu chính đối với suy luận AI. Bằng cách tập trung vào tính toán đại số tuyến tính và đơn giản hóa mô hình tính toán đa chip, Groq đã áp dụng một cách tiếp cận khác đối với suy luận AI và thiết kế chip. LPU sử dụng kiến trúc dây chuyền lắp ráp có thể lập trình, cho phép công nghệ suy luận AI sử dụng trình biên dịch chung, độc lập với mô hình và tuân thủ nguyên tắc ưu tiên phần mềm. Phần mềm luôn là yếu tố chính, kiểm soát hoàn toàn mọi bước của quá trình suy luận.
Mục tiêu là làm cho công việc tối ưu hóa việc sử dụng phần cứng của nhà phát triển phần mềm trở nên dễ dàng hơn và trao cho nhà phát triển càng nhiều quyền kiểm soát càng tốt.
“Ưu tiên phần mềm” không chỉ là một nguyên tắc thiết kế – mà đó thực sự là cách Groq xây dựng bộ xử lý GroqChip™ thế hệ đầu tiên của mình. Chúng tôi không can thiệp vào thiết kế chip cho đến khi kiến trúc của trình biên dịch được thiết kế xong. Trình biên dịch chấp nhận khối lượng công việc từ nhiều khung phần mềm khác nhau, chạy các khối lượng công việc đó qua nhiều giai đoạn. Khi trình biên dịch lập bản đồ và lên lịch cho một chương trình chạy trên một hoặc nhiều LPU, nó sẽ tối ưu hóa hiệu suất và mức độ sử dụng. Kết quả là một chương trình bao gồm tất cả thông tin về sự di chuyển dữ liệu trong suốt quá trình thực thi.
Nguyên tắc thiết kế LPU 2
Kiến trúc dây chuyền lắp ráp có thể lập trình
Đặc điểm nổi bật nhất của Groq LPU là kiến trúc dây chuyền lắp ráp có thể lập trình được.
Bộ xử lý LPU có các “băng tải” dữ liệu di chuyển các lệnh và dữ liệu giữa các đơn vị chức năng SIMD (lệnh đơn/dữ liệu đa) của chip. Ở mỗi bước của quá trình lắp ráp, đơn vị chức năng nhận được các lệnh thông qua băng tải. Các lệnh này cho đơn vị chức năng biết nó nên đi đến đâu để lấy dữ liệu đầu vào (băng tải nào), chức năng nào nó nên thực hiện với dữ liệu đó và nơi nó nên đặt dữ liệu đầu ra. Toàn bộ quá trình này được điều khiển bằng phần mềm; không cần đồng bộ hóa trong phần cứng.
Kiến trúc truyền dữ liệu lập trình được của LPU hỗ trợ quy trình dây chuyền lắp ráp bên trong một chip cũng như giữa các chip. Băng thông giữa các chip rất lớn, cho phép các băng tải dữ liệu di chuyển giữa các chip dễ dàng như bên trong một chip. Không cần bộ định tuyến hoặc bộ điều khiển cho kết nối giữa các chip, ngay cả ở công suất tối đa.
Quy trình dây chuyền lắp ráp bên trong và giữa các chip loại bỏ các điểm nghẽn. Không cần chờ đợi tài nguyên tính toán hoặc bộ nhớ để hoàn thành một tác vụ. Không cần bộ điều khiển bổ sung trên chip vì không có điểm nghẽn nào cần quản lý. Dây chuyền lắp ráp hoạt động trơn tru và hiệu quả, hoàn toàn đồng bộ.
Đây là một cải tiến lớn so với cách hoạt động của GPU. GPU hoạt động theo mô hình đa lõi “hình nan hoa”, trong đó phương pháp phân trang dữ liệu kém hiệu quả đòi hỏi chi phí đáng kể để truyền dữ liệu qua lại giữa các đơn vị tính toán và bộ nhớ trong và giữa các chip. GPU cũng sử dụng nhiều hệ thống phân cấp các bộ chuyển mạch và chip mạng bên ngoài, cả trong và giữa các giá đỡ, để giao tiếp với nhau, làm trầm trọng thêm độ phức tạp của việc lập lịch phần mềm. Kết quả là một phương pháp đa lõi khó lập trình.


Kiến trúc dây chuyền lắp ráp lập trình được của Groq LPU (ở trên) nhanh hơn và hiệu quả hơn nhiều so với phương pháp “trung tâm và các nhánh” của GPU (ở dưới).
Nguyên tắc thiết kế LPU 3
Tính toán và mạng xác định
Để dây chuyền lắp ráp hoạt động hiệu quả, cần phải có độ chính xác cao về thời gian thực hiện từng bước. Nếu thời gian thực hiện một công đoạn cụ thể có sự biến động quá lớn, sự biến động đó sẽ lan rộng ra toàn bộ dây chuyền lắp ráp. Một dây chuyền lắp ráp hiệu quả đòi hỏi tính xác định chính xác cao.
Kiến trúc LPU mang tính xác định, nghĩa là mọi bước thực thi đều hoàn toàn có thể dự đoán được đến từng chu kỳ thực thi nhỏ nhất (còn gọi là chu kỳ xung nhịp). Phần cứng được điều khiển bằng phần mềm biết chính xác với độ chính xác cao thời điểm và vị trí thực hiện một thao tác cũng như thời gian cần thiết để hoàn thành nó.
Bộ xử lý LPU Groq đạt được độ chính xác cao bằng cách loại bỏ sự tranh chấp các tài nguyên quan trọng, cụ thể là băng thông dữ liệu và khả năng tính toán. Có đủ dung lượng để định tuyến dữ liệu xung quanh chip (các băng chuyền) và nhiều khả năng tính toán trong các đơn vị chức năng của chip. Không có vấn đề gì với việc các tác vụ khác nhau sử dụng cùng một tài nguyên, do đó không có sự chậm trễ khi thực thi do tắc nghẽn tài nguyên.
Điều tương tự cũng đúng với việc định tuyến dữ liệu giữa các chip. Các băng tải dữ liệu LPU cũng hoạt động giữa các chip, do đó việc kết nối các chip tạo ra một dây chuyền lắp ráp lập trình được lớn hơn. Luồng dữ liệu được phần mềm lập lịch tĩnh trong quá trình biên dịch và được thực thi theo cùng một cách mỗi khi chương trình chạy.
Nguyên tắc thiết kế LPU 4
Bộ nhớ tích hợp trên chip
Các LPU (Bộ xử lý logic) tích hợp cả bộ nhớ và khả năng tính toán trên cùng một chip, giúp cải thiện đáng kể tốc độ lưu trữ và truy xuất dữ liệu đồng thời loại bỏ sự biến đổi về thời gian. Trong khi tính xác định đảm bảo dây chuyền lắp ráp hoạt động hiệu quả và loại bỏ sự biến đổi của từng giai đoạn tính toán, bộ nhớ tích hợp trên chip cho phép nó hoạt động nhanh hơn nhiều.
GPU sử dụng các chip nhớ băng thông cao riêng biệt, dẫn đến sự phức tạp – nhiều lớp bộ nhớ đệm, bộ chuyển mạch và bộ định tuyến để truyền dữ liệu qua lại – đồng thời tiêu tốn nhiều năng lượng. Việc tích hợp bộ nhớ trên cùng một chip giúp cải thiện hiệu quả và tốc độ của mỗi thao tác I/O, đồng thời loại bỏ sự phức tạp và không chắc chắn.
Bộ nhớ SRAM tích hợp trên chip Groq có băng thông lên tới hơn 80 terabyte/giây, trong khi bộ nhớ HBM ngoài chip của GPU chỉ đạt khoảng 8 terabyte/giây. Chỉ riêng sự khác biệt đó đã mang lại cho các bộ xử lý logic (LPU) lợi thế về tốc độ lên đến 10 lần, bên cạnh lợi thế mà LPU có được nhờ không phải truy cập qua lại vào một chip nhớ riêng biệt để lấy dữ liệu.
Quy trình dây chuyền lắp ráp bên trong và giữa các chip loại bỏ các điểm nghẽn. Không cần phải chờ đợi tài nguyên tính toán hoặc bộ nhớ để hoàn thành một tác vụ.
Phần kết luận
LPU hỗ trợ suy luận AI nhanh.
Bộ xử lý Groq LPU mang lại tốc độ, chất lượng và giá cả phải chăng vượt trội ở quy mô lớn. Nhờ các nguyên tắc thiết kế vốn có, hiệu năng vượt trội của LPU được duy trì bền vững. GPU sẽ tiếp tục cải thiện tốc độ và giảm chi phí, nhưng Groq cũng vậy, và với tốc độ nhanh hơn nhiều. Bộ chip hiện tại của chúng tôi được xây dựng trên quy trình 14 nanomet. Khi chúng tôi chuyển sang quy trình 4 nanomet, lợi thế về hiệu năng của kiến trúc LPU sẽ càng tăng lên.
Đây là những “nguyên tắc cơ bản” tại Groq, định hướng cho việc phát triển sản phẩm LPU. Chúng đảm bảo chúng tôi sẽ duy trì lợi thế hiệu năng vượt trội ngay cả khi các nhà sản xuất GPU cố gắng thu hẹp khoảng cách.
