Siêu máy tính AI được xây dựng dựa trên ba thành phần chính:
Performance-optimized infrastructure (Hạ tầng tối ưu hiệu suất): Gồm các tài nguyên mang lại tốc độ training nhanh nhất cho các mô hình AI quy mô lớn như: Google Cloud TPU, Google Cloud GPU, Google Cloud Storage và Jupiter network. Nhờ khả năng mở rộng của kiến trúc, hệ thống đảm bảo được hiệu suất tôi ưu và chi phí hợp lý nhất khi triển khai các mô hình AI
Open software (Phần mềm mở): Gồm các phiên bản được tối ưu hóa để hỗ trợ các thư viện và công cụ ML phổ biến như TensorFlow, PyTorch và JAX. Ngoài ra, doanh nghiệp có thể tận dụng các công nghệ tiên tiến như Cloud TPU Multislice, Multihost và dịch vụ quản lý Google Kubernetes Engine (GKE), giúp đơn giản hóa quá trình triển khai. Nhờ đó, các workload như NVIDIA NeMo trên SLURM, có thể được triển khai nhanh chóng và hiệu quả.
Flexible consumption (Tùy chọn tiêu thụ linh hoạt): Doanh nghiệp có thể linh hoạt lựa chọn giữa chi phí cố định với ưu đãi cam kết sử dụng hoặc mô hình tính phí theo nhu cầu (on-demand) để tối ưu hóa ngân sách. Trình lập lịch động (Dynamic Workload Scheduler) giúp phân bổ tài nguyên hiệu quả, đảm bảo đủ công suất mà không lãng phí, chỉ thanh toán cho những gì thực sự sử dụng. Bên cạnh đó, các công cụ tối ưu hóa chi phí của Google Cloud cũng tự động điều chỉnh tài nguyên, giúp giảm bớt workload cho kỹ sư.