Asset 15

Google Kubernetes Engine Mở Rộng Quy Mô Với 65,000 Nodes

Asset 15

GenAI đang tạo ra những thay đổi mạnh mẽ trong nhiều ngành và cuộc sống. Các mô hình ngôn ngữ lớn (LLM), hiện đã đạt hàng trăm tỷ tham số và các mô hình tiên tiến nhất đang tiến tới 2 nghìn tỷ, khiến nhu cầu về sức mạnh tính toán ngày càng tăng. Để đào tạo những mô hình này trên các máy gia tốc hiện đại, doanh nghiệp cần các cluster với quy mô vượt qua 10.000 nodes. Với khả năng hỗ trợ clussters lên tới 65.000 nodes, Google Kubernetes Engine (GKE) có thể xử lý khối lượng công việc đào tạo đòi hỏi cao này, cung cấp quy mô lớn hơn 10 lần so với các nhà cung cấp đám mây khác. Hãy cùng Cloud Ace tìm hiểu thông báo mới này của Google Cloud nhé.

Unmatched scale for training or inference

Đối với các workload AI đòi hỏi tài nguyên lớn, việc GKE mở rộng quy mô lên tới 65.000 nút là vô cùng quan trọng. Kết hợp với các cải tiến về sức mạnh tính toán từ bộ tăng tốc (accelerators),  giúp doanh nghiệp giảm thời gian đào tạo hoặc mở rộng mô hình. Mỗi node được trang bị nhiều bộ tăng tốc (chẳng hạn như Cloud TPU v5e với bốn chip), cho phép quản lý hơn 250.000 accelerators trong một cụm.

Để phát triển các mô hình AI tiên tiến, doanh nghiệp cần khả năng phân bổ tài nguyên cho nhiều loại workload khác nhau. Không chỉ đào tạo mô hình mà còn hỗ trợ suy luận, nghiên cứu ad hoc và quản lý các tác vụ khác. Việc tập trung sức mạnh tính toán trong một số clusters giúp họ linh hoạt hơn trong việc thích ứng với sự thay đổi nhu cầu từ các workload suy luận, nghiên cứu và đào tạo.

Với khả năng hỗ trợ 65.000 nodes, GKE hiện cho phép chạy năm tác vụ trong một cluster, mỗi tác vụ đều đạt quy mô kỷ lục thế giới về đào tạo mô hình LLM mà Google Cloud từng thực hiện.

Innovations under the hood

Google Cloud đang chuyển GKE từ etcd nguồn mở, kho lưu trữ key-value phân tán sang một kho lưu trữ key-value mới dựa trên Spanner - cơ sở dữ liệu phân tán của Google - cung cấp quy mô gần như không giới hạn.Ngoài khả năng hỗ trợ các cụm GKE lớn hơn, thay đổi này còn giúp cải thiện down-time của các hoạt động cluster (như khởi động và nâng cấp), etc.

Cải tiến trong cơ sở hạ tầng GKE giúp quản lý Kubernetes control plane, cho phép mở rộng nhanh chóng và đáp ứng nhu cầu triển khai với độ trễ thấp. Cluster control plane hỗ trợ thực hiện các tác vụ khối lượng lớn với tính nhất quán cao, tự động điều chỉnh và duy trì độ trễ có thể dự đoán. Điều này rất quan trọng cho các ứng dụng như SaaS, khắc phục thảm họa, triển khai hàng loạt và môi trường thử nghiệm trong thời kỳ thay đổi nhanh.

Google Cloud cũng đang liên tục cải tiến các khả năng của IaaS và GKE, để Google Cloud trở thành môi trường tốt nhất để xây dựng các workload AI của doanh nghiệp. Những cải tiến này gồm:

  • Secondary boot disk: Tăng tốc khởi động workload nhờ vào việc lưu trữ bộ nhớ đệm hình ảnh container.

  • Fully managed DCGM metrics: Cải thiện accelerator monitoring để nâng cao hiệu suất làm việc.

  • Hyperdisk ML: Giải pháp lưu trữ hiệu suất cao dành cho các ứng dụng mở rộng (GA).

  • Serverless GPUs:  hiện khả dụng trên Cloud Run

  • Custom compute classes: Tăng cường khả năng kiểm soát trong việc phân bổ và mở rộng tài nguyên tính toán.

  • Support for Trillium: TPU thế hệ thứ sáu của Google Cloud, hiệu suất cao và tiết kiệm năng lượng nhất hiện có.

  • Support for A3 Ultra VM: Sử dụng GPU NVIDIA H200 Tensor Core và bộ điều hợp Titanium ML mới, cho phép truyền tải GPU-to-GPU 3.2 Tbps không bị chặn qua RDMA trên Converged Ethernet (RoCE). 

Cloud Ace - Managed Service Partner của Google Cloud

  • Trụ sở: Tòa Nhà H3, Lầu 1, 384 Hoàng Diệu, Phường 6, Quận 4, TP. HCM.
  • Văn phòng đại diện: Tầng 2, 25t2 Hoàng Đạo Thúy, Phường Trung Hoà, Quận Cầu Giấy, Thành phố Hà Nội.
  • Email: sales.vn@cloud-ace.com
  • Hotline: 028 6686 3323
  • Website: https://vn.cloud-ace.com/

Tin tức liên quan

Shopping Basket
viVietnamese