Hãy cùng Cloud Ace khám phá làm thế nào khả năng Google Cloud Hierachical Namespace (HNS) mới của Cloud Storage có thể giúp doanh nghiệp tối đa hóa hiệu suất và hiệu quả của workload AI/ML của mình.
Google Cloud Hierarchical Namespace
Google Cloud Hierachical Namespace (Không gian tên phân cấp) là một tính năng của Cloud Storage, cho phép tổ chức dữ liệu theo một cấu trúc hệ thống thư mục logic, nâng cao hiệu suất, đảm bảo tính nhất quán và đơn giản hóa quản lý dữ liệu. Các thao tác như tạo, xóa, liệt kê và đổi tên thư mục giúp tối ưu hóa quá trình sắp xếp và quản lý.
Để sử dụng thư mục trong bucket, cần kích hoạt hierarchical namespace khi tạo, vì cấu hình này không thể thay đổi sau đó.
Tính năng chính
Queries per second (QPS):
Hierarchical namespace bucket cung cấp QPS đọc/ghi ban đầu cao hơn gấp 8 lần so với flat namespace buckets, giúp mở rộng khối lượng công việc dữ liệu lớn dễ dàng hơn và cải thiện thông lượng.
Thư mục:
Cho phép tổ chức dữ liệu theo cấu trúc logic, hỗ trợ các thao tác tạo, xóa và truy xuất thông tin thư mục.
Đổi tên thư mục:
Hỗ trợ đổi tên thư mục và thư mục con một cách nguyên tử mà không làm mất dữ liệu, giúp tối ưu thời gian và hiệu suất, đặc biệt với thư mục lớn chứa nhiều đối tượng.
Liệt kê thư mục:
Hỗ trợ liệt kê tất cả thư mục trong bucket hoặc trong một thư mục cụ thể, giúp quản lý và theo dõi cấu trúc dữ liệu dễ dàng hơn.
Những thách thức khi lưu trữ dữ liệu trong workload AI/ML
Hệ thống lưu trữ đóng vai trò then chốt trong các quy trình AI/ML, đảm bảo hiệu suất và tính nhất quán trong toàn bộ chu trình xử lý dữ liệu, đào tạo và triển khai mô hình.
Chuẩn bị và xử lý dữ liệu: Gồm các bước xác thực, tiền xử lý, nhập dữ liệu vào hệ thống lưu trữ và chuyển đổi định dạng phù hợp cho quá trình đào tạo mô hình.
Đào tạo mô hình: Sử dụng các tài nguyên tính toán hiệu năng cao như GPU/TPU để huấn luyện và tinh chỉnh. Cơ chế kiểm tra điểm giúp lưu trạng thái mô hình định kỳ, cho phép tiếp tục từ điểm dừng trước đó, tối ưu hóa tài nguyên và giảm thiểu gián đoạn trong quá trình đào tạo phân tán quy mô lớn.
Triển khai mô hình: Gồm việc tải mô hình, trọng số và dữ liệu vào hệ thống tính toán để thực hiện suy luận.
Với quy mô dữ liệu petabyte và hàng nghìn node tính toán thực hiện I/O đồng thời, hệ thống lưu trữ có thể trở thành điểm nghẽn, ảnh hưởng đến hiệu suất tổng thể và làm giảm hiệu quả sử dụng tài nguyên tính toán chuyên dụng. Chính vì vậy, giải pháp Hierachical Namespace (Không gian tên phân cấp) của Google Cloud sẽ là giải pháp tối ưu các workload AI/ML
Lợi ích Google Cloud Hierachical Namespace
Tối ưu hóa cho việc tổ chức và truy cập dữ liệu
Hierarchical namespace bucket cho phép tổ chức dữ liệu Cloud Storage theo cấu trúc thư mục, giúp tối ưu hiệu suất và thao tác hệ thống tệp. Các thư viện như Cloud Storage FUSE có thể ánh xạ trực tiếp lệnh hệ thống tệp sang API Cloud Storage, giảm thiểu chi phí xử lý so với flat namespace buckets. Tối ưu hóa workload AI/ML, khi các framework như TensorFlow và PyTorch thường dựa vào giao diện hệ thống tệp.
Tăng tốc độ ghi checkpoint lên 20 lần
Việc đổi tên thư mục và đối tượng thường xuyên diễn ra khi ghi checkpoint hoặc quản lý dữ liệu trung gian. Hierarchical namespace bucket của Cloud Storage cung cấp API RenameFolder, giúp đổi tên thư mục nhanh chóng và có tính nguyên tử (atomic), thay vì phải thực hiện hàng nghìn thao tác ghi đè như trong flat namespace bucket. Điều này giúp giảm thiểu lỗi, tăng tính nhất quán và đẩy nhanh tốc độ ghi checkpoint lên 20 lần.
Tăng QPS lên tới 8 lần
Hierarchical namespace bucket tối ưu hóa lưu trữ, cho phép QPS đọc/ghi ban đầu cao hơn 8 lần so với flat namespace buckets. Hệ thống này giúp giảm tắc nghẽn khi xử lý các yêu cầu I/O đột biến trong AI/ML, tối ưu hiệu suất GPU/TPU. Ngoài ra, QPS có thể tăng gấp đôi mỗi 20 phút, giúp một bucket lạnh đạt 100.000 QPS ghi nhanh hơn gần 50% so với flat namespace buckets.