Cloud TPU phá vỡ các kỷ lục về khả năng mở rộng cho AI suy luận.

MLPerf là tiêu chuẩn công nghiệp để đo hiệu suất ML, kết quả các điểm chuẩn (benchmarks) suy luận MLPerf mới nhất hiện đang có sẵn. Các điểm chuẩn (benchmarks) này thể hiện hiệu suất trên nhiều tình huống dự đoán học máy (machine learning). Việc tham gia đánh giá, đo lường của Google chứng minh rằng nền tảng Google Cloud TPU đáp ứng các nhu cầu quan trọng của khách hàng học máy : tốc độ của nhà phát triển, khả năng mở rộng và độ co giãn.

MLPerf Inference v0.5 định nghĩa ba điểm chuẩn (benchmarks) lớp trung tâm dữ liệu: ResNet-50 v1.5 để phân loại hình ảnh, SSD-ResNet-34 để phát hiện đối tượng và GNMT cho dịch ngôn ngữ. Google đã đo lường thiết bị Cloud TPU v3 và có kết quả cho cả ba điểm chuẩn, với 32 thiết bị Cloud TPU v3 đã thể hiện khả năng mở rộng tuyến tính gần lên tới mức kỷ lục 1 triệu hình ảnh được xử lý mỗi giây trên ResNet-50 v1.5

Đỉnh quy mô dành cho MLPerf v0.5 Closed offline từ bình thường trở thành mục cao nhất.

Cloud TPU được cung cấp công khai cho khách hàng Google Cloud ở bản beta. Những TPU tương tự này cũng đang được sử dụng trên nhiều sản phẩm Google quy mô lớn, bao gồm cả Google Search.

Tốc độ của nhà phát triển: Phục vụ những gì bạn dạy cho máy (training)

Kiến trúc Cloud TPU được thiết kế từ dưới lên trên để chuyển liên tục khối lượng công việc ML hơn từ đào tạo sang phục vụ. Cloud TPU cung cấp các số có dấu phẩy động bfloat16, cho phép độ chính xác cao hơn so với số nguyên. Đào tạo và phục vụ trên cùng một nền tảng phần cứng giúp ngăn ngừa tổn thất chính xác tiềm tàng tại thời điểm suy luận và không yêu cầu lượng tử hóa, hiệu chuẩn lại hoặc đào tạo lại. Ngược lại, việc phục vụ với các số có độ chính xác thấp (ví dụ: 8 bit) có thể tạo ra các phức tạp lớn đòi hỏi đầu tư đáng kể của nhà phát triển để đáp ứng.

Ví dụ: sử dụng nền tảng TPU v3 cho cả đào tạo và suy luận cho phép Google Dịch đẩy các mô hình mới vào môi trường product trong vòng vài giờ chứng thực mô hình (model validation). Điều này cho phép nhóm triển khai những tiến bộ mới từ nghiên cứu dịch máy vào môi trường product nhanh hơn bằng cách loại bỏ thời gian kỹ thuật cần thiết để phát triển các biểu đồ suy luận tùy chỉnh. Công nghệ tương tự này có sẵn cho khách hàng của Google Cloud để tăng năng suất cho các nhóm học máy của họ, thúc đẩy phát triển các trường hợp sử dụng phổ biến như giải pháp call center, phân loại tài liệu, kiểm tra công nghiệp và tìm kiếm sản phẩm trực quan.

Quy mô suy luận

Suy luận học máy thường xuyên song song, không có sự phụ thuộc giữa một đầu vào và đầu vào tiếp theo. MLPerf Inference v0.5 xác định hai kịch bản suy luận trung tâm dữ liệu khác nhau: offline (ví dụ: xử lý một lô dữ liệu lớn qua đêm) và online (ví dụ: trả lời các truy vấn của người dùng trong thời gian thực). Các bài nộp ngoại tuyến của Googlei tận dụng sự song song quy mô lớn để chứng minh khả năng mở rộng cao trên cả ba benchmarks lớp trung tâm dữ liệu. Trong trường hợp ResNet-50 v1.5, chúng tôi hiển thị khả năng mở rộng tuyến tính gần từ 1 đến 32 thiết bị Cloud TPU. Khách hàng của Google Cloud có thể sử dụng các kết quả MLPerf này để đánh giá nhu cầu suy luận của chính họ và chọn cấu hình phần cứng Cloud TPU phù hợp với nhu cầu suy luận của họ một cách thích hợp.

Tăng tốc Google Cloud TPU v3 như được thể hiện bởi MLPerf Inference 0.5 Closed của Google ML. Kết quả trong hình này được rút ra từ kịch bản offline.

Độ co giãn của Cloud: Cung cấp theo yêu cầu

Khối lượng công việc suy luận doanh nghiệp có nhiều mức độ thay đổi theo thời gian dẫn tới nhiều thay đổi nhu cầu đối với tài nguyên máy gia tốc. Google Cloud cung cấp độ co giãn cần thiết để thích ứng với nhu cầu biến động bằng cách tự động cung cấp và giảm cung cấp tài nguyên để giảm thiểu chi phí. Cho dù khách hàng phục vụ các truy vấn không liên tục cho các nhóm nội bộ, hàng nghìn truy vấn phân tán toàn cầu mỗi giây hoặc chạy một công việc suy luận (inference job) hàng loạt khổng lồ mỗi đêm, Google Cloud cho phép họ có phần cứng phù hợp với vừa đúng nhu cầu của họ, giảm thiểu lãng phí do dư thừa các tài nguyên.

Ví dụ: khi offline Cloud TPU ResNet-50 v1.5 kiểm tra trên MLPerf Inference v0.5 Closed cho thấy rằng chỉ 32 thiết bị Cloud TPU v3 có thể xử lý hơn một triệu hình ảnh mỗi giây. Để hiểu quy mô và tốc độ đó, nếu tất cả 7,7 tỷ người trên trái đất tải lên một bức ảnh, bạn có thể phân loại toàn bộ bộ sưu tập ảnh toàn cầu này trong vòng dưới 2,5 giờ và làm như vậy chi phí dưới 600 đô la. Với hiệu suất, độ co giãn và khả năng chi trả này, Google Cloud có vị trí duy nhất để phục vụ nhu cầu học máy của khách hàng doanh nghiệp.

Hãy bắt đầu ngay từ hôm nay

Cloud TPU hiện đã thiết lập các kỷ lục cho cả dạy (training) và suy luận. Google Cloud cung cấp một loạt các giải pháp suy luận cho doanh nghiệp, cho phép khách hàng lựa chọn một trong số rất nhiều GPU và Cloud TPU. Ví dụ: Google cũng cung cấp giá tốt và hiệu suất vượt trội với GPU NVIDIA T4 để suy luận với các mô hình được lượng tử hóa. Khách hàng của Google Cloud có thể bắt đầu sử dụng ngay lập tức với suy luận ML đã được tăng tốc thay vì phải đợi hàng tháng để xây dựng cụm phần cứng ML tại chỗ (on-premise). Nếu khối lượng công việc deep learning là cốt lõi trong công việc kinh doanh của bạn, chúng tôi khuyên bạn nên làm theo các hướng dẫn nhanh (Quickstart) cho Cloud TPU hoặc GPU để làm quen với các nền tảng tăng tốc ML của Google.

Nguồn: Google Cloud Blog