Trong quá trình phát triển Model Machine Learning, ngoài thuật toán tối ưu được sử dụng thì định dạng, kích thước và dung lượng ảnh cũng ảnh hưởng trực tiếp đến tốc độ xử lý.
Vision API được cung cấp trên nền tảng Google Cloud Platform cũng đã đưa ra một số đề nghị về độ phân giải cũng như kích thước file ảnh như thế nào để đạt được kết quả tốt nhất.
1. Định Dạng Phù Hợp Với Machine Leanring
Một số định dạng ảnh được hiện được Cloud Vision API của Google hỗ trợ:
Là định dạng mà các file ảnh được dùng phổ biển nhất trong web cũng như machine learning. Ưu điểm: kích thước nhỏ – tốc độ load nhanh – tiết kiệm không gian lưu trữ.
Hỗ trợ cả hai lossy và lossless. Dung lượng của WEBP -lossless nhỏ hơn 26% so với PNG và WEBP -lossly nhỏ hơn 25-34% so với JPEG cùng chất lượng ảnh. Là định dạng ảnh tốt nhất tối ưu không gian lưu trữ và tốc độ training model.
Trong Cloud Vision API, để phát hiện được các đối tượng được chính xác thì độ phân giải ảnh tối thiểu là 640 x 480px. Cũng theo nhu cầu sử dụng dịch vụ nào thì sẽ có khuyến khích riêng cho từng dịch vụ.
3. Dung Lượng Ảnh
Nhằm đảm bảo tốc độ xử lý cũng như tiết kiệm được băng thông, Vision API đề nghị và chỉ cho phép dung lượng ảnh upload lên không lớn hơn 20MB.
Đối với những file ảnh có dung lượng lớn 20MB thì phải cần phải lưu trên Cloud Storage hoặc Web. Và còn một điếm chú ý nữa là dung lượng chuỗi JSON khi request không vượt quá 10MB.