Google ra mắt mô hình Gemini 3.1 Flash-Lite nhanh nhất, rẻ nhất

Google ra mắt mô hình Gemini 3.1 Flash-Lite nhanh nhất, rẻ nhất

Sau khi “trình làng” Nano Banana 2 hay còn gọi là Gemini 3.1 Flash Image vào tháng trước, Google tiếp tục ra mắt mô hình mới với tên gọi Gemini 3.1 Flash Lite. Được thiết kế chuyên biệt để xử lý khối lượng công việc với quy mô lớn, 3.1 Flash-Lite là giải pháp tối ưu cho các ứng dụng yêu cầu độ trễ thấp với lưu lượng truy cập Mô hình ngôn ngữ lớn (LLM) cao. Đặc biệt phù hợp với các dự án có ngân sách nhỏ, mô hình này vẫn đảm bảo mang lại chất lượng và hiệu suất vượt trội so với mức giá trong phân khúc. Hãy cùng Cloud Ace tìm hiểu nhé.

Với mức giá chỉ $0.25/1 triệu token đầu vào và $1.5/1 triệu token đầu ra, 3.1 Flash-Lite mang lại hiệu suất tối ưu với chi phí tiết kiệm hơn rất nhiều so với các mô hình cỡ lớn. Theo nền tảng Artificial Analysis, mô hình này mang đến một bước nhảy vọt về chất lượng so với các thế hệ Gemini 2.0 Flash-Lite và 2.5 Flash-Lite trước đó, đồng thời đạt hiệu suất ngang với Gemini 2.5 Flash ở thông qua các chỉ số:

🔹Nâng cao chất lượng phản hồi: Hướng tới mục tiêu đạt được hiệu suất tương đương với 2.5 Flash.
🔹Cải thiện khả năng tuân thủ chỉ dẫn: Những cải tiến giúp mô hình trở giải pháp cho các chatbot phức tạp và các luồng công việc đòi hỏi hướng dẫn khắt khe.
🔹Nâng cấp xử lý đầu vào âm thanh: Cải thiện chất lượng nhận diện và xử lý âm thanh, đặc biệt cho các tác vụ như Nhận dạng Giọng nói Tự động (ASR).
🔹Mở rộng khả năng tư duy: Cho phép kiểm soát mức độ suy luận của mô hình (tối thiểu, thấp, trung bình, cao), giúp cân bằng giữa chất lượng phản hồi và tốc độ xử lý tùy theo nhu cầu sử dụng.

Vượt xa hiệu suất đơn thuần, Gemini 3.1 Flash-Lite được tích hợp sẵn các cấp độ tư duy (thinking levels) trên AI Studio và Vertex AI. Điều này mang lại cho các developers quyền kiểm soát và sự linh hoạt để lựa chọn mức độ "tư duy" của mô hình cho từng tác vụ — một yếu tố then chốt để quản lý các khối lượng công việc có tần suất cao. 3.1 Flash-Lite có khả năng xử lý các tác vụ quy mô lớn như: dịch thuật số lượng lớn hay kiểm duyệt nội dung, nơi mà chi phí là ưu tiên hàng đầu.

Đồng thời, mô hình cũng có thể đảm nhận các công việc phức tạp đòi hỏi tư duy chuyên sâu hơn, chẳng hạn như tạo giao diện người dùng (UI) và bảng điều khiển (dashboard), thiết lập mô phỏng hoặc thực hiện các chỉ dẫn chi tiết.

Các developers được truy cập sớm trên Google AI Studio và Vertex AI, như các doanh nghiệp như Latitude, Cartwheel và Whering, hiện đã ứng dụng 3.1 Flash-Lite để giải quyết các bài toán phức tạp ở quy mô lớn.

Những đơn vị thử nghiệm sớm và họ đánh giá cao hiệu quả và khả năng suy luận của 3.1 Flash-Lite, cho biết mô hình có thể xử lý đầu vào phức tạp với độ chính xác tương đương các mô hình phân khúc cao hơn, đồng thời vẫn tuân thủ chặt chẽ hướng dẫn và duy trì tính nhất quán trong quá trình thực thi.

Cloud Ace

Google Cloud Diamond Partner