Mô hình hỗ trợ đa phương thức với đầu vào ngôn ngữ và thị giác và đầu ra văn bản, xử lý tới 128K token, hiểu hơn 140 ngôn ngữ và cải thiện khả năng toán học, lý luận, hội thoại. Mô hình có bốn kích thước (1B, 4B, 12B, 27B), gồm phiên bản đào tạo trước để tùy chỉnh theo nhu cầu và phiên bản điều chỉnh theo hướng dẫn cho mục đích chung.