Asset 15

Giới thiệu mô hình Gemini Omni

Asset 15

Google gọi Gemini Omni là mô hình “có thể sáng tạo mọi thứ từ bất kỳ đầu vào nào”, và phiên bản đầu tiên sẽ dùng để tạo video. Gemini Omni là một trong những sản phẩm mới xuất hiện lần đầu, được Google giới thiệu tại sự kiện Google I/O ngày 19/5. Theo đó, mô hình này là sự kết hợp khả năng suy luận cùng năng lực sáng tạo của Gemini, và hướng đi đầu tiên là tạo các nội dung video. Đây cũng được đánh giá là bước tiến mới của Google sau mô hình tạo ảnh Nano Banana năm ngoái. Hãy cùng Cloud Ace tìm hiểu nhé.

Mô hình Gemini Omni là gì?

Gemini Omni là mô hình tạo Video AI mới của Google, có khả năng tiếp nhận và kết hợp đồng thời nhiều nguồn dữ liệu khác nhau như văn bản, hình ảnh, âm thanh và cả video, để xuất ra một video chất lượng cao, đồng bộ và bám sát nền tảng kiến thức về thế giới thực của Gemini.

Bên cạnh đó, người dùng không cần các công cụ phức tạp mà có thể chỉnh sửa trực tiếp video thông qua các cuộc trò chuyện.

*Phiên bản đầu tiên của mô hình này là Gemini Omni Flash, hiện đang được triển khai trên Gemini app, Google Flow và YouTube Shorts. 

Các tính năng cốt lõi của Gemini Omni

Chỉnh sửa video thông qua cuộc trò chuyện

  • Người dùng có thể dùng ngôn ngữ tự nhiên để chỉnh sửa video qua nhiều bước liên tiếp. Google khẳng định các nhân vật sẽ giữ nguyên tính nhất quán, các quy luật vật lý được đảm bảo, và hệ thống sẽ ghi nhớ bối cảnh diễn ra trước đó. Ngoài ra, không chỉ xây dựng những bối cảnh dựa trên đầu vào, Omni còn có thể suy luận về diễn biến tiếp theo.

Prompt: Khi người đó chạm vào gương, hãy làm cho gương gợn sóng đẹp mắt như chất lỏng, và cánh tay của người đó biến thành chất liệu gương phản chiếu.

Tái hiện và biến đổi video

  • Người dùng có thể tải lên một video có sẵn và yêu cầu Omni thay đổi hành động, thêm nhân vật/đồ vật mới, thay đổi góc máy, hoặc biến đổi hoàn toàn phong cách và môi trường xung quanh.

Mô phỏng hình ảnh vật lý chính xác hơn

  • Google cho biết mô hình kết hợp khả năng thấu hiểu trực quan các quy luật vật lý với kho kiến thức của Gemini về lịch sử, khoa học lẫn bối cảnh văn hóa đã giúp thu hẹp khoảng cách từ một thước phim tả thực đến một câu chuyện có chiều sâu. Omni cũng được nâng cao khả năng am hiểu trực quan về tác động của các lực như trọng lực, động năng và động lực học chất lưu, giúp người dùng tạo nên những bối cảnh chân thực hơn.

Prompt: Một viên bi lăn nhanh trên đường ray kiểu phản ứng dây chuyền, cảnh quay liên tục mượt mà.

Sáng tạo video từ các dữ liệu tham chiếu

  • Mô hình có thể đồng bộ hóa hình ảnh, âm thanh và chuyển động từ các tệp đầu vào khác nhau để tạo ra một video hoàn chỉnh và liền mạch. Hiện Gemini Omni chỉ đang hỗ trợ giọng nói cho âm thanh, Google sẽ triển khai các loại đầu vào âm thanh khác trong thời gian sắp tới.

Mô phỏng hình ảnh vật lý chính xác hơn

  • Google cho biết mô hình kết hợp khả năng thấu hiểu trực quan các quy luật vật lý với kho kiến thức của Gemini về lịch sử, khoa học lẫn bối cảnh văn hóa đã giúp thu hẹp khoảng cách từ một thước phim tả thực đến một câu chuyện có chiều sâu. Omni cũng được nâng cao khả năng am hiểu trực quan về tác động của các lực như trọng lực, động năng và động lực học chất lưu, giúp người dùng tạo nên những bối cảnh chân thực hơn.

Prompt: Hãy tưởng tượng thế giới dần dần biến đổi thành phong cách retro-futuristic (mờ nhạt và u ám như hình 1) khi tôi bước đi. Sử dụng âm thanh làm nhạc nền theo phong cách retro-futuristic. 10 giây.

Tạo video với digital avatar

  • Trước nguy cơ Omni có thể bị lợi dụng để tạo nội dung độc hại, Google cho biết có các chính sách rõ ràng để bảo vệ người dùng cũng như quy định cách sử dụng các công cụ AI. Chẳng hạn như việc chỉnh sửa video để thay đổi âm thanh và lời nói, Google cho biết đang thử nghiệm và nghiên cứu sâu hơn nhằm đưa năng lực này đến tay người dùng một cách có trách nhiệm, và hiện chỉ hỗ trợ với giọng nói và âm thanh gốc của người dùng. Ngoài ra, tất cả video được tạo bằng Omni đều tích hợp dấu mờ kỹ thuật số vô hình SynthID và chứng chỉ nội dung C2PA, có thể được xác minh bằng Gemini hoặc Google Search.

Cloud Ace - Managed Service Partner của Google Cloud

  • Trụ sở: Tòa Nhà H3, Lầu 1, 384 Hoàng Diệu, Phường Khánh Hội, TP. HCM.
  • Văn phòng đại diện: Tầng 2, 25t2 Hoàng Đạo Thúy, Phường Yên Hòa, Thành phố Hà Nội.
  • Email: sales.vn@cloud-ace.com
  • Hotline: 028 6686 3323
  • Website: https://vn.cloud-ace.com/

Tin tức liên quan

Shopping Basket
viVietnamese