Các connectors và kho lưu trữ dữ liệu của Gemini Enterprise

Các connectors và kho lưu trữ dữ liệu của Gemini Enterprise

Gemini Enterprise là giải pháp AI toàn diện từ Google, giúp tối ưu hóa quy trình làm việc thông qua việc tự động hóa và hỗ trợ ra quyết định dựa trên dữ liệu thời gian thực. Bằng cách kết hợp Big Data và Machine Learning, hệ thống có khả năng dự báo xu hướng và quản lý rủi ro hiệu quả. Điểm ưu việt của Gemini Enterprise nằm ở khả năng tập trung hóa dữ liệu: Thông qua các trình kết nối (connectors) thông minh, dữ liệu từ Google và các nguồn bên thứ ba được thu thập và lưu trữ đồng bộ. Việc hội tụ nguồn lực thông tin này chính là chìa khóa giúp doanh nghiệp tối ưu hóa khả năng tìm kiếm, phân tích sâu và dự báo chính xác các xu hướng thị trường. Bài viết dưới đây, Cloud Ace sẽ cung cấp cho doanh nghiệp cái nhìn tổng quan về các trình kết nối này.

Data Store

Mỗi nguồn dữ liệu sẽ hỗ trợ một hệ thống các entity types chuyên biệt. Ví dụ với Jira Cloud, các thành phần như issues, attachments, comments, và worklogs là những entities đặc thù duy nhất của nguồn này. Gemini Enterprise sẽ thiết lập mộtkho dữ liệu độc lập cho từng entity. Do đó, khi thực hiện khởi tạo qua Google Cloud console, hệ thống sẽ tự động thiết lập một tập hợp các data stores tương ứng, đại diện cho toàn bộ các dữ liệu đã được thêm vào.

Các khái niệm liên quan khác

Data Federation vs Ingestion:

Data Federation là việc truy xuất thông tin trực tiếp từ nguồn dữ liệu mà không cần sao chép vào Vertex AI Search index, người dùng không cần phải lo lắng về dung lượng lưu trữ, nhưng có nhược điểm là chất lượng tìm kiếm có thể thấp hơn.
Data Ingestion: sẽ sao chép dữ liệu vào Vertex AI Search index, giúp cải thiện chất lượng tìm kiếm, nhưng quá trình này sẽ tiêu tốn nhiều không gian lưu trữ và thời gian hơn.

Structure data vs Unstructure data:

Tùy thuộc vào định dạng của nội dung trong entities, Vertex AI Search sẽ tạo ra kho dữ liệu tương ứng. Định dạng phi cấu trúc (như PDF, HTML, DOCX, XLSX...) sẽ tạo ra kho dữ liệu phi cấu trúc, trong khi định dạng có cấu trúc sẽ tạo ra kho dữ liệu có cấu trúc

Data schemas:

Đây là thành phần định nghĩa cấu trúc của dữ liệu. Hệ thống có thể tự động nhận diện lược đồ khi người dùng nhập dữ liệu có cấu trúc vào, hoặc người dùng có thể tự định nghĩa lược đồ này thông qua API.

Data Sync:

Đây là quá trình thực hiện việc trích xuất và cập nhật liên tục các identity data (như roles, permissions, và users) cùng với các entity data (các dữ liệu đặc thù liên quan đến một nguồn dữ liệu nhất định) từ original data source.

Các kho dữ liệu của Gemini Enterprise vận hành theo 2 hình thức chính:

Full sync (Đồng bộ toàn phần): Quá trình này ghi lại toàn bộ trạng thái hiện tại của ứng dụng hoặc dịch vụ bên thứ ba, bao gồm tất cả các thay đổi (thêm, sửa, xóa) . Full sync sẽ thay thế hoàn toàn nội dung hiện có trong data store.
Incremental sync (Đồng bộ gia tăng): Chỉ cập nhật định kỳ các entity data đã được thêm hoặc chỉnh sửa kể từ lần đồng bộ cuối cùng. Lưu ý, phương thức này không đồng bộ identity data hoặc các lệnh xóa của entity data.

Đối với phân loại lịch trình đồng bộ (Full Sync), doanh nghiệp có thể thiết lập lịch trình riêng biệt cho các loại dữ liệu sau:

Entity sync: Tập trung thu thập dữ liệu đặc thù từ nguồn dữ liệu thứ ba. Ví dụ: một data store cho hệ thống Jira có thể đồng bộ các issues, worklogs, comments, và attachments. Entity sync không bao gồm các thông tin về định danh.
Identity sync: Dành riêng cho việc thu thập dữ liệu về tài khoản người dùng được liên kết với một nhóm ACL (Access Control List).

Sync schedules

Đối với mỗi kho dữ liệu, người dùng có thể lựa chọn tần suất cho các loại hình đồng bộ khác nhau:

Full sync cho toàn bộ identity data và entity data có thể được lập lịch đồng thời với các mốc: 3 giờ, 6 giờ, 12 giờ, 1 ngày, hoặc 3 ngày một lần.

Independent full sync (đồng bộ toàn phần độc lập) cho identity data và entity data có thể được lập lịch riêng biệt với các tần suất tùy chỉnh sau:

Entity data: Mỗi 3 giờ, 6 giờ, 12 giờ, 1 ngày, 3 ngày, 5 ngày, và mỗi 7 ngày.
Identity data: Mỗi 30 phút, 1 giờ, 3 giờ, 6 giờ, 12 giờ, 1 ngày, 3 ngày, 5 ngày, và mỗi 7 ngày.

Đối với Incremental sync (đồng bộ gia tăng) cho các entity data được cập nhật hoặc thêm mới có thể được lập lịch mỗi 3 giờ, 6 giờ, 12 giờ, 1 ngày, 3 ngày, 5 ngày, hoặc mỗi 7 ngày. Theo mặc định, quá trình này sẽ được thực hiện định kỳ 3 giờ một lần.

Trước khi kết nối một nguồn dữ liệu bên thứ ba vào Gemini Enterprise, người dùng cần kiểm tra

Phân quyền và Phạm vi (Scopes & Permissions): Quản trị viên cần cấu hình các scopes và thông tin xác thực (credentials) tương ứng để thiết lập quyền truy cập hệ thống bên thứ ba.
Kiểm soát Truy cập (Access Control): Thiết lập cơ chế quản lý danh tính và quyền hạn chặt chẽ cho từng data store.
Phương thức xử lý Dữ liệu: Xác định mô hình triển khai theo hướng liên kết (federated) hay nạp/lập chỉ mục (ingested/indexed).
Tối ưu Tài nguyên (Ingestion): Đảm bảo hạn mức tài nguyên (quotas) của tài khoản người dùng đủ đáp ứng quy trình nạp dữ liệu.
Lịch trình Đồng bộ (Data Syncs): Thiết lập tần suất cập nhật dữ liệu phù hợp với nhu cầu vận hành của doanh nghiệp.
Mã hóa Dữ liệu (CMEK): Nếu sử dụng CMEK, phải khởi tạo đầy đủ các khóa đơn khu vực (single-region) và đa khu vực (multi-region) cho các data stores.
Bảo mật PII: Thiết lập các biện pháp chống rò rỉ thông tin định danh cá nhân (PII) khi kích hoạt tính năng autocomplete cho tìm kiếm.