Asset 15

Giới Thiệu Google Cloud Data Lakehouse

Asset 15

Doanh nghiệp luôn tìm kiếm các giải pháp lưu trữ phù hợp với các yều cầu về khối lượng, độ trễ, khả năng phục hồi và quyền truy cập của big data. Đa phần các tổ chức thường sử dụng Data Warehouse hay Data Lake cho từng mục tiêu lưu trữ của mình tuy nhiên việc này khiến phần lớn doanh nghiệp có khả năng tăng thêm chi phí lưu trữ. Vì vậy Google Cloud đã cho ra mắt giải pháp Data Lakehouse nhằm giải quyết các khó khăn của doanh nghiệp. hãy cùng Cloud Ace tìm hiểu nhé.

Google Cloud Data Lakehouse là gì?

Là một kiến trúc quản lý dữ liệu mở kết hợp với các thế mạnh giữa data lake (kho lưu trữ dữ liệu thô ban đầu ) và data warehouse ( kho lưu trữ dữ liệu lịch sử đã được cấu trúc). 

Data Lakehouse cho phép các doanh nghiệp lưu trữ lượng lớn dữ liệu thô với chi phí thấp đồng thời cung cấp các chức năng quản lý và giao dịch AICD, kích hoạt business intelligence (BI) và machine learning (ML) trên tất cả dữ liệu.

Data Lakehouse vs. Data Lake vs. Data Warehouse

Data Warehouse

Mục tiêu: Lưu trữ cho mục tiêu phân tích quyết định kinh doanh.

Nhiệm vụ: Cung cấp các quyền truy cập nhanh vào dữ liệu, thường các truy vấn dùng để tổng hợp và tóm tắt dữ liệu.

Kích cỡ: Chỉ lưu trữ dữ liệu liên quan đến phân tích.

Hạn chế: Tính linh hoạt của việc truy cập dữ liệu và có thể tăng chi phí nếu dữ liệu cần được di chuyển để sử dụng trong tương lai. 

Data Lake

Mục tiêu: Lưu trữ tất cả dữ liệu của doanh nghiệp dưới dạng thô.

Nhiệm vụ: Lưu trữ và phân tích dữ liệu lớn, phục vụ cho các hoạt động máy học và AI như deep learning và phân tích real-time.

Kích cỡ: Lưu trữ tất cả dữ liệu có thể được sử dụng - có thể chiếm tới hàng petabyte.

Hạn chế: Số người sử dụng do yêu cầu kỹ năng chuyên môn cao, truy vấn real-time khó khăn do dữ liệu chưa được xử lý.

Data Lakehouse

Mục tiêu: Tổng hợp tất cả các dạng dữ liệu và đóng vai trò như nguồn dữ liệu tối ưu cho doanh nghiệp.

Nhiệm vụ: Có thể được sử dụng cho các nhu cầu BI/Analytic hoặc ML và AI của doanh nghiệp.

Kích cỡ: Lưu trữ tất cả dữ liệu có thể được sử dụng như data lake.

Hạn chế: Dữ liệu đầu vào phải được đảm bảo lưu trữ theo 1 định dạng nhất định, và việc xây dựng khá phức tạp.

Asset 15

Các tính năng chính

  • 🔹Lưu trữ linh hoạt với chi phí thấp cho tất cả các loại dữ liệu (có cấu trúc, không cấu trúc và bán cấu trúc).
  • 🔹Các tính năng quản lý dữ liệu nhằm áp dụng các lược đồ, thực thi quản trị và cung cấp các quy trình ETL, làm sạch dữ liệu.
  • 🔹Hỗ trợ giao dịch cho các thuộc tính ACID nhằm đảm bảo tính nhất quán khi nhiều người dùng đồng thời đọc và ghi dữ liệu.
  • 🔹Các định dạng lưu trữ được tiêu chuẩn hóa có thể được áp dụng cho các chương trình khác.
  • 🔹End-to-end Streaming: hỗ trợ nhập dữ liệu theo thời gian thực và tạo thông tin chuyên sâu.
  • 🔹Tách biệt các tài nguyên điện toán và lưu trữ nhằm đảm bảo khả năng mở rộng cho các công việc khác nhau.
  • 🔹Tích hợp trực tiếp với các ứng dụng BI vào dữ liệu nguồn trong Lakehouse để giảm trùng lặp dữ liệu. 

Lợi ích của Data Lakehouse trên GCP

Simplified architecture

Loại bỏ các kho lưu trữ của hai nền tảng riêng biệt, doanh nghiệp chỉ phải tập trung vào việc quản lý và duy trì một kho lưu trữ dữ liệu duy nhất.

Các công cụ được kết nối trực tiếp với dữ liệu nguồn.

Better data quality 

Thực thi các lược đồ cho dữ liệu có cấu trúc và đảm bảo tính toàn vẹn và nhất quán.

Ngoài ra, Lakehouse còn giảm thời gian cung cấp, cập nhật dữ liệu mới, đảm bảo dữ liệu được truy cập theo thời gian thực.

Lower costs

Lưu trữ khối lượng dữ liệu khổng lồ với chi phí thấp và loại bỏ nhu cầu duy trì cả data warehouse và data lake.

Date lakehouse cũng giúp giảm chi phí từ các quy trình ETL và loại bỏ trùng lặp. 

Increased reliability

Giảm việc truyền dữ liệu ETL giữa nhiều hệ thống, giảm nguy cơ xảy ra các vấn đề về chất lượng hoặc kỹ thuật có thể xảy ra khi di chuyển dữ liệu. 

Improved data governance

Dữ liệu và tài nguyên được hợp nhất ở một nơi giúp việc triển khai, kiểm tra và cung cấp các biện pháp kiểm soát quản trị và bảo mật dễ dàng hơn.

Reduced data duplication

Data lakehouse đóng vai trò như một nguồn dữ liệu duy nhất có thể được chia sẻ trong toàn doanh nghiệp, nhằm hỗ trợ khả năng quyết định, ngăn chặn sự mâu thuẫn và chi phí lưu trữ gia tăng do trùng lặp dữ liệu gây ra.

Diverse workloads

Doanh nghiệp có thể kết nối trực tiếp nhiều công cụ với Lakehouse để hỗ trợ việc phân tích, SQL, ML/AI từ cùng một kho lưu trữ.

High scalability

Doanh nghiệp có thể tách riêng các hoạt động điện toán khỏi bộ lưu trữ nhằm tăng khả năng mở rộng tức thời. Doanh nghiệp có thể mở rộng tính toán và lưu trữ riêng biệt tùy theo nhu cầu kinh doanh.

Tìm hiểu thêm về chương trình ưu đãi Google Cloud Platform tại Cloud Ace's Promotion

Cloud Ace - Managed Service Partner của Google Cloud

  • Trụ sở: Tòa Nhà H3, Lầu 1, 384 Hoàng Diệu, Phường 6, Quận 4, TP. HCM.
  • Văn phòng đại diện: Tầng 2, 25t2 Hoàng Đạo Thúy, Phường Trung Hoà, Quận Cầu Giấy, Thành phố Hà Nội.
  • Email: sales.vn@cloud-ace.com
  • Hotline: 028 6686 3323
  • Website: https://vn.cloud-ace.com/

Tin tức liên quan

Shopping Basket
viVietnamese