Asset 15

Hợp Nhất Dữ Liệu Với Analytic Lakehouse Của Google Cloud

Asset 15

Trong việc phân tích dữ liệu, các doanh nghiệp thường lựa chọn các giải pháp khác nhau tuỳ trường hợp sử dụng như: data warehouse cho việc lưu trữ và phân tích dữ liệu cấu trúc thường được dùng cho báo cáo và BI, data lake áp dụng cho dữ liệu phi cấu trúc và bán cấu trúc, chủ yếu được dùng để khám phá, Machine Learnng workload. Tuy nhiên, việc vận hành và quản lý kiến trúc này tốn nhiều thời gian, công sức vì vậy Google Cloud đã cho ra mắt Analytic Lakehouse để giải quyết các vấn đề trên. Cloud Ace sẽ làm rõ qua bài viết dưới đây.

Analytic Lakehouse của Google Cloud

Google Analytic Lakehouse là sự kết hợp giữa data warehouse và data lake mà doanh nghiệp không cần phải trả thêm chi phí để sử dụng cả 2. Kiến trúc này cho phép doanh nghiệp trích xuất dữ liệu real-time, bất kể dữ liệu đang nằm trên cloud hay bất cứ data warehouse nào, và sử dụng nó để có cái nhìn tổng quát về insight, trí tuệ nhân tạo AI, khả năng quản trị và truy cập giữ các nhóm.

Analytic Lakehouse của Google Cloud

Bằng cách phá vỡ rào cản giữa data sources và serverless architectures (kiến trúc không máy chủ), dưới đây là demo kiến trúc analytic lakehouse nhằm đơn giản hoá trải nghiệm, giảm rủi ro và chi phí:

Google's Analytic Lakehouse

Điều gì tạo nên sự khác biệt của Google Analytic Lakehouse ?

Google Analytic Lakehouse được xây dựng trên các dịch vụ đáng tin cậy của Google như:  Cloud Storage, BigQuery, Dataflow, Looker, Vertex AI, etc. Tận dụng độ bền và khả năng mở rộng của Google Cloud, Google cho phép doanh nghiệp tăng tốc độ đổi mới với nền tảng dữ liệu mở, thống nhất và thông minh. Nền tảng dữ liệu này là cơ sở cho Google's Analytic Lakehouse, giúp làm mờ ranh giới giữa data warehouse và data lakes để cung cấp cho doanh nghiệp cả hai lợi ích. Bao gồm các thành phần:

Ingestion:

Người dùng có thể nhập dữ liệu từ nhiều nguồn khác nhau, nhưng không giới hạn ở real-time streams, thay đổi logs trực tiếp từ hệ thống giao dịch và dữ liệu cấu trúc, bán cấu trúc và phi cấu trúc.

Data Process:

Đầu tiên, dữ liệu được lưu trữ như trong raw zone. Lớp tiếp theo có thể xử lý các hoạt động ETL/ELT điển hình như data cleansing, enrichment, lọc và các phép biến đổi khác trong  enriched zone. Cuối cùng, dữ liệu được tổng hợp cấp và được lưu trữ trong curated layer.

Flexible storage options:

Analytic Lakehouse cho phép người dùng tận dụng open-source storage được quản lý Apache Parquet, Iceberg và BigQuery. Cung cấp cho người dùng các tùy chọn lưu trữ và đáp ứng các nhu cầu của họ.

Data consumption:

Dữ liệu có thể được truy cập trực tiếp từ các ứng dụng BigQuery, Serverless Spark, Apache Beam, BI tools hoặc Machine Learning (ML).

Cung cấp lựa chọn compute platforms với các ứng dụng serverless, các doanh nghiệp có thể tận dụng bất kỳ framework nào đáp ứng nhu cầu của họ.

Mức tiêu thụ dữ liệu không ảnh hưởng đến quá trình xử lý do sự tách biệt hoàn toàn giữa tính toán và lưu trữ. 

Lakehouse cung cấp nền tảng động để mở rộng quy mô cho use cases mới hoặc data-science use cases.

Data Governance:

Data Governance layer cung cấp một nơi để quản lý, giám sát và quản lý dữ liệu trong lakehouse và giúp truy cập vào các công cụ khoa học dữ liệu và phân tích khác nhau một cách an toàn.

Finops:

Google's data cloud có thể tự động điều chỉnh các biến động về nhu cầu và có thể quản lý dung lượng một cách thông minh, vì vậy doanh nghiệp chỉ trả cho mức họ sử dụng. Các khả năng bao gồm tính năng dynamic autoscaling, kết hợp với điều chỉnh phù hợp, giúp tiết kiệm tới 40% dung lượng điện toán đã cam kết dành cho phân tích truy vấn.

Khả năng hỗ trợ định giá linh hoạt của BigQuery cho phép PayPal hợp nhất dữ liệu dưới dạng Lakehouse. Lưu trữ nén cùng với các tùy chọn tự động thay đổi quy mô trong BigQuery, giúp chúng tôi cung cấp các quy trình xử lý dữ liệu có thể mở rộng và sử dụng dữ liệu một cách tiết kiệm chi phí.

Bala Natarajan, VP Enterprise Data Platforms, PayPal 

Tích hợp Machine Learning (ML) vào dữ liệu

Google Cloud cung cấp cloud-native tool để xây dựng analytic lakehouse với các lợi ích về chi phí và hiệu suất đám mây. Với các key topic trong Google Cloud's whitepaper như sau: 

  1. Các tùy chọn lưu trữ và tối ưu hóa khác nhau tùy thuộc vào nguồn dữ liệu và end users.
  2. Một số công cụ điện toán giúp cân bằng lợi ích tốc độ và chi phí theo yêu cầu doanh nghiệp.
  3. Các công cụ BI và ML giúp tối đa hóa giá trị của dữ liệu được lưu trữ trong lakehouse.
  4. Quản trị, đảm bảo sử dụng dữ liệu hiệu quả.

Phân tích nâng cao và AI

BigQuery hỗ trợ phân tích dự đoán thông qua BigQuery ML, và in-database ML để đào tạo machine learning và dự đoán bằng SQL. Nó giúp người dùng phân loại,regression, dự báo chuỗi thời gian, phát hiện bất thường và đề xuất các trường hợp sử dụng.

Doanh nghiệp có thể thực hiện phân tích dự đoán với dữ liệu phi cấu trúc cho hình ảnh và văn bản, tận dụng các dịch vụ mô hình của Google như Vertex Vision, Xử lý ngôn ngữ tự nhiên (Văn bản) và Dịch. Với ML inference engine được tích hợp sẵn của BigQuery, cho phép doanh nghiệp đưa các mô hình của riêng họ vào BigQuery, nhờ đó đơn giản hóa việc tạo đường dẫn dữ liệu. 

61

Generative AI là một công nghệ mạnh mẽ nhưng các doanh nghiệp đang thiếu cách để kích hoạt AI dễ dàng và chuyển từ thử nghiệm sang sản xuất.

Tích hợp với Cloud AI cho Generative AI sẽ nhúng phân tích văn bản với analytic warehouse. Điều này giúp doanh nghiệp có thể  sử dụng AI để sentiment analysis ( phân tích quan điểm), data classification (phân loại dữ liệu), và language translations (dịch ngôn ngữ).

Tìm hiểu thêm về chương trình ưu đãi Google Cloud Platform tại Cloud Ace's Promotion

Cloud Ace - Managed Service Partner của Google Cloud

  • Trụ sở: Tòa Nhà H3, Lầu 1, 384 Hoàng Diệu, Phường 6, Quận 4, TP. HCM.
  • Văn phòng đại diện: Tầng 2, 25t2 Hoàng Đạo Thúy, Phường Trung Hoà, Quận Cầu Giấy, Thành phố Hà Nội.
  • Email: sales.vn@cloud-ace.com
  • Hotline: 028 6686 3323
  • Website: https://vn.cloud-ace.com/

Tin tức liên quan

Shopping Basket
viVietnamese