Asset 15

Giới thiệu Google Cloud Hive-BigQuery Open-Source Connector

Asset 15

Di chuyển kho dữ liệu đám mây là một quy trình phức tạp nhưng mang lại nhiều lợi ích về chi phí, bảo mật, khả năng mở rộng, etc. Nhằm tăng tốc độ cho việc di chuyển, Google Cloud đã giới thiệu trình kết nối mã nguồn mở Hive-BigQuery. Hãy cùng Cloud Ace tìm hiểu nhé.

Hive-BigQuery Connectors

Google Cloud Hive-BigQuery Connectors ?

Trình kết nối Hive-BigQuery triển khai API Hive StorageHandler, cho phép Hive workloads tích hợp với các bảng BigQueryBigLake. Trong khi các công cụ thực thi của Hive đang xử lý tất cả các hoạt động điện toán, thì trình kết nối quản lý tất cả các tương tác với lớp dữ liệu trong BigQuery, cho dù là dữ liệu cơ bản được lưu trữ trong bộ lưu trữ gốc BigQuery hay trong bộ chứa Cloud Storage thông qua kết nối BigLake.

Apache Hive là một trong những kho dữ liệu nguồn mở phổ biến nhất và cung cấp giao diện như SQL để truy vấn dữ liệu. Nhờ trình kết nối mới này, Hive tích hợp với các giải pháp lưu trữ gốc như BigQuery, giúp đơn giản hóa quá trình di chuyển.

Lợi ích Data Clean Room

Google Cloud cung cấp Dịch vụ BigQuery Migration như một giải pháp toàn diện để đẩy nhanh quá trình di chuyển từ kho dữ liệu Hive sang BigQuery. Gồm các công cụ miễn phí như đánh giá và lập kế hoạch, truyền và xác thực dữ liệu.

Hai trong số các công cụ đó, BigQuery batch SQL translatorinteractive SQL translator, cho phép người dùng dịch các truy vấn Hive sang cú pháp SQL tuân thủ ANSI của BigQuery để có thể chạy các truy vấn đó.

Trình kết nối Hive-BigQuery mới cung cấp một tùy chọn bổ sung: Người dùng có thể giữ các truy vấn ban đầu bằng phương ngữ HiveQL, tiếp tục chạy các truy vấn đó bằng Hive execution engine nhưng phải để các truy vấn đó truy cập vào dữ liệu được di chuyển sang các bảng BigQueryBigLake.

Trình kết nối Hive-BigQuery đã đóng một vai trò quan trọng trong việc cho phép các truy vấn dữ liệu BigQuery từ Hive, vì Hive là công cụ truy vấn chính trên kho dữ liệu của chúng tôi. Sự tích hợp này đã cung cấp cho Flipkart sự linh hoạt để sử dụng các công cụ truy vấn nhanh như BigQuery mà không cần sao chép dữ liệu hoặc silo trên các kho dữ liệu khác nhau.

Venkata Ramana Gollamudi, Principal Architect, Flipkart; Apache Committer

Tính năng

Chạy truy vấn với công cụ thực thi MapReduce và Tez

Tạo và xóa các bảng BigQuery khỏi Hive.

Đọc nhanh các bảng BigQuery bằng Storage Read API streams và định dạng Apache Arrow 

Hai phương pháp ghi dữ liệu vào BigQuery:

  • - Ghi trực tiếp nhờ  BigQuery Storage Write API in pending mode. Phương pháp này có độ trễ thấp, bảng điều khiển gần như real-time, cửa sổ thời gian làm mới ngắn.
  • - Ghi gián tiếp nhờ sắp xếp các tệp Avro tạm thời vào Lưu trữ đám mây, sau đó tải các tệp đó bằng Load Job API. Phương pháp này rẻ hơn so với trực tiếp, vì các tác vụ tải BigQuery  miễn phí. Tuy nhiên, tốc độ chậm hơn nên chỉ được sử dụng cho workloads không quan trọng về thời gian.

Truy cập các bảng được nhóm và phân vùng theo thời gian của BigQuery.

Cắt tỉa cột để tránh truy xuất các cột không cần thiết từ lớp dữ liệu

Định vị để lọc trước các hàng dữ liệu ở lớp lưu trữ BigQuery. Giúp giảm lượng dữ liệu đi qua mạng và cải thiện hiệu suất truy vấn tổng thể.

Tự động chuyển đổi loại dữ liệu Hive sang loại dữ liệu BigQuery.

Đọc chế độ xem BigQuery và ảnh chụp nhanh bảng

Tìm hiểu thêm về chương trình ưu đãi Google Cloud Platform tại Cloud Ace's Promotion

Cloud Ace - Managed Service Partner của Google Cloud

  • Trụ sở: Tòa Nhà H3, Lầu 1, 384 Hoàng Diệu, Phường 6, Quận 4, TP. HCM.
  • Văn phòng đại diện: Tầng 2, 25t2 Hoàng Đạo Thúy, Phường Trung Hoà, Quận Cầu Giấy, Thành phố Hà Nội.
  • Email: sales.vn@cloud-ace.com
  • Hotline: 028 6686 3323
  • Website: https://vn.cloud-ace.com/

Tin tức liên quan

Shopping Basket
viVietnamese