Apache hive là gì
Yahoo bước đầu làm việc với PIG (sẽ nói sau) cho những triển khai ứng dụng của mình trên Hadoop. Mục tiêu của Yahoo để cai quản dữ liệu không cấu trúc. Tương tự, Facebook ban đầu triển khai các phương án kho dữ liệu (warehouse) của mình trên Hadoop với HIVE. Nguyên nhân chọn dùng HIVE là chính vì các chiến thuật kho dữ liệu (warehouse) truền thống rất đắc.
Bạn đang xem: Apache hive là gì
HIVE là gì?
Hive là hạ tầng kho dữ liệu cho Hadoop. Nhiệm vụ chính là cung cấp cho sự tổng hòa hợp dữ liệu, truy nã vấn và phân tích. Nó cung ứng phân tích những tập tài liệu lớn được lưu trong HDFS của Hadoop tương tự như trên Amazon S3. Điểm giỏi của HIVE là cung ứng truy xuất như là SQL đến tài liệu có cấu trúc, được biết thêm với thương hiệu HiveSQL (hoặc HQL) cũng tương tự phân tích big data cùng với MapReduce. Hive không được gây ra để trả lời nhanh các câu truy nã vấn tuy thế nó được xây dựng cho các ứng dụng khai quật dữ liệu (data mining). Những ứng dụng khai quật dữ liệu hoàn toàn có thể mất nhiều phút đến những giờ nhằm phân tích dữ liệu và HIVE được dùng chủ yếu.
Cách tổ chức của HIVE
Dữ liệu được tổ chức triển khai thành 3 định dạng trong HIVE.
Tables: chúng khá tương tự như bảng (tables) vào RDBMS và chứa các dòng (rows). Hive chỉ được xếp lớp trên HDFS, cho nên vì thế tables được ánh xạ trực tiếp vào các thư mục của hệ thống tập tin. Nó cũng cung ứng các tables được giữ trên các khối hệ thống tập tin khác.
Partitions: Hive tables tất cả thể có nhiều hơn 1 partition. Bọn chúng được ánh xạ với các thư mục con và các hệ thống tập tin.
Xem thêm: Roller Coaster Là Gì ? Đây Là Một Thuật Ngữ Kỹ Thuật Và Công Nghệ
Buckets: vào Hive, dữ liệu hoàn toàn có thể được tạo thành các buckets. Buckets được tàng trữ như các tập tin trong partition trong khối hệ thống tập tin.
Hive cũng có metastore để lưu toàn bộ metadata. Nó là cơ sở dữ liệu quan hệ đựng thông tin khác biệt liên quan cho Hive Schema (column types, owners, key-value data, statistics,…). Bạn có thể dùng MySQL cho vấn đề này.
HiveSQL (HQL) là gì?
Ngôn ngữ truy vấn Hive cung ứng các toán tử cơ phiên bản giống SQL. Đây là một trong những tác vụ nhưng mà HQL có thể làm dễ dàng dàng.
Xem thêm: Khám Phá Nét Đặc Trưng Của Văn Hóa Ẩm Thực Miền Trung, Am Thuc Mien Trung, Đặc Sắc Ẩm Thực Miền Trung
Đây là ví dụ như truy vấn HQL:
SELECT upper(name), salesprice FROM sales; SELECT category, count(1) FROM products GROUP BY category;