hive中的索引

2023-09-11 21:56:38

使用索引前的配置

在使用Hive索引之前，需要进行一些配置，以确保索引能够正常工作。以下是一些常见的配置步骤：

Hive配置

在Hive中启用索引功能，需要在Hive配置文件（hive-site.xml）中设置以下属性：

<property>
    <name>hive.index.compact.file.uris</name>
    <value>/user/hive/warehouse/myindex</value>
</property>
<property>
    <name>hive.input.format</name>
    <value>org.apache.hadoop.hive.ql.index.compact.CompactIndexInputFormat</value>
</property>

这些配置用于启用Hive索引和指定索引存储的位置。

HDFS存储索引

需要为Hive索引选择一个HDFS目录来存储索引数据。在上述示例中，/user/hive/warehouse/myindex 是用于存储索引数据的目录。确保此目录存在并且有足够的权限供Hive使用。

表级索引配置

在创建表时，可以选择性地启用表级别的索引。使用TBLPROPERTIES来指定索引的类型和其他配置。例如：

CREATE TABLE my_table (
    ...
)
TBLPROPERTIES (
    'orc.create.index'='true',
    'orc.bloom.filter.columns'='column1,column2'
);

这里示例中启用了ORC文件格式的索引，并指定了哪些列要创建布隆过滤器索引。

Compactor配置

如果使用了紧凑索引（Compact Index），则需要配置Compactor来定期合并和优化索引。Compactor是一个独立的工具，用于管理索引的合并和清理。需要设置相关的Compactor属性以控制其行为和调度。

<property>
    <name>hive.compactor.initiator.on</name>
    <value>true</value>
</property>
<property>
    <name>hive.compactor.worker.threads</name>
    <value>1</value>
</property>

这些配置用于启用和配置Compactor。

hive中使用索引

创建索引

Hive中创建索引的语法如下：

CREATE INDEX index_name ON table_name (column_name);

例如，要创建一个名为index_name的索引，该索引在表table_name的column_name列上，可以使用以下语句：

CREATE INDEX index_name ON table_name (column_name);

使用索引后，Hive将在扫描表时使用索引。这可以提高查询的效率。

以下是一些使用Hive索引的注意事项：

索引只会在查询使用索引列时生效。
索引会增加表的大小。
索引需要定期更新，以确保其与表数据保持一致。

在决定是否使用Hive索引时，需要权衡索引带来的性能提升和成本。

以下是一些创建Hive索引的示例：

-- 创建一个名为`index_name`的索引，该索引在表`table_name`的`column_name`列上。
CREATE INDEX index_name ON table_name (column_name);

-- 创建一个名为`index_name`的索引，该索引在表`table_name`的`column_name`列上，并使用`COMPACT`索引处理器。
CREATE INDEX index_name ON table_name (column_name) AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler';

-- 创建一个名为`index_name`的索引，该索引在表`table_name`的`column_name`列上，并延迟重建索引。
CREATE INDEX index_name ON table_name (column_name) WITH DELAYED REBUILD;

哪些情况下会使用索引

等值查询：当你需要通过等值条件来过滤数据时，索引可以大幅提高查询性能。例如，当你使用WHERE子句来查找某个特定的值时，如果有适当的索引，Hive可以快速地定位到匹配的行。
范围查询：索引还可以用于加速范围查询，例如，当你需要在一个范围内检索数据时，可以使用索引来快速定位匹配的行。
排序和分组：在执行排序和分组操作时，索引可以提高性能。索引可以帮助Hive在执行这些操作时更有效地访问和组织数据。
连接操作：当你执行连接操作（如INNER JOIN、LEFT JOIN等）时，如果连接的列有索引，可以显著提高查询性能，因为索引可以减少数据的扫描和比较次数。
唯一性约束：索引可以用于强制列的唯一性约束，以防止重复数据的插入。
加速子查询：如果你在查询中使用子查询，索引可以提高子查询的性能，从而加速整个查询的执行。

hive中的索引有哪些结构

Hive中的索引主要有以下几种结构:

基于Compact Index的索引

Compact Index是Hive中默认的索引结构,可以大大加速查询速度。它将索引数据存储在HDFS文件中,使用MapReduce进行构建。

基于BitMap的索引

BitMap索引使用位图的方式表示哪些数据符合条件,查询性能很高。但仅适用于有少量不同值的列,且适合低基数数据。

位图索引是基于位运算的索引，可以用于快速过滤具有有限取值范围的列。位图索引的实现原理如下：

将列中的所有取值映射到一个位图中。
位图中的每一位表示列中的某个取值是否存在。
在查询时，使用位运算来快速过滤符合条件的行。

例如，假设有一个列名为 gender，取值为 male 和 female。我们可以将 gender 映射到两个位图中，male 位图中的每一位表示 male 是否存在，female 位图中的每一位表示 female 是否存在。

在查询时，如果查询条件为 gender = 'male'，则可以使用位运算 & 来快速过滤符合条件的行。& 运算会将两个位图中对应位置的位进行相与运算。如果结果为 1，则表示该行符合条件。

位图索引适合用于以下场景：

列的取值范围有限，例如 gender、marital_status 等。
查询条件中涉及多个列，并且这些列的取值范围有限，例如 gender = 'male' AND age >= 18。

位图索引可以提高查询速度，但也会增加存储空间。因此，在使用位图索引时，需要根据实际需求进行权衡。

以下是位图索引的优缺点：

优点：

可以提高查询速度，尤其是对于包含多个条件的查询。
可以使用位运算来进行快速的逻辑运算。

缺点：

会增加存储空间。
不适合用于具有大量取值的列。
不适用于具有连续取值的列。

基于Lucene的索引

Lucene索引基于全文搜索引擎Lucene构建,可以对文本进行全文索引。查询速度快且支持模糊查询等。

基于HBase的索引

将Hive表的数据存储在HBase中,利用HBase的快速随机访问优化查询。但需要保证HBase中的数据与Hive中的数据实时同步。

基于Druid的索引

Druid是一个实时分析数据库,可用于对Hive中的海量数据进行实时分析。它具有高性能的聚合和近实时的OLAP分析功能。

此外,Hive还支持使用自建索引,用户可以根据需要自定义索引的结构和工作机制。选择合适的索引结构对优化Hive查询性能至关重要。

9月21日，每日信息差

今天是2023年9月21日，以下是为您准备的14条信息差第一、谷歌高管已经广泛讨论了在2027年之前将博通作为人工智能芯片供应商的可能性第二、清华系团队宣布研发出千亿参数“制药版ChatGPT”，覆盖药物立项、临床前研究、临床试验的各阶段，作为制药专家的得力AI助手，提升药物研发效率。团队还发布了全球首个千亿参数多模态

单元测试(基于安卓项目)总结

前言：负责公司的单元测试体系的搭建，大约有一两个月的时间了，从最初的框架的调研，到中期全员的培训，以及后期对几十个项目单元测试的引入和推进，也算是对安卓的单元测试有了一些初步的收获以及一些新的认知，因此写下这篇文章来进行一个记录和总结。以下的所有内容纯属个人观点，欢迎讨论。一.单元测试标准1.测试维度单元测试有很多维度

百分点科技跻身中国智慧应急人工智能解决方案市场前三

近日，全球领先的IT市场研究和咨询公司IDC发布了《中国智慧应急解决方案市场份额，2022》报告，数据显示，2022年中国智慧应急整体市场为104亿元人民币。其中，智慧应急人工智能解决方案子市场备受关注，百分点科技以10%的市场份额居该市场第三。报告指出，从数字技术应用上看，技术之间融合以及技术与场景的融合应用成为可见

Ae 效果：CC Kernel

颜色校正/CCKernelColorCorrection/CCKernelCCKernel（CC卷积核）效果主要用于图像的卷积处理，通过在卷积矩阵中设置不同的权重值，可以实现图像的锐化Sharpen、模糊Blur、查找边缘FindEdges以及浮雕Emboss等效果。◆◆◆效果原理说明卷积矩阵ConvolutionMa

【英杰送书第三期】Spring 解决依赖版本不一致报错 | 文末送书

Yan-英杰的主悟已往之不谏知来者之可追C++程序员，2024届电子信息研究生目录问题描述报错信息如下报错描述解决方法总结【粉丝福利】【文末送书】目录：本书特色：问题描述报错信息如下Description:Anattemptwasmadetocallamethodthatdoesnotexist.Theattemptw

公司内部网段太多，管控混乱，该如何规范跨网文件传输交换？

在当今的信息化时代，文件传输交换是企业日常工作中不可或缺的一项功能。无论是内部员工之间，还是与外部合作伙伴之间，都需要频繁地进行文件的发送、接收、共享和协作。然而，由于企业内部网段的复杂性和多样性，以及数据安全和合规性的要求，跨网文件传输交换往往面临着诸多的困难和挑战。公司内部网段太多，管控混乱可能造成的问题企业内部网

【UE5 C++ 學習日志】01. UEnhancedInput

UE5提供了一種對複雜輸入處理或運行時重新映射按鍵增强輸入插件。此插件向上兼容UE4的默認輸入系統，并可以實現径向死区、同时按键、上下文输入和优先级安排等多種功能。核心概念：（1）InputActions：InputAction代表角色需要做出的任意動作，例如跳躍或攻擊等等。同時還可以代表輸入的狀態，例如按鍵按下時保持

hive中的索引

使用索引前的配置

Hive配置

HDFS存储索引

表级索引配置

Compactor配置

hive中使用索引

创建索引

哪些情况下会使用索引

hive中的索引有哪些结构

基于Compact Index的索引

基于BitMap的索引

基于Lucene的索引

基于HBase的索引

基于Druid的索引

更多推荐

9月21日，每日信息差

手机快充协议

单元测试(基于安卓项目)总结

第八篇-Tesla P40+ChatGLM2+LoRA

百分点科技跻身中国智慧应急人工智能解决方案市场前三

Gradio-YOLOv5-YOLOv7 搭建Web GUI

Ae 效果：CC Kernel

【英杰送书第三期】Spring 解决依赖版本不一致报错 | 文末送书

【计算机视觉|人脸建模】深度学习时代的3D人脸重建调查报告

公司内部网段太多，管控混乱，该如何规范跨网文件传输交换？

【UE5 C++ 學習日志】01. UEnhancedInput

热文推荐

【日记】文章更新计划

好用的一站式MES系统有哪些？全面管理生产流程,实现工厂数字化转型

操作系统权限提升(二十七)之数据库提权-MySQL MOF提权

百度SEO不稳定的原因及解决方法（百度SEO不稳定因素的5大包括）

day06_Java中的流程控制语句

SpringMvc决战-【SpringMVC之自定义注解】

CSAPP的Lab学习——CacheLab

MyBatis友人帐之ResultMap及分页

OpenCV自学笔记十七：傅里叶变换