在Apache Hive中轻松生存的12个技巧

Hive并不像关系型数据库那样执行SQL查询。我在Hive上花费了大量时间，光是我自己在工作中就为了优化它花费了超过80个小时。不说你也知道，我就像呆在蜂巢(Hive)旁边一样脑袋嗡嗡作响。所以，为了让你免受这种痛苦，我决定将它们写出来，以便让你在你的下一个 Hive 项目中逃离这种折磨。

工具/原料

MapReduce

SQL

Parquet

ORC

方法/步骤

不要使用 MapReduce不以在脚本前面写上 set hive.execution.engine=tez ;用 Cloudera 的话，使用 Impala。如果 Impala 不适用的话，我希望到时候[2]可以使用 hive.execut管你是不是觉得 Tez、Spark 或 Impala 能行，但是不要指望 MapReduce。它本身就很慢，比 Hive 还慢。如果你用的是Hortonwork的版本，你可ion.engine=spark 。

不要在 SQL 中做字符串匹配绝不要，特别是在 Hive 中!如果你坚持要在 WHERE 语句中使用 LIKE 匹配，就会产生一个跨产品的警告。本来你的查询可能只用几秒钟，但是使用字符串匹配的话就会变成几分钟。最好的办法是使用那些可以在 Hadoop 中进行搜索的工具，可以试试 Elasticsearch 的 Hive 集成版本[3] 或 Lucidwork 的 Solr[4]，以及 ClouderaSearch[5]。关系型数据库这方面表现并不好，但是 Hive 则更糟糕。

不要用表连接子查询你最好创建一个临时表，然后对这个临时表进行连接，而不是让 Hive 自己智能处理子查询。即不要这样做：

使用 Parquet 或 ORC，但是不要转换使用也就是说，使用 Parquet 或 ORC 而不要用 TEXTFILE。然而，如果你要把文本数据中导入到更具结构性的数据中，应该做一些转换再导入到目标表中。你不应该用 LOAD DATA 将文本文件加载到 ORC 中，而是应该将其加载到一个文本中。如果你要创建另外一个表，并最终大多数分析都是对它进行的，那么你就该对该表进行 ORC 化，因为转换到 ORC 或 Parquet 要花费很多时间，并不值得将其放到你的 ETL 处理中。如果你有一个简单的普通文本要导入，也没做过任何优化，你应该将其加载到一个临时表并通过 select create 放到 ORC 或 Parquet 中。不过，这有点慢。

开关矢量化试试在你的脚本前面加上 set hive.vectorized.execution.enabled = true 和sethive.vectorized.execution.reduce.enabled = true ，然后试着打开或关闭它们看看。因为最近版本的 Hive 的矢量化有点问题。

不要在表连接中使用 structs我必须承认我大脑里面的 SQL 格式还是 SQL-92 时代的，所以我无论如何都不会想到去用 structs[6]。但是如果你做一些超级复杂的操作，比如在联合主键上使用 ON 语句，那么 structs 就很方便。不幸的是，Hive 对它们很不适应，特别是在 ON 语句上。当然，大多数情况下，在较小的数据集和 yields 下是没错误的。在 Tez 里面，你会得到一个有趣的矢量错误。这个限制并未见于我所知的任何文档，也许这是一个探索你的执行引擎内部的好办法。

检查你的容器大小你也许需要为 Impala[7] 或 Tez[8]增加你的容器大小。如果有你的节点大小比较大，“推荐的”容器大小可能就不适用于你的系统。你也许需要确保你的 YARN 队列和常规的 YARN 内存大小合适。你也许应该注意默认的队列并不适合[9]所有的常规使用。

启用统计Hive 在表连接时会做一些蠢事[10]，除非启用了统计[11]。你也可以在 Impala 中使用查询提示[12]。

考虑 MapJoin 优化[13]如果你分析你的查询，你可能发现最新的 Hive 已经可以足够智能地进行自动优化了。但是你也许需要再调整一下。

如果可以，将大表放到最后[14]如标题。

分区总会帮到你，不管多少如果你有一个出现在许多地方的东西，比如语句中的日期(但不是日期范围)或重复的地点，你也许应该做分区。分区的基本意思是“拆分到它自己的目录里面”，而不是到一个大的文件中去查找。当你在你的 join/where 语句中仅检索 location=’NC’这样一个小数据集时，Hive 就可以在一个文件中查找。此外，和列值不同，你可以在你的 LOAD DATA 语句中加上分区。另外，要记住，HDFS 并不喜欢小文件[15]。

使用哈希进行列比较如果你要在每个查询中比较同样的10个字段，可以考虑使用 hash() 来比较它们的校验值。在一个输出表中展示它们也许很有用。注意，在 Hive 0.12 中，哈希功能比较差，0.13中的哈希更好一些。

注意事项

不要在 SQL 中做字符串匹配

上一篇：如何对租户登录HIVE密码进行认证

下一篇：如何执行hive脚本

欧尼酱

在Apache Hive中轻松生存的12个技巧

在Apache Hive中轻松生存的12个技巧

DJXS-05 钢筋锈蚀检测仪用户手册

怎么用纸杯制作漂亮的装饰墙画

农村房屋钟家住宅设计

这里有抽象的手工装饰画制作方法

自动门的门体除锈的方式

客厅装饰画搭配技巧

建基水泥盖板施工方法

最新分享植筋胶加固

闸机如何防止生锈与生锈后处理方法

让家装更显艺术，教你用装饰画装饰家居！

原位二氧化碳分压高精度分析仪Buoy

装饰画春游欣赏风景怎么画

植筋加固的注意事项

二手车评估方法

产后多久来例假？

常用的桥梁抗震加固方法有哪些？

装饰简笔画：如何一步一步画风景装饰画

高分子护栏底座的安装施工要求

客厅装饰画搭配技巧.

钢结构防锈方法