hive优化之mapjoin

根据mapjoin的计算原理，MAPJION会把小表全部读入内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配。这种情况下即使笛卡尔积也不会对任务运行速度造成太大的效率影响。

工具/原料

HIVE

HIVE、HADOOP

方法/步骤

mapjoin的应用场景如下：1.有一个极小的表<1000行2: 需要做不等值join的where操作（a.x < b.y 或者 a.x like b.y等，注：目前版本join下不支持不等值操作，不等值需加到where条件里）如果把不等于写到where里会造成笛卡尔积，如果数据量很大，笛卡尔积的后果不可想象，速度可能慢的惊人！根据mapjoin的计算原理，MAPJION会把小表全部读入内存中，在map阶段直接拿另外一个表的数据和内存中表数据做匹配。这种情况下即使笛卡尔积也不会对任务运行速度造成太大的效率影响。而且hive的where条件本身就是在map阶段进行的操作，所以在where里写入不等值比对的话，也不会造成额外负担。如此看来，使用MAPJOIN开发的程序仅仅使用map一个过程就可以完成不等值join操作，效率还会有很大的提升。案例讲解：老板要显示会员每天的交易记录，没有记录的要显示0，数据库中没有交易的根本不会显示这条，怎么会显示为0呢，没办法，只能用会员每天汇总信息关联时间维表了。测试数据请下载：会员每天交易信息汇总,16万左右数据： http://pan.baidu.com/s/1qWjp4ok时间维表信息： http://pan.baidu.com/s/1c0iYavY

create table hive_mapjoin (id string,dt string,amt double)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'LINES TERMINATED BY '\n';create table hive_dt (dt string);load data local inpath '/data/tmp/tqc/hive_mapjoin.txt' overwrite into table tmp.hive_mapjoin;load data local inpath '/data/tmp/tqc/hive_dt.txt' overwrite into table tmp.hive_dt;

测试sql如下：[code]--无mapjoincreate table hive_no_mapjoin asselect f.id,f.dt, coalesce(k.amt,0.0) amtfrom(--求会员有交易以来的连续时间select a.id,t.dtfrom hive_dt tjoin (--求会员交易最小时间select id, min(dt) min_dtfrom hive_mapjoingroup by id)awhere t.dt>= a.min_dt) fleft outer join tmp.tst1 kon f.dt = k.dt and f.id = k.id;--有mapjoincreate table hive_ok_mapjoin asselect f.id,f.dt, coalesce(k.amt,0.0) amtfrom(--求会员有交易以来的连续时间select /*+ mapjoin(t) */ a.id,t.dtfrom hive_dt tjoin (--求会员交易最小时间select id, min(dt) min_dtfrom hive_mapjoingroup by id)awhere t.dt>= a.min_dt) fleft outer join tmp.tst1 kon f.dt = k.dt and f.id = k.id;

测试结果：无mapjoin执行3分钟，有mapjoin执行2分钟结果分析：样本数据太少，不到20万数据，小表数据不足200条，最终结果只有200多万。hive处理这点数据还是很轻松的，大家如果测试，建议数据量要大些，至少执行结果千万条以上才能看出效果

注意事项

小表在前，数据量不要大于200M

大表不要太小，太小了意义不大

上一篇：通过sqoop1导出MySQL表数据至Hdfs/Hive方式

下一篇：怎样预防乳房疾病

欧尼酱

hive优化之mapjoin

大数据系列-hive讲解1

如何配置hive使用mysql保存元数据信息?

HIVE如何查看表和数据库

hive建表语句

在线报表FineReport如何连接hadoop,hive数据库

hive group_concat 如何使用

怎样将本地文件导入Hive

hive中的转义字符

如何对租户登录HIVE密码进行认证

在Apache Hive中轻松生存的12个技巧

如何执行hive脚本

通过sqoop1导出MySQL表数据至Hdfs/Hive方式

hive优化之mapjoin

sqoop如何导入数据到hive

安装sql时:performance counter registry hive

c#报表开发 hadoop,hive数据库连接

excel报表FineReport如何连接hadoop,hive数据库

PS如何保存制作完成的动态图片或PS动画

简历中需要删掉的词

PS如何存储文件为jpg图片（3）

用PS设计的网页图怎样快速保存其中的某些图片

PS切片工具怎么用，怎么保存图片

ps快速一键导出图片

怎样从PS正快速导出图片

如何使用PS保存抠的图

如何面对求职中的失败

PS如何存储为JPEG

Photoshop中怎样保存商品图像？

怎么才能弄清楚自己想要什么？

ps怎么切图？保存下来？

磕搀是什么意思

ps2018 扣图完成之后怎样保存图片？

ps怎么保存为图片？怎样保存PNG透明背景图片？

如何把PS做的东西保存成JPG的图片

人生就像一杯酒

PS2019做好的图片怎么保存？

photoshop打开和编辑保存图像