有时join超时是因为某些key对应的数据太多,而相同key对应的数据都会发送到相同的reducer上,从而导致内存不够。此时我们应该仔细分析这些异常的key,很多情况下,这些key对应的数据是异常数据,我们需要在SQL语句中进行过滤。例如key对应的字段为空。
方法/步骤
1
1)配置历史服务器 配置mapred-site.xml
2
启动历史服务器
3
查看jobhistory
4
2)创建原始数据表、空id表、合并后数据表
5
3)分别加载原始数据和空id数据到对应表中
6
4)测试不过滤空id
7
Time taken: 42.038 secondsTime taken: 37.284 seconds
8
5)测试过滤空id
9
Time taken: 31.725 secondsTime taken: 28.876 seconds
上一篇:大米钥匙怎么降级