好程序员分享大数据课程第八阶段_项目案例

项目一模拟双11购物平台项目说明:hadoop_storm_spark结合实验的例子，模拟双11，根据订单详细信息，汇总出总销售量，各个地区销售排行，以及后期的SQL分析，数据分析，数据挖掘等。

方法/步骤

第一阶段（storm实时报表） (1)用户订单入kafka队列，(2)经过storm，实时计算出总销售量，和各个省份的的销售量，(3)将计算结果保存到hbase数据库中。

第二阶段（离线报表） (1)用户订单入oracle数据库，(2)通过sqoop把数据导入hadoop上。 (3)使用mr和rdd对hadoop上的原始订单做etl清洗 (4)建立hive表和sparkSQL内存表。为后期分析做基础 (5)使用HQL实现业务指标分析，和用户画像分析，将结果存在mysql中。供web前台使用

第三阶段（大规模订单即席查询,和多维度查询） (1)用户订单入oracle数据库，(2)通过sqoop把数据导入hadoop上。 (3)写mr把hadoop的数据加载到hbase上(4)使用hbase java api实现订单的即席查询(5)solr绑定hbase，做多维度的条件查询

第四阶段（数据挖掘和图计算） (1)用户订单入oracle数据库， (2)通过sqoop把数据导入hadoop上。(3)使用mr和rdd对hadoop上的原始订单做etl清洗

项目二：新浪微博爬虫项目说明：SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。环境、架构：开发语言：Python2.7 开发环境：64位Windows7系统，4G内存，i7-3612QM处理器。数据库：MongoDB 3.2.0 （Python编辑器：Pycharm 5.0.4；MongoDB管理工具：MongoBooster 1.1.1）主要使用 scrapy 爬虫框架。下载中间件会从Cookie池和User-Agent池中随机抽取一个加入到spider中。start_requests 中根据用户ID启动四个Request，同时对个人信息、微博、关注和粉丝进行爬取。将新爬下来的关注和粉丝ID加入到待爬队列（先去重）。

上一篇：怎样查华为手机激活时间

下一篇：防伪税控系统远程抄报注册文件到期的解决办法

欧尼酱

好程序员分享大数据课程第八阶段_项目案例

好程序员分享大数据课程第八阶段_项目案例

利用USB转1284孔线连接EPSON1900针式打印机

单片机USB转串口的驱动安装过程

解决三星平板P600使用部分充电器无法充电的问题

USB转串口驱动的安装

B250主板七代CPU安装windows7系统

小米平板2刷win10教程

USB不能被电脑系统识别怎么办？

风格派钻石充电暖手宝开箱晒物

插入U盘电脑就死机的故障解决方法

笔记本添加COM口 USB接口转9针串口

小编教你解决USB无法解决问题

U盘显示无法识别怎么恢复数据

昂达平板电脑怎么打开移动硬盘

小米平板2如何设置U盘启动

RJ45转USB驱动安装方法

VGA线如何转接到只有USB口的机器上

简单的把键盘PS/2接口改USB接口

通过软件控制示波器一种方法

给USB插口的耳机换3.5插头方法

14英朗xt数据线接口在哪