多语言展示
当前在线:274今日阅读:162今日分享:23

好程序员分享大数据课程第八阶段_项目案例

项目一 模拟双11购物平台项目说明:hadoop_storm_spark结合实验的例子,模拟双11,根据订单详细信息,汇总出总销售量,各个地区销售排行,以及后期的SQL分析,数据分析,数据挖掘等。
方法/步骤
1

第一阶段(storm实时报表) (1)用户订单入kafka队列,(2)经过storm,实时计算出总销售量,和各个省份的的销售量,(3)将计算结果保存到hbase数据库中。

2

第二阶段(离线报表) (1)用户订单入oracle数据库,(2)通过sqoop把数据导入hadoop上。 (3)使用mr和rdd对hadoop上的原始订单做etl清洗 (4)建立hive表和sparkSQL内存表。为后期分析做基础 (5)使用HQL实现业务指标分析,和用户画像分析,将结果存在mysql中。供web前台使用

3

第三阶段(大规模订单即席查询,和多维度查询) (1)用户订单入oracle数据库,(2)通过sqoop把数据导入hadoop上。 (3)写mr把hadoop的数据加载到hbase上(4)使用hbase java api实现订单的即席查询(5)solr绑定hbase,做多维度的条件查询

4

第四阶段(数据挖掘和图计算) (1)用户订单入oracle数据库, (2)通过sqoop把数据导入hadoop上。(3)使用mr和rdd对hadoop上的原始订单做etl清洗

5

项目二:新浪微博爬虫项目说明:SinaSpider主要爬取新浪微博的个人信息、微博数据、关注和粉丝。环境、架构:开发语言:Python2.7 开发环境:64位Windows7系统,4G内存,i7-3612QM处理器。 数据库:MongoDB 3.2.0 (Python编辑器:Pycharm 5.0.4;MongoDB管理工具:MongoBooster 1.1.1)主要使用 scrapy 爬虫框架。下载中间件会从Cookie池和User-Agent池中随机抽取一个加入到spider中。start_requests 中根据用户ID启动四个Request,同时对个人信息、微博、关注和粉丝进行爬取。将新爬下来的关注和粉丝ID加入到待爬队列(先去重)。

推荐信息