多语言展示
当前在线:622今日阅读:19今日分享:20

创建一个数据挖掘工作流

用一点简单的数据,一起来创建一个数据挖掘的工作流。
工具/原料
1

一份文本数据

2

SmartMining桌面版

方法/步骤
1

启动软件,可以选择默认空间。  点击 文件>新建>工作流 输入工作流名字“文本分析”点击完成。

2

百度网盘下载数据文件。链接:http://pan.baidu.com/s/1slpi0Xn 密码:5t1q

3

从节点库找到数据源>EXCEL 节点。也可以搜索,单击拖拽到工作流界面(或者双击直接加载到工作流界面)。

4

双击,打开配置页面,点击浏览,找到文件存放位置双击,点击确定右键单击节点,点击执行,指示灯由黄变为绿色说明数据导入成功。

5

右键单击节点,点击<输出表>可以查看读入的数据。为了简要介绍,部分数据探索和数据准备工作这里略过。不了解业务的前提下,我们需要先了解数据,通过数据学习业务。本数据中:包含94个样本,7个字段,都是对热门博主的描述,还有很多信息包含早数据表内。

6

使用<自定义词云>节点,展现博主的粉丝量信息。双击配置<自定义词云>。右键单击<自定义词云>,点击<词云视图>查看结果。从词云中可以看出,粉丝量最大的博主分别为:苏芩,热门搞笑排行榜,微博搞笑排行榜。

7

通过前期了解数据,想了解 发布建议 各类别内的微博博主的粉丝量的统计信息。使用<汇总>节点实现,双击进行配置。

8

右键单击汇总节点查看<汇总表>。

9

使用<过滤>节点,对字段进行重命名。

10

了解各类别博主的粉丝数量:使用<饼图>节点,双击配置,右键单击<饼图>点击<执行>。右键单价<饼图>节点,单击<视图:饼图>查看结果。通过饼图可以看出来,新闻类和文案创作类的微博博主数量明显多于其他类别。

注意事项
1

SmartMining作为大数据分析神器,需要熟悉产品界面和功能才能使用

2

数据分析的源数据可以通过多种方式得到的

推荐信息