多语言展示
当前在线:399今日阅读:60今日分享:41

如何挖掘数据价值

数据挖掘是指从数据中提取模式的过程。通过对数据挖掘可以提供对可用于改善业务决策的关系的见解。通常可以根据其用于聚类,分类,关联和预测的用途进行粗略分组。
工具/原料

数据分析工具

方法/步骤
1

聚类聚类是指数据挖掘工具和技术,通过这些工具和技术,一组案例根据其测量的特征被置于自然分组中。由于特征的数量通常很大,因此需要采用案例之间的多变量相似性度量。在寻找如何数据挖掘时,Statgraphics提供了许多用于导出聚类的方法,包括最近邻,最远邻居,质心,中位数,组平均,Ward方法和K-Means方法。结果可以显示为树形图,成员资格表或冰柱图。聚集图用于表示适当数量的聚类。

2

分类分类是数据挖掘工具和技术之一,通过这些工具和技术,一组案例根据其特征分配给分类因子的级别。使用已知案例的训练集来开发分类算法,该算法然后可用于预测哪些类别未知案例最可能属于哪些类别。例如,考虑到从先前申请人开发的算法,贷款申请人可以根据他们的个人特征被置于风险类别中。Statgraphics中的神经网络分类器使用基于非参数密度函数估计和贝叶斯先验的方法。

3

预测预测是指统计模型的发展,可以根据其他变量的值预测一个变量的值。各种回归模型通常用于数据挖掘工具和技术之中。当预测变量的数量很大时,选择好的模型可能很困难。在Statgraphics中,统计数据挖掘的回归模型选择过程适合涉及一组预测变量的所有可能线性组合的模型,所有模型都使用诸如Mallows'Cp和调整后的R平方统计量等标准来选择最佳模型。

4

文本文本挖掘过程分析的一个或多个文本列或文件,以确定各种词的使用频率。此过程的主要输出是识别最常出现的单词。提供了表格和图形摘要。

5

分类和回归分类和回归树过程实现机器学习过程来预测从数据观测。它创建了2种形式的模型:分类模型根据观察到的特征将观察分成不同的组;回归模型,用于预测因变量的值。通过创建树来构建模型,树的每个节点对应于二元决策。鉴于一个特定的观察,一个人沿树的树枝向下行进,直到找到终止叶子。树的每个叶子与预测的类或值相关联。

注意事项

数据分析是一个学习的过程,不可能一蹴而就。

推荐信息