多语言展示
当前在线:1062今日阅读:58今日分享:42

机器学习聚类分析能做什么

聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。
方法/步骤
1

l 聚类分析主要步骤1. 数据预处理:选择数量、类型和特征的标度,将孤立点移出数据。2. 为衡量数据点间的相似度定义一个距离函数3. 聚类或分组:将数据对象分到不同的类中4. 评估输出:评估聚类结果的质量

2

l 聚类和分类的区别聚类解决的是事物分组的问题,是非监督学习,那些表示数据类别的分类或者分组信息是没有的,简单地说,聚类就是把相似的东西分到一组,聚类时并不关心某一类是什么,需要实现的目标只是把相似的东西聚到一起。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,并不需要使用训练数据进行学习。

3

而分类是解决“这是什么?”的问题,通常需要告诉它“这个东西被分为某某类”,分类会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,属于监督式学习。

4

l 聚类分析无处不在1. 被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。2. 不同地区城镇居民收入和消费状况的分类研究。3. 社交网络分析中的社交圈子的识别。4. 被用来动植物分类和对基因进行分类,获取对种群固有结构的认识。5. 在电子商务中通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。6. 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户。

推荐信息