聚类分析的定义

百变鹏仔1年前 (2023-12-16)阅读数 10#综合百科

文章标签变量距离

依据研究对象（样品或指标）的特征，对其进行分类的方法，减少研究对象的数目。

各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。

各指标之间具有一定的相关关系。

聚类分析(cluster *** ysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。

聚类分析区别于分类分析(classification *** ysis) ，后者是有监督的学习。

变量类型：定类变量、定量（离散和连续）变量 1,层次聚类（Hierarchical Clustering）

合并法、分解法、树状图

聚类分析的定义

2. 非层次聚类

划分聚类、谱聚类

聚类方法特征：聚类分析简单、直观。

聚类分析主要应用于探索性的研究，其分析的结果可以提供多个可能的解，选择最终的解需要研究者的主观判断和后续的分析；不管实际数据中是否真正存在不同的类别，利用聚类分析都能得到分成若干类别的解；聚类分析的解完全依赖于研究者所选择的聚类变量，增加或删除一些变量对最终的解都可能产生实质性的影响。

研究者在使用聚类分析时应特别注意可能影响结果的各个因素。

异常值和特殊的变量对聚类有较大影响　　当分类变量的测量尺度不一致时，需要事先做标准化处理。

当然，聚类分析不能做的事情是：　　自动发现和告诉你应该分成多少个类——属于非监督类分析方法

期望能很清楚的找到大致相等的类或细分市场是不现实的；

样本聚类，变量之间的关系需要研究者决定；

不会自动给出一个最佳聚类结果；

我这里提到的聚类分析主要是谱系聚类（hierarchical clustering）和快速聚类（K-means）、两阶段聚类（Two-Step）；

根据聚类变量得到的描述两个个体间（或变量间）的对应程度或联系紧密程度的度量。

可以用两种方式来测量：　　1、采用描述个体对（变量对）之间的接近程度的指标，例如“距离”，“距离”越小的个体（变量）越具有相似性。

2、采用表示相似程度的指标，例如“相关系数”，“相关系数”越大的个体（变量）越具有相似性。

计算聚类——距离指标D(distance)的方法非常多：按照数据的不同性质，可选用不同的距离指标。

欧氏距离(Euclidean distance)、欧氏距离的平方(Squared Euclidean distance)、曼哈顿距离(Block)、切比雪夫距离(Chebychev distance)、卡方距离(Chi-Square measure) 等；相似性也有不少，主要是皮尔逊相关系数了！聚类变量的测量尺度不同，需要事先对变量标准化；聚类变量中如果有些变量非常相关，意味着这个变量的权重会更大欧式距离的平方是最常用的距离测量方法；聚类算法要比距离测量方法对聚类结果影响更大；标准化方法影响聚类模式：变量标准化倾向产生基于数量的聚类；样本标准化倾向产生基于模式的聚类；一般聚类个数在4－6类，不易太多，或太少；群重心

群中心

群间距离定义问题与选择分类变量

聚类方法

确定群组数目

聚类结果评估

结果的描述、解释属于非层次聚类法的一种

（1）执行过程

初始化：选择（或人为指定）某些记录作为凝聚点

循环：

按就近原则将其余记录向凝聚点凝集

计算出各个初始分类的中心位置（均值）

用计算出的中心位置重新进行聚类

如此反复循环，直到凝聚点位置收敛为止

（2）方法特点

通常要求已知类别数

可人为指定初始位置

节省运算时间

样本量大于100时有必要考虑

只能使用连续性变量特点：

处理对象：分类变量和连续变量

自动决定最佳分类数

快速处理大数据集

前提假设：

变量间彼此独立

分类变量服从多项分布，连续变量服从正态分布

模型稳健第一步：逐个扫描样本，每个样本依据其与已扫描过的样本的距离，被归为以前的类，或生成一个新类

第二步，对第一步中各类依据类间距离进行合并，按一定的标准，停止合并

判别分析 Discriminant Analysis

介绍：判别分析

分类学是人类认识世界的基础科学。

聚类分析和判别分析是研究事物分类的基本方法，广泛地应用于自然科学、社会科学、工农业生产的各个领域。

判别分析DA

概述

DA模型

DA有关的统计量

两组DA

案例分析

判别分析

判别分析是根据表明事物特点的变量值和它们所属的类，求出判别函数。

根据判别函数对未知所属类别的事物进行分类的一种分析方法。

核心是考察类别之间的差异。

判别分析

不同：判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值，并且已知各个体的分类。

DA适用于定类变量（因）、任意变量（自）

两类：一个判别函数；

多组：一个以上判别函数

DA目的

建立判别函数

检查不同组之间在有关预测变量方面是否有显著差异

决定哪个预测变量对组间差异的贡献最大

根据预测变量对个体进行分类

因子分析和聚类分析，很多时候容易混淆。接下来讲讲二者的区别和联系

因子分析：比如有20个题，将20个题浓缩成5个关键词；

聚类分析：常见为样本聚类，比如有500个人，这500个人可以聚成几个类别。

因子分析和聚类分析的联系在于：

分析角度上，比如：可先讲20个题做因子分析，并且得到因子得分。将因子得分在进一步进行聚类分析。最终聚类得到几个类别群体。再去对比几个类别群体的差异等。

鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com

免责声明：我们致力于保护作者版权，注重分享，当前被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱：344225443@qq.com)

图片声明：本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明：本文中引用的各种信息及资料（包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主体（包括但不限于公司、媒体、协会等机构）的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理！本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)