聚光灯:精确聚类解释的视觉方法

关于聚光灯、雷达图以及如何理解集群——理解集群的含义可能比制作集群更重要。制作集群的过程更注重数学,但是,解释集群并不简单。在这个故事中,您将看到一种解释集群的视觉方法。这里描述的视觉方法使用了两种视觉技术——……

聚光灯:精确聚类解释的视觉方法

关于聚光灯、雷达图以及如何理解集群

理解集群的含义可能比制作集群更重要。制作集群的过程更注重数学,但是,解释集群并不简单。

在这个故事中,您将看到一种解释集群的视觉方法。这里描述的视觉方法使用两种视觉技术——雷达图和聚光灯。尽管雷达图广为人知,但聚光灯技术是数据科学家最未充分利用的技术之一。在这里,您将看到它的强大和视觉吸引力。

但首先,让我们从手头的问题开始——解释集群的问题。

所以你有你漂亮的集群。怎么办?

下图展示了对数据相关的汽车进行 K-Means 聚类的结果。数据有不同品牌的汽车以及长度、宽度、马力、价格等相关信息。数据集中有超过25个字段,因此选择降维PCA技术对聚类进行可视化。

好消息是,上图中的集群结构良好且非常明显。不太好的消息是,了解集群含义的真正工作尚未完成。

快速浏览可能的集群解释方法

我们可以使用多种算法方法来解释集群。您可以在此处参考我关于不同算法方法的文章,例如 PCA 特征向量分析或使用机器学习来解释集群。[0]

这些算法方法很有趣,但是引入了额外的复杂性。因此,让我们看一下解决问题的视觉方法。

让我们把集群放在我们的雷达上!

现在让我们用雷达绘制我们的集群!但首先,你可能会问,为什么是雷达图?为了回答你沸腾的问题,让我陈述两个事实。

集群解释实际上意味着根据数据中的维度定义集群。由于数据中有多个维度,

聚类解释是一个“多维”分析问题

现在谈谈第二个事实。

雷达图是一种“多维”可视化技术

雷达图比散点图、条形图等更酷,因为它们有助于以多维可视化数据。因此,它是解决聚类解释问题的完美技术。

这是基于聚类输出的雷达图。组的颜色对应于集群——红色、绿色和蓝色。

哇!多维可视化看起来比二维散点图好得多。雷达图的左侧有数据中的数字字段。右侧有分类字段。

现在让我们更进一步,通过分析红色、绿色和蓝色组之间的差异,如下图所示。

您将观察到左侧的数字字段在红色、绿色和蓝色区域之间有明显的分隔。但是,右侧的分类字段没有明确的分隔并且看起来很混乱。这意味着数字字段是解释聚类的良好候选者。

我们看到红色集群的高度、重量、气缸数、发动机尺寸和价格的值较低。蓝色簇在这些字段中具有中等值,绿色簇具有高值。我们可以将这一观察结果转化为以下陈述

  • 红色集群是小型汽车集群
  • 蓝色集群是中型汽车集群
  • 绿色集群是大型汽车集群

惊人的!这已经是一个突破,因为它为我们提供了我们正在寻找的东西——每个集群的含义。

现在让我们使用聚光灯技术将集群解释提升到一个新的水平。

Spotlight the clusters!

到目前为止,我们对每个集群都有一个含义,例如红色集群是针对小型汽车的。但是,我们没有将汽车分类为小型汽车的数值字段级别。例如,代表小型汽车的价格或发动机尺寸的价值是多少?

让我们使用聚光灯技术来回答这个问题。

聚焦是一种突出某些数据的方法,而不隐藏其余数据。

正如我之前提到的,聚光灯是数据科学家最有效但最未充分利用的可视化技术之一。

为了演示该技术,我们将采用之前显示的散点图。然后我们将选择一个数字字段,改变它的值来查看,然后聚焦哪些点会被聚焦。下面显示的是一个动画视觉效果,它展示了聚光灯技术。

聚光灯:精确聚类解释的视觉方法

您会观察到在 0 到大约 11000 的价格之间,红色集群突出显示,其他集群变为无色。然而,它们并没有消失。这称为聚光灯。它比过滤功能强大得多,因为所有数据点仍在可视化中。

以下是显示为图像的聚光灯结果。

聚焦红色集群

聚焦蓝色集群

聚焦绿色集群

您会观察到,即使有轻微的重叠,聚光灯也有助于确定数值字段的阈值。

我们可以得出以下结论:

  • 红色集群是小型车集群,所有车价低于11000左右
  • 蓝色集群是中型车集群,所有11000以上的车,以及3000以下的车
  • 绿色集群,这是一个大尺寸的汽车集群,所有的汽车都在11000以上,以及重量超过3000

太不可思议了!我们现在有了集群的精确定义!让我们给它起个名字——精确聚类解释!你不会在任何地方看到这个术语,在这里你第一次看到它!恭喜!

Datasource citation

数据来自 https://archive.ics.uci.edu/ml/datasets/automobile。[0]

Dua, D. 和 Graff, C. (2019)。 UCI 机器学习存储库 [http://archive.ics.uci.edu/ml]。加利福尼亚州欧文:加利福尼亚大学信息与计算机科学学院。

轮到你了!

您可以访问我的网站进行集群解释以及其他无需编码的分析。 https://experiencedatascience.com[0]

这是我的 Youtube 频道上的分步教程。您将能够使用零编码为您的数据自定义演示

请订阅以便在我发布新故事时随时了解情况。

您也可以通过我的推荐链接加入 Medium。谢谢你。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2022年5月13日
下一篇 2022年5月13日

相关推荐