系统架构设计师选择题 - 新技术架构 | 芝士架构

扫一扫二维码

进群一起备考

当前 - 选择题 - 新技术架构

反馈

中等

单选题

2025年5月第57题

中等

单选题

2025年5月第57题

反馈

#了解即可

#超纲

在机器学习中，当我们面对没有任何标签或数据标识的情况时，通常需要根据数据本身的相似性进行划分，这种情况下应采用以下哪类算法（聚类算法）。

问题（1）

浓缩知识点

机器学习中，根据数据是否带有标签可划分为监督学习与无监督学习两大分支。当处理无标签数据、需依据数据内在相似性自动分组时，要用到无监督学习中的聚类算法，常见的聚类算法包括K-means、DBSCAN、层次聚类等。与之相对，监督学习的分类算法需要依赖带标签数据完成训练，用于给数据分配已知类别，回归算法则用于预测连续型数值，二者均不适用于无标签数据场景；另外主成分分析虽属于无监督学习方法，但它的核心作用是对数据进行降维提取主特征，并不具备自动分组的功能。

正确答案

本题考察的是无监督学习的典型应用。
无标签的数据意味着我们没有先验的分类信息，这时不能使用有监督学习中的分类（如决策树、SVM等）。
聚类算法（如 K-means、DBSCAN、层次聚类）是一种典型的无监督学习方法，它会根据数据间的相似性将其划分为若干组群（cluster），即进行“自动分类”。选择选项 A。
分类算法是监督学习，需要已有的类别标签进行训练，不适用于无标签数据。
主成分分析（PCA） 是一种降维方法，用于提取数据中的主要特征，但不是分类方法。
回归算法用于预测连续值，同样属于监督学习。