关于自监督、监督、半监督学习的描述正确的是哪个(__).
机器学习中的监督学习、半监督学习、自监督学习是三类重要的学习范式。监督学习完全依赖带有明确输入输出对应关系的人工标注数据,模型通过拟合特征与标签的关联完成学习,仅能对训练阶段覆盖过的类别进行有效预测,适合数据标注资源充足的场景,比如标准化的图像分类任务。半监督学习融合了监督与无监督学习的特点,依托少量标注数据锚定学习方向,同时利用大量未标注数据提升模型的泛化能力,常应用于标注成本较高的领域,比如医疗影像分析等场景。自监督学习无需依赖人工标注数据,会从数据本身自主构造伪标签,比如通过预测文本的缺失片段、图像的遮挡区域等方式开展预训练,能够高效挖掘数据的内在特征,如今在大模型预训练阶段被广泛采用,像BERT、GPT这类主流大模型的基础能力构建都离不开自监督学习的支撑。
本题考察的是机器学习中监督学习、半监督学习与自监督学习的基本概念。
A选项自监督学习完全依赖于标注数据: 错误。自监督学习是一种无需人工标注数据的学习方式,它通过从数据本身构造伪标签来进行预训练,从而学习数据的表示。例如,通过预测缺失部分或下一个片段来学习特征。它不依赖人工标注数据。
B选项半监督学习依靠少量标注数据和大量未标注数据: 正确。半监督学习结合了监督学习和无监督学习的特点,使用少量标注数据来指导模型学习,再通过大量未标注数据提升泛化能力,是典型的资源受限场景下的学习方法。
C选项监督学习不依赖标注的数据: 错误。监督学习是完全依赖标注数据的学习方法。训练集中每个样本都有明确的输入(特征)与输出(标签)对应关系,模型通过拟合这种关系进行学习。
D选项监督学习可对未知类别数据有较好预测性: 错误。监督学习只能对训练阶段见过的类别进行预测,对于未出现过的新类别数据,监督模型通常无法正确分类或预测。
