返回
当前 - 选择题 - 大模型与工业智能架构
题号:0020260500040
单选题
2026年5月第40题

融合多种信息媒介并使不同模态数据在时空和语义上关联的关键技术是(模态对齐)。

问题(1)
浓缩知识点

多模态系统需要把文本、图像、语音、视频等不同模态映射到可比较或可关联的语义空间。模态对齐用于建立不同模态之间的时空和语义对应关系。多模态对齐要把文本、图像、音频、视频等不同模态映射到可比较的语义空间,使同一对象、事件或时间片段能够相互对应。常见技术包括跨模态嵌入、对比学习、注意力融合和时序同步,应用于图文检索、视频理解和智能问答。数据库类知识点应先明确数据对象、约束和操作语义。关系模型强调表、元组、属性、键和完整性约束;事务题则围绕原子性、一致性、隔离性和持久性分析。

正确答案
D

本题考察的是多模态对齐

多模态系统需要把文本、图像、语音、视频等不同模态映射到可比较或可关联的语义空间。模态对齐用于建立不同模态之间的时空和语义对应关系。
选项 A:特征提取。特征提取是从文本、图像、语音等数据中提取有用特征,是多模态处理的基础步骤,但它主要解决“怎么表示数据”,不是重点解决不同模态之间的时空和语义对应关系。
选项 B:数据增强。数据增强是通过旋转、裁剪、噪声扰动、同义改写等方式扩充训练数据,提升模型泛化能力。它和多模态任务有关,但不是实现不同模态关联的关键技术。
选项 C:注意力机制。注意力机制可以帮助模型关注不同模态中的重要信息,也常用于多模态融合模型中。但它更多是一种信息选择和权重分配机制,不等同于模态之间的时空、语义对齐。
选项 D:模态对齐。模态对齐是指将不同模态的数据在时间、空间或语义层面建立对应关系。例如,让一段语音和字幕对应,让视频画面和文字描述对应,让图像区域和文本词语对应。因此,它最符合题干中“不同模态数据在时空和语义上关联”的描述。

因此,选项 D 正确。

联系我们
隐私协议
用户协议
微信公众号
知乎
小红书
浙ICP备2021029036号
@2022-2026
嘉兴市安芯网络科技有限公司 版权所有