系统分析师选择题 - 大数据实时处理 | 芝士架构

扫一扫二维码

进群一起备考

当前 - 选择题 - 大数据实时处理

反馈

中等

单选题

2024年11月第13题

中等

单选题

2024年11月第13题

反馈

#第二版教材

#必须掌握

以下哪种工具可以用在大数据实时处理场景中（SPARK）。

问题（1）

浓缩知识点

大数据处理主要分为离线批处理与实时处理两大场景，不同场景适配的工具定位各有侧重。Hadoop作为大数据生态的基础框架，其核心的MapReduce编程模型擅长处理海量数据的离线批处理任务，但因计算延迟较高，无法适配实时处理的低延迟需求。Spark是兼具高效性与通用性的分布式计算框架，凭借内存计算能力实现了远超MapReduce的处理性能，其旗下的Spark Streaming及更进阶的Structured Streaming组件可对实时数据流进行低延迟处理，能覆盖实时监控、实时推荐等多种实时业务场景。而Cassandra属于分布式NoSQL数据库，核心定位是提供大规模数据的高可用存储服务，并不具备直接承担实时计算任务的能力。

正确答案

本题考察的是大数据架构中批处理与实时处理工具的区别。

Spark 是一种快速通用的分布式计算框架，支持内存计算，性能远高于 MapReduce。其组件 Spark Streaming 可以对实时数据流进行处理，满足大数据实时处理需求，因此。

A选项 HADOOP：Hadoop 是大数据生态中的基础框架，核心包括 HDFS（分布式存储）和 MapReduce（批处理计算）。Hadoop 主要适合离线批量处理大规模数据，而不适用于实时处理场景，因此不正确。
B选项 SPARK：Spark 是一种快速通用的分布式计算框架，支持内存计算，性能远高于 MapReduce。其组件 Spark Streaming 可以对实时数据流进行处理，满足大数据实时处理需求，因此正确。
C选项 Cassandra：Cassandra 是分布式 NoSQL 数据库，主要用于大规模数据存储，支持高可用和扩展性。但它本质上是存储工具，而不是计算框架，不能直接承担实时计算任务，因此不正确。
D选项 MapReduce：MapReduce 是一种编程模型，擅长处理海量数据的离线批处理任务。但它计算延迟高，不适用于实时数据处理，因此不正确。
因此，本题答案是 B. SPARK。