以下哪种工具可以用在大数据实时处理场景中(__)。
大数据处理主要分为离线批处理与实时处理两大场景,不同场景适配的工具定位各有侧重。Hadoop作为大数据生态的基础框架,其核心的MapReduce编程模型擅长处理海量数据的离线批处理任务,但因计算延迟较高,无法适配实时处理的低延迟需求。Spark是兼具高效性与通用性的分布式计算框架,凭借内存计算能力实现了远超MapReduce的处理性能,其旗下的Spark Streaming及更进阶的Structured Streaming组件可对实时数据流进行低延迟处理,能覆盖实时监控、实时推荐等多种实时业务场景。而Cassandra属于分布式NoSQL数据库,核心定位是提供大规模数据的高可用存储服务,并不具备直接承担实时计算任务的能力。
本题考察的是大数据架构中批处理与实时处理工具的区别。
A选项 HADOOP:Hadoop 是大数据生态中的基础框架,核心包括 HDFS(分布式存储)和 MapReduce(批处理计算)。Hadoop 主要适合离线批量处理大规模数据,而不适用于实时处理场景,因此不正确。
B选项 SPARK:Spark 是一种快速通用的分布式计算框架,支持内存计算,性能远高于 MapReduce。其组件 Spark Streaming 可以对实时数据流进行处理,满足大数据实时处理需求,因此正确。
C选项 Cassandra:Cassandra 是分布式 NoSQL 数据库,主要用于大规模数据存储,支持高可用和扩展性。但它本质上是存储工具,而不是计算框架,不能直接承担实时计算任务,因此不正确。
D选项 MapReduce:MapReduce 是一种编程模型,擅长处理海量数据的离线批处理任务。但它计算延迟高,不适用于实时数据处理,因此不正确。
因此,本题答案是 B. SPARK。
