推薦答案
Spark是一種快速通用的分布式計(jì)算系統(tǒng),用于大規(guī)模數(shù)據(jù)處理。它最初由加州大學(xué)伯克利分校的AMPLab開(kāi)發(fā),作為Hadoop的一個(gè)子項(xiàng)目,并于2010年開(kāi)源。
Spark提供了高級(jí)API,包括Java、Scala、Python和R,以及SQL查詢(xún)、流處理和圖形處理。它支持各種數(shù)據(jù)源,包括Hadoop Distributed File System(HDFS)、Apache Cassandra、Apache HBase等。火花還
Spark的主要優(yōu)點(diǎn)是其速度和可擴(kuò)展性。與傳統(tǒng)的MapReduce模型相比,Spark在內(nèi)存中保留數(shù)據(jù),從而避免了磁盤(pán)I / O的開(kāi)銷(xiāo)。Spark還支持基于內(nèi)存的迭代計(jì)算模型,可以在多個(gè)節(jié)點(diǎn)之間進(jìn)行數(shù)據(jù)共享和通信,從而大大提高了計(jì)算速度和吞吐量。
由于其靈活性和高性能,Spark被廣泛用于各種大規(guī)模數(shù)據(jù)處理場(chǎng)景,包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、圖形處理、日志分析等。
其他答案
-
Spark是一種通用的大數(shù)據(jù)計(jì)算框架,和傳統(tǒng)的大數(shù)據(jù)技術(shù)MapReduce有本質(zhì)區(qū)別。前者是基于內(nèi)存并行計(jì)算的框架,而mapreduce側(cè)重磁盤(pán)計(jì)算。Spark是加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室開(kāi)發(fā)的通用內(nèi)存并行計(jì)算框架,用于構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。
-
Spark同樣支持離線(xiàn)計(jì)算和實(shí)時(shí)計(jì)算兩種模式。Spark離線(xiàn)計(jì)算速度要比Mapreduce快10-100倍。而實(shí)時(shí)計(jì)算方面,則依賴(lài)于SparkStreaming的批處理能力,吞吐量大。不過(guò)相比Storm,SparkStreaming并不能做到真正的實(shí)時(shí)。

熱問(wèn)標(biāo)簽 更多>>
人氣閱讀
熱問(wèn)TOP榜
大家都在問(wèn) 更多>>

java靜態(tài)代碼塊和構(gòu)造方法執(zhí)行順序怎么操作


java文件分片上傳實(shí)現(xiàn)方法怎么操作


java對(duì)稱(chēng)加密返回參數(shù)給客戶(hù)端怎么操作

java合并兩個(gè)數(shù)組并升序排列怎么...
java合并兩個(gè)數(shù)組并排序怎么操作
java多行字符串輸入怎么操作