五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

SparkSQL和Hive有什么異同?

2023-03-07 17:11 作者:ingemar-  | 我要投稿

SparkSQL和Hive的異同


Hive和Spark 均是:“分布式SQL計(jì)算引擎”

均是構(gòu)建大規(guī)模結(jié)構(gòu)化數(shù)據(jù)計(jì)算的絕佳利器,同時(shí)SparkSQL擁有更好的性能。

目前,企業(yè)中使用Hive仍舊居多,但SparkSQL將會在很近的未來替代Hive成為分布式SQL計(jì)算市場的頂級


SparkSQL的數(shù)據(jù)抽象


回顧Pandas和SparkSQL的數(shù)據(jù)抽象

Pandas - DataFrame

· 二維表數(shù)據(jù)結(jié)構(gòu)

·?單機(jī)(本地)集合

SparkCore - RDD

·?無標(biāo)準(zhǔn)數(shù)據(jù)結(jié)構(gòu),存儲什么數(shù)據(jù)均可

·?分布式集合(分區(qū))

SparkSQL - DataFrame

·?二維表數(shù)據(jù)結(jié)構(gòu)

·?分布式集合(分區(qū))

SparkSQL 其實(shí)有3類數(shù)據(jù)抽象對象

·?SchemaRDD對象(已廢棄)

·?DataSet對象:可用于Java、Scala語言

·?DataFrame對象:可用于Java、Scala、Python、R

我們以Python開發(fā)SparkSQL,主要使用的就是DataFrame對象作為核心數(shù)據(jù)結(jié)構(gòu)

在SparkSQL當(dāng)中,Spark為我們提供了兩個(gè)操作SparkSQL的抽象,分別是DataFrame和DataSet。也就是說我們操作SparkSQL一般都是使用DataFrame或者DataSet來實(shí)現(xiàn)的。

RDD(Spark1.0)? ==>? DataFrame(1.3)? ?==>? DataSet(1.6)


SparkSQL和Hive有什么異同?的評論 (共 條)

分享到微博請遵守國家法律
渭源县| 胶州市| 车致| 景谷| 平阴县| 夹江县| 荣成市| 黑水县| 兰坪| 荃湾区| 化德县| 泰州市| 漳州市| 威海市| 藁城市| 司法| 阜康市| 新闻| 林西县| 康保县| 温泉县| 建湖县| 东山县| 柏乡县| 清原| 确山县| 仙桃市| 北京市| 卫辉市| 梁河县| 芦溪县| 监利县| 罗定市| 久治县| 隆回县| 磐安县| 珲春市| 丹寨县| 石河子市| 清水河县| 神池县|