五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【大數(shù)據(jù)基礎(chǔ)Ep2】《Hadoop權(quán)威指南》讀書筆記P5:數(shù)據(jù)的存儲(chǔ)與分析

2023-04-04 17:10 作者:學(xué)酥酥的學(xué)習(xí)日記本  | 我要投稿

(合計(jì)630字,用時(shí)20min——)

第1章 初識(shí)Hadoop

1.2數(shù)據(jù)的存儲(chǔ)與分析

第一段:?jiǎn)栴}——在硬盤存儲(chǔ)容量多年不斷提升的同時(shí),訪問速度(硬盤數(shù)據(jù)讀取速度)卻沒有與時(shí)俱進(jìn)。

第二段:讀完整個(gè)硬盤中的數(shù)據(jù)需要更長(zhǎng)時(shí)間,寫入數(shù)據(jù)就別提了。一個(gè)減少讀取時(shí)間的辦法是同時(shí)從多個(gè)硬盤上讀數(shù)據(jù)——100個(gè)硬盤,每個(gè)硬盤存儲(chǔ)1%的數(shù)據(jù),并行讀取,那么不到兩分鐘就可以讀完所有數(shù)據(jù)。

第三段:存儲(chǔ)硬盤容量的1%似乎很浪費(fèi),可以存儲(chǔ)100個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集1TB,并實(shí)現(xiàn)共享硬盤的讀取——通過硬盤共享來縮短數(shù)據(jù)分析時(shí)間,從統(tǒng)計(jì)角度來看,用戶的分析工作都是在不同時(shí)間點(diǎn)進(jìn)行的,所以彼此之間的干擾并不太大。

第四段:還有更多問題。

第五段:硬件故障問題:一旦開始使用多個(gè)硬件,其中個(gè)別硬件就很有可能發(fā)生故障,

????對(duì)策:復(fù)制(replication):系統(tǒng)保存數(shù)據(jù)的復(fù)本(replica),一旦有系統(tǒng)發(fā)生故障,就可以使用另外保存的復(fù)本,如——

  1. 冗余硬盤陣列(RAID);

  2. Hadoop的文件系統(tǒng)(Hadoop Distributed FileSystem,HDFS)。

第六段:分布式系統(tǒng)的數(shù)據(jù)分析任務(wù)的正確性——

????對(duì)策:MapReduce提出一個(gè)編程模型,該模型抽象出這些硬盤讀/寫問題并將其轉(zhuǎn)換為對(duì)一個(gè)數(shù)據(jù)集(由鍵-值對(duì)組成)的計(jì)算,這樣的模型由map和reduce兩部分組成,而且只有這兩部分提供對(duì)外的接口

第七段:Hadoop提供了一個(gè)可靠的且可擴(kuò)展的存儲(chǔ)和分析平臺(tái),因?yàn)镠adoop運(yùn)行在商用硬件上且開源——Hadoop的使用成本是在可承受范圍內(nèi)的。


【大數(shù)據(jù)基礎(chǔ)Ep2】《Hadoop權(quán)威指南》讀書筆記P5:數(shù)據(jù)的存儲(chǔ)與分析的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
白水县| 芜湖县| 鸡泽县| 新疆| 青海省| 沅陵县| 苍梧县| 彭水| 新野县| 灵台县| 松桃| 满城县| 开江县| 文登市| 邢台县| 嵊泗县| 南川市| 宝丰县| 大丰市| 禄劝| 房山区| 巫山县| 凤凰县| 凌源市| 嘉黎县| 贵溪市| 罗城| 怀宁县| 新竹县| 孝感市| 道真| 宜章县| 普兰县| 屏南县| 鄱阳县| 乌什县| 昌图县| 宁化县| 乐昌市| 华安县| 顺昌县|