<fieldset id="gy0wc"></fieldset>
<fieldset id="gy0wc"></fieldset>
  • <ul id="gy0wc"><sup id="gy0wc"></sup></ul>
  • 當(dāng)前位置:首頁(yè) > 行業(yè)知識(shí) > 綜合

    技術(shù)棧是什么

    關(guān)注:215 發(fā)布時(shí)間:2021-08-30 16:00:39

    相信很多學(xué)java的同學(xué)都有轉(zhuǎn)大數(shù)據(jù)或者學(xué)大數(shù)據(jù)的想法,但是在網(wǎng)上看到大數(shù)據(jù)的技術(shù)棧,就看了一下,比如hadoop,hdfs,mapreduce,hive,卡夫卡,zookeeper,hbase,sqoop,flume,spark,storm,flink等等。

    童鞋可能突然慌了,想學(xué)java的有ssm,跳羚,春云,mysql等。臺(tái)詞很清楚,所以學(xué)起來(lái)相對(duì)簡(jiǎn)單,但是大數(shù)據(jù)就不一樣了。技術(shù)棧太多,剛開始可能會(huì)被嚇到外面。,博主們把大數(shù)據(jù)技術(shù)棧和java技術(shù)棧進(jìn)行對(duì)比,告訴你這些大數(shù)據(jù)技術(shù)棧是為了什么。

    架構(gòu)圖

    在我們開始解釋之前,讓我們看一下下圖:

    數(shù)據(jù)連接器模塊

    我們按照?qǐng)D的順序逐一介紹。第一,sqoop(發(fā)音:skup)是一個(gè)開源工具,主要用于hadoop(hive)和傳統(tǒng)數(shù)據(jù)庫(kù)(mysql、postgresql、……)之間的數(shù)據(jù)傳輸,可以從一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(比如mysql、oracle、postgres等)導(dǎo)入數(shù)據(jù)。)到hadoop hdfs

    如果非要比較功能的話,很像阿里的canal組件,用來(lái)同步數(shù)據(jù)。

    水道

    水槽是一個(gè)高度可用、可靠和分布式的系統(tǒng),用于收集、聚合和傳輸cloudera提供的大量日志。水槽支持定制日志系統(tǒng)中的各種數(shù)據(jù)發(fā)送器,用于收集數(shù)據(jù);同時(shí),flume提供了簡(jiǎn)單處理數(shù)據(jù)和到達(dá)各種數(shù)據(jù)接收者(可定制)的能力。

    水槽的功能類似于elk(日志實(shí)時(shí)檢索系統(tǒng))中的logstash,用于傳輸和處理日志數(shù)據(jù)。

    卡夫卡

    卡夫卡是一個(gè)高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),可以處理網(wǎng)站中消費(fèi)者的所有動(dòng)作流數(shù)據(jù)。

    說(shuō)白了就是一個(gè)mq消息傳遞系統(tǒng),和java常用的rabbitmq、rocketmq一樣,只是側(cè)重點(diǎn)不同。卡夫卡專注于高吞吐量,能夠處理海量數(shù)據(jù)。

    分布式文件系統(tǒng)

    hadoop分布式文件系統(tǒng)(hdfs)是指設(shè)計(jì)為在商用硬件上運(yùn)行的分布式文件系統(tǒng)。它與現(xiàn)有的分布式文件系統(tǒng)有許多共同之處。但同時(shí)也明顯不同于其他分布式文件系統(tǒng)。hdfs是一個(gè)高容錯(cuò)系統(tǒng),適合部署在廉價(jià)的機(jī)器上。hdfs可以提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集。

    像java這樣的項(xiàng)目,不可避免的會(huì)涉及到文件上傳和。此時(shí),您要么自己構(gòu)建分布式文件系統(tǒng),要么使用第三方。一般來(lái)說(shuō),gfs、hdfs、lustre、ceph、gridfs、mogilefs、tfs、fastdfs等。如果用第三方,一般會(huì)用七牛云,騰訊云oss對(duì)象存儲(chǔ),阿里巴巴云oss對(duì)象存儲(chǔ)。

    儲(chǔ)備

    hive是基于hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具,用于數(shù)據(jù)的提取、轉(zhuǎn)換和加載。它是一種能夠存儲(chǔ)、查詢和分析hadoop中存儲(chǔ)的大規(guī)模數(shù)據(jù)的機(jī)制。hive數(shù)據(jù)倉(cāng)庫(kù)工具可以將結(jié)構(gòu)化數(shù)據(jù)文件映射成數(shù)據(jù)庫(kù)表,提供sql查詢功能,將sql語(yǔ)句轉(zhuǎn)換成mapreduce任務(wù)執(zhí)行。

    與java相比,有點(diǎn)類似于mysql(不太準(zhǔn)確),它不僅可以存儲(chǔ)表結(jié)構(gòu)數(shù)據(jù),還可以通過sql查詢這些數(shù)據(jù),但不能修改,只能離線操作。

    數(shù)據(jù)庫(kù)

    hadoop數(shù)據(jù)庫(kù)是一個(gè)高度可靠、高性能、面向列和可擴(kuò)展的分布式存儲(chǔ)系統(tǒng)。通過使用hbase技術(shù),可以在廉價(jià)的pc服務(wù)器上構(gòu)建大規(guī)模的結(jié)構(gòu)化存儲(chǔ)集群。

    糖化血紅蛋白實(shí)際上是一種nosql,類似于java中常用的redis,只是它們的底層實(shí)現(xiàn)不同。

    動(dòng)物園管理員

    zookeeper是一個(gè)分布式、開源的分布式應(yīng)用協(xié)調(diào)服務(wù),是google chubby的開源實(shí)現(xiàn),是hadoop和hbase的重要組成部分。它是為分布式應(yīng)用提供一致服務(wù)的軟件,功能包括配置維護(hù)、域名服務(wù)、分布式同步、群組服務(wù)等。

    zookeer在java里也很有名,基于dubbo的注冊(cè)中心一般都是用zookeer實(shí)現(xiàn)的。類似的有:尤里卡、執(zhí)政官等等,都是著名的微服注冊(cè)中心。

    大數(shù)據(jù)

    hadoop是apache基金會(huì)開發(fā)的分布式系統(tǒng)基礎(chǔ)設(shè)施。用戶可以開發(fā)分布式程序,而不知道分布式的底層細(xì)節(jié)。充分利用集群的力量進(jìn)行高速計(jì)算和存儲(chǔ)。hadoop實(shí)現(xiàn)了hadoop分布式文件系統(tǒng)(簡(jiǎn)稱hdfs)。

    hdfs具有高容錯(cuò)性的特點(diǎn),設(shè)計(jì)用于低成本硬件。而且它提供了訪問應(yīng)用數(shù)據(jù)的高吞吐量,適合大數(shù)據(jù)集的應(yīng)用。

    hdfs放寬)posix的要求,并可以流式訪問文件系統(tǒng)中的數(shù)據(jù)。hadoop框架的核心設(shè)計(jì)是hdfs和mapreduce。hdfs為海量數(shù)據(jù)提供存儲(chǔ),而mapreduce為海量數(shù)據(jù)提供計(jì)算

    從java的角度來(lái)看,hadoop和spring cloud有些類似。它們不僅僅是一種特定的技術(shù),而是一個(gè)生態(tài)圈。hadoop包括hive、mapreduce、hdfs等。所以不要把hadoop僅僅當(dāng)作一種單一的技術(shù)。

    數(shù)據(jù)處理技術(shù)

    mapreduce、spark、storm/flink都是用來(lái)處理數(shù)據(jù)的,比如數(shù)據(jù)清理、計(jì)算、統(tǒng)計(jì)等等。

    數(shù)據(jù)處理

    mapreduce是一種大數(shù)據(jù)并行處理的計(jì)算模型、框架和平臺(tái),隱含以下三層含義:

    mapreduce是一個(gè)基于集群的高性能并行計(jì)算平臺(tái)(集群基礎(chǔ)設(shè)施)。它允許市場(chǎng)上常見的商用服務(wù)器形成一個(gè)具有數(shù)十、數(shù)百到數(shù)千個(gè)節(jié)點(diǎn)的分布式并行計(jì)算集群。

    mapreduce是一個(gè)用于并行計(jì)算和運(yùn)行的軟件框架。它提供了一個(gè)龐大但設(shè)計(jì)良好的并行計(jì)算軟件框架,可以自動(dòng)完成計(jì)算任務(wù)的并行處理,自動(dòng)劃分計(jì)算數(shù)據(jù)和計(jì)算任務(wù),在集群節(jié)點(diǎn)上自動(dòng)分配和執(zhí)行任務(wù),收集計(jì)算結(jié)果,并將并行計(jì)算中涉及的數(shù)據(jù)分布式存儲(chǔ)、數(shù)據(jù)通信、容錯(cuò)處理等許多系統(tǒng)底層的復(fù)雜細(xì)節(jié)移交給系統(tǒng),大大減輕了軟件開發(fā)人員的負(fù)擔(dān)。

    mapreduce是一種并行編程模型方法。借助函數(shù)式編程語(yǔ)言lisp的設(shè)計(jì)思想,提供了一種簡(jiǎn)單方便的并行編程方法。它使用map和reduce函數(shù)對(duì)基本并行計(jì)算任務(wù)進(jìn)行編程,并提供抽象操作和并行編程接口,從而簡(jiǎn)單方便地完成大規(guī)模數(shù)據(jù)編程和計(jì)算處理

    技術(shù)的概念一般比較嚴(yán)謹(jǐn)復(fù)雜。這里mapreduce縮寫為mr,主要功能是處理線下大數(shù)據(jù)。它可以通過分析大量離線數(shù)據(jù)來(lái)計(jì)算我們需要的結(jié)果。

    火花

    apache spark是一款專為大規(guī)模數(shù)據(jù)處理設(shè)計(jì)的快速通用計(jì)算引擎。spark是一個(gè)類似hadoop mapreduce的通用并行框架,由加州大學(xué)伯克利分校amp實(shí)驗(yàn)室開放。spark具有hadoop mapreduce的優(yōu)勢(shì)。然而,與mapreduce不同,——job的中間輸出結(jié)果可以保存在內(nèi)存中,因此不再需要讀寫hdfs。因此spark可以更好的應(yīng)用到需要迭代的mapreduce算法中,比如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等。

    spark是一個(gè)類似hadoop的開源集群計(jì)算環(huán)境,但兩者有一些區(qū)別。這些有用的差異使spark在某些工作負(fù)載中表現(xiàn)更好。換句話說(shuō),spark啟用了內(nèi)存分布式數(shù)據(jù)集,這不僅可以提供交互式查詢,還可以優(yōu)化迭代工作負(fù)載。

    從概念上可以看出,spark不僅僅是一種技術(shù),而是類似于hadoop,有一個(gè)成熟的生態(tài)系統(tǒng),比如spark sql和spark streaming,類似于hadoop中的hive和mr。目前spark廣泛用于處理海量數(shù)據(jù),因?yàn)樗饶軐?shí)現(xiàn)離線數(shù)據(jù)分析,又能實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)分析。

    storm/flink

    apache flink是apache software foundation開發(fā)的開源流處理框架,其核心是用java和scala編寫的分布式流數(shù)據(jù)流引擎。flink以并行和流水線方式執(zhí)行任意流數(shù)據(jù)程序,flink的流水線運(yùn)行時(shí)系統(tǒng)可以執(zhí)行批處理和流處理程序。另外,flink的運(yùn)行時(shí)本身也支持迭代算法的執(zhí)行(storm的功能和上面類似,這里就不啰嗦了)。

    spark streaming是一個(gè)實(shí)時(shí)數(shù)據(jù)處理框架。為什么需要storm/flink?因?yàn)閷?shí)時(shí)和實(shí)時(shí)是有時(shí)間差的,看下圖就能看出兩者的區(qū)別。

    猜你喜歡

    • 第一眼給人高冷女生

      第一眼給人高冷女生120人支持

      美女面對(duì)不認(rèn)識(shí)的人一般都很冷淡;如果認(rèn)識(shí)你的美女對(duì)你還是冷冰冰的態(tài)度,那她們多半是看不起你,甚至鄙視你。無(wú)論是在大街上,在商場(chǎng)里,還是在其他公共場(chǎng)所,我們遇到的美女都是極其…

    • 天貓sku最多能放多少?刪除和修改的方法

      天貓sku最多能放多少?刪除和修改的方法34人支持

      要說(shuō)哪個(gè)logo平臺(tái)最能代表電子商務(wù)的發(fā)展,那就是淘寶。淘寶上經(jīng)營(yíng)店鋪的商家很多,淘寶上購(gòu)物的用戶也很多。今天要回答的問題是,天貓如何刪除sku?如果要?jiǎng)h除sku庫(kù)存數(shù)量,可以直接…

    • 什么項(xiàng)目投資小賺錢快

      什么項(xiàng)目投資小賺錢快36人支持

      投資要小,錢要快。我想在不違反法律和紀(jì)律的情況下,我會(huì)向你推薦幾個(gè):1/早餐業(yè)務(wù)。但是早餐生意很辛苦。不知道你能不能忍。半夜起來(lái)煮粥,做饅頭,做饅頭,做茶葉蛋。不過收入還是很…

    • 男的左眼跳是什么預(yù)兆?

      男的左眼跳是什么預(yù)兆?33人支持

      俗話說(shuō)“左眼跳財(cái)富,右眼跳災(zāi)難”。這種說(shuō)法有一定的依據(jù),但不那么準(zhǔn)確。風(fēng)水理論中,左眼皮跳的預(yù)兆是什么?今天我就好好給大家講講。眼皮跳暗示的是和十二小時(shí),十神,四神有關(guān)。今…

    • 昊華輪胎怎么樣

      昊華輪胎怎么樣41人支持

      昨天,以“創(chuàng)新驅(qū)動(dòng)、合作共贏”為主題的第十屆中國(guó)(廣饒)國(guó)際橡膠輪胎及汽車零部件展覽會(huì)在山東省廣饒國(guó)際博覽中心開幕,吸引了眾多優(yōu)秀輪胎企業(yè)參展。其中,浩華輪胎展廳氣勢(shì)磅…

    • 手機(jī)殺毒軟件十大排名

      手機(jī)殺毒軟件十大排名40人支持

      在日常生活中,相信每個(gè)人都會(huì)遇到這樣的事情。手機(jī)老是接一些騷擾電話,騙短信,很煩。需要有一個(gè)安全軟件對(duì)手機(jī)進(jìn)行全方位的保護(hù)。反騷擾垃圾短信、準(zhǔn)確攔截詐騙短信、詐騙電話…

    • 雞霸是什么意思呢

      雞霸是什么意思呢94人支持

      作為王者榮耀里第一個(gè)單純的英雄,我?guī)缀醪恍枰魏尾僮鳌N乙娙司陀靡惶准寄艽颍茨闼溃次一睢5牵坪跤幸患拢屓撕芗m結(jié)。到底妲己怎么做傷害最高?讓我們今天討論趙廉。…

    • 微信好物圈會(huì)成為它體系內(nèi)的小紅書嗎

      微信好物圈會(huì)成為它體系內(nèi)的小紅書嗎43人支持

      對(duì)于微信來(lái)說(shuō),朋友圈已經(jīng)失去了往日的光芒。一方面,微商和廣告的不斷侵蝕導(dǎo)致大多數(shù)用戶對(duì)朋友圈失去興趣。另一方面,隨著媒體的崛起,朋友圈不再是表達(dá)自己的唯一窗口。微信團(tuán)隊(duì)…

    • 創(chuàng)業(yè)小項(xiàng)目推薦

      創(chuàng)業(yè)小項(xiàng)目推薦14人支持

      鑒于越來(lái)越多的農(nóng)民工返鄉(xiāng),返鄉(xiāng)后該怎么辦?這是很多人都在思考的問題。我特別關(guān)注這群農(nóng)民工,因?yàn)槲乙彩寝r(nóng)村人。下面推薦幾個(gè)小創(chuàng)業(yè)項(xiàng)目,我覺得比較適合返鄉(xiāng)農(nóng)民工選擇創(chuàng)業(yè)。農(nóng)…

    • 怎么開好網(wǎng)店?新手怎么經(jīng)營(yíng)網(wǎng)店

      怎么開好網(wǎng)店?新手怎么經(jīng)營(yíng)網(wǎng)店14人支持

      2020年上半年對(duì)于很多實(shí)體店來(lái)說(shuō)無(wú)疑是艱難的,但對(duì)于很多網(wǎng)商來(lái)說(shuō)確實(shí)值得欣喜。據(jù)統(tǒng)計(jì),2020年上半年淘寶的銷量比去年增長(zhǎng)了40%,所以很多朋友開始對(duì)網(wǎng)店有了一些想法。怎樣才…

    • 攜程拿去花買不了機(jī)票

      攜程拿去花買不了機(jī)票37人支持

      現(xiàn)在,大多數(shù)人選擇在ctrip.com或去哪里的網(wǎng)上訂票、預(yù)訂酒店和機(jī)票,所以這兩個(gè)平臺(tái)對(duì)每個(gè)人來(lái)說(shuō)都很熟悉。隨著互聯(lián)網(wǎng)金融的發(fā)展,攜程和qunar.com也推出了一項(xiàng)金融服務(wù),即取花。…

    • 花唄還款日期怎么改

      花唄還款日期怎么改26人支持

      長(zhǎng)期以來(lái),柏華的還款日期固定在每月10日。突然宣布螞蟻柏華可以預(yù)約調(diào)整還款日期,可以將還款日期改為15日或20日。想必這個(gè)消息一出,很多支付寶用戶還是很開心的。就個(gè)人而言,有…

    微商技巧

    主站蜘蛛池模板: 精品久久久久久亚洲| 国产69精品久久久久9999| 欧美精品一区二区三区在线| 欧美精品福利在线视频 | 国产AV国片精品一区二区| 老司机67194精品线观看| 精品一区二区三区高清免费观看| 国产a视频精品免费观看| 久久精品午夜一区二区福利| 日韩AV毛片精品久久久| 大胸国产精品视频| 久久久久四虎国产精品| 99re久久精品国产首页2020| 日产精品99久久久久久| 日本熟妇亚洲欧美精品区| 国产亚洲色婷婷久久99精品91 | 欧美日韩国产精品 | 精品偷自拍另类在线观看| 亚洲精品无码你懂的网站| 亚洲AV永久无码精品| 无码精品人妻一区二区三区中| 91大神精品全国在线观看| 99久久精品影院老鸭窝| CAOPORM国产精品视频免费| 麻豆成人久久精品二区三区免费 | 国产精品亚洲日韩欧美色窝窝色欲 | 久久99精品国产麻豆不卡| 国产精品无码永久免费888| 99国产精品私拍pans大尺度| 2022精品国偷自产免费观看| 亚洲国产精品久久久久网站| 永久免费精品视频| 久久国产精品久久国产精品| 精品国产_亚洲人成在线高清| 99久久精品毛片免费播放| 国内精品91最新在线观看| 日本欧美韩国日本精品| 777欧美午夜精品影院| 98香蕉草草视频在线精品看| 国产精品原创巨作?v网站| 国产精品自在欧美一区|