提起Spark這檔子事兒,咱得瑟一下知識庫存。人說(shuō)高手在民間,咱民間吃瓜群眾也得有個(gè)亮瞎眼的瞬間,是不?今天就來(lái)給大伙兒秀秀Spark那幾個(gè)核心組件的底細,咱自嘲一番,逗大伙兒開(kāi)心。
要說(shuō)Spark Driver,那可是彈指神通的主兒,相當于整個(gè)Spark集群的“帶頭大哥”。它負責解析應用程序,把一個(gè)大任務(wù)拆成一堆小任務(wù),分給下面的“小弟們”去執行??蓜e小看這位“帶頭大哥”,拆解任務(wù)那叫一個(gè)快、準、狠,不過(guò)偶爾也會(huì )鬧個(gè)小情緒,比如任務(wù)解析失敗,那可就尷尬了。
接下來(lái)聊聊Spark Executor,這可是執行任務(wù)的小弟們。他們分布在各個(gè)節點(diǎn)上,聽(tīng)從“帶頭大哥”的指揮,兢兢業(yè)業(yè)地執行任務(wù)。別看他們不起眼,可人家能吃苦,能耐勞,還能互相通信,把執行結果匯總起來(lái)。這就叫“兄弟齊心,其利斷金”。
Spark SQL這位謀士,擅長(cháng)數據分析,能把結構化數據處理得服服帖帖。它內置了一個(gè)優(yōu)化器,可以把查詢(xún)語(yǔ)句優(yōu)化得飛起。不過(guò),有時(shí)候這位謀士也會(huì )犯迷糊,比如優(yōu)化過(guò)度導致性能下降,讓人哭笑不得。
Spark Streaming這信使,負責處理實(shí)時(shí)數據流。它能實(shí)時(shí)接收數據,然后分發(fā)給Executor執行。這位信使跑得飛快,但偶爾也會(huì )摔個(gè)跟頭,比如數據延遲,讓人揪心。
最后來(lái)說(shuō)說(shuō)Spark MLlib這位倉庫管理員,它負責管理機器學(xué)習算法庫。這個(gè)倉庫里啥都有,分類(lèi)、回歸、聚類(lèi)、協(xié)同過(guò)濾……總之,你能想到的機器學(xué)習算法,它都能給你整出來(lái)。不過(guò)這位管理員有時(shí)候也會(huì )犯迷糊,比如算法參數調不好,結果偏差十萬(wàn)八千里。
Copyright 2024 //m.jzhmzyy.com/ 版權所有 豫ICP備2021037741號-1 網(wǎng)站地圖