SparkCore 總結一

一、spark中的提交模式：

1、Standalone-client模式：

（1）、Standalone-client提交任務：./spark-submit --master spark://node01:7077 --deploy-mode client --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100

（2）、執行流程：

1.client模式提交任務後，會在客戶端啟動Driver進程。

2.Driver會向Master申請啟動Application啟動的資源。

3.資源申請成功，Driver端將task發送到worker端執行。

4.worker將task執行結果返回到Driver端。

（3）、總結：client模式適用於測試調試程序。Driver進程是在客戶端啟動的，這裡的客戶端就是指提交應用程序的當前節點。在Driver端可以看到task執行的情況。生產環境下不能使用client模式，是因為：假設要提交100個application到集羣運行，Driver每次都會在client端啟動，那麼就會導致客戶端100次網卡流量暴增的問題。（因為要監控task的運行情況，會佔用很多埠，如上圖的結果圖）客戶端網卡通信，都被task監控信息佔用。

（4）、Client端作用：Driver負責應用程序資源的申請、任務的分發、結果的回收、監控task執行情況。

2、Standalone-cluster模式：

（1）、Standalone-cluster提交任務：./spark-submit --master spark://node01:7077 --deploy-mode cluster --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 100

（2）、執行流程：

1.cluster模式提交應用程序後，會向Master請求啟動Driver.(而不是啟動application) 。

2.Master接受請求，隨機在集羣一臺節點啟動Driver進程。

3.Driver啟動後為當前的應用程序申請資源。Master返回資源，並在對應的worker節點上發送消息啟動Worker中的executor進程。

4.Driver端發送task到worker節點上執行。

5.worker將執行情況和執行結果返回給Driver端。Driver監控task任務，並回收結果。

（3）、總結：1.當在客戶端提交多個application時，Driver會在Woker節點上隨機啟動，這種模式會將單節點的網卡流量激增問題分散到集羣中。在客戶端看不到task執行情況和結果。要去webui中看。

2.cluster模式適用於生產環境

3.Master模式先啟動Driver，再啟動Application。

3、整體架構圖：