DolphinScheduler 如何高效調度 AnalyticDB on Spark 作業?
DolphinScheduler是一個分布式易擴展的可視化DAG工作流任務調度開源系統,能高效地執行和管理大數據流程。用戶可以在DolphinScheduler Web界面輕松創建、編輯和調度云原生數據倉庫 AnalyticDB MySQL 版的Spark作業。
前提條件
-
AnalyticDB for MySQL集群的產品系列為企業版、基礎版或湖倉版。
-
AnalyticDB for MySQL集群中已創建Job型資源組或Spark引擎的Interactive型資源組。
-
已安裝JDK,且JDK的版本為1.8及以上版本。
-
已安裝DolphinScheduler。
-
已將運行DolphinScheduler的服務器IP地址添加至AnalyticDB for MySQL集群的白名單中。
調度Spark SQL作業
AnalyticDB for MySQL支持使用批處理和交互式兩種方法執行Spark SQL。選擇的執行方式不同,調度的操作步驟也有所不同。詳細步驟如下:
批處理
- 安裝Spark-Submit命令行工具并配置相關參數。
說明:您只需要配置keyId、secretId、regionId、clusterId和rgName這些必填參數。
-
創建項目。
-
訪問DolphinScheduler Web界面,在頂部導航欄單擊項目管理。
-
單擊創建項目。
-
在彈出的創建項目對話框中配置項目名稱、所屬用戶等參數。
-
-
創建工作流。
-
單擊已創建的項目名稱,進入工作流定義頁面。
-
單擊創建工作流,進入工作流DAG編輯頁面。
-
在頁面左側選擇SHELL,并將其拖拽到右側空白畫布中。
-
在彈出的當前節點設置對話框中配置如下參數:
![]()
-
單擊確認。
-
單擊頁面右上角保存,在彈出的基本信息對話框中配置工作流名稱等參數,單擊確定。
-
說明:其他參數說明請參見DolphinScheduler任務參數。
- 運行工作流。
-
單擊工作流操作列的
按鈕,上線工作流。 -
單擊工作流操作列的
按鈕。 -
在彈出的啟動前請先設置參數對話框中,配置對應參數。
-
單擊確定,運行工作流。
- 查看工作流詳細信息。
-
在左側導航欄單擊任務實例。
-
在操作列,單擊
按鈕,查看工作流執行結果和日志信息。
交互式
-
獲取Spark Interactive型資源組的連接地址。
-
登錄云原生數據倉庫AnalyticDB MySQL控制臺,在左上角選擇集群所在地域。在左側導航欄,單擊集群列表,在企業版、基礎版或湖倉版頁簽下,單擊目標集群ID。
-
在左側導航欄,單擊集群管理 > 資源管理,單擊資源組管理頁簽。
-
單擊對應資源組操作列的詳情,查看內網連接地址和公網連接地址。您可單擊端口號括號內的image按鈕,復制連接地址。
以下兩種情況,您需要單擊公網地址后的申請網絡,手動申請公網連接地址。
-
提交Spark SQL作業的客戶端工具部署在本地。
-
提交Spark SQL作業的客戶端工具部署在ECS上,且ECS與AnalyticDB for MySQL不屬于同一VPC。
-
-
創建數據源。
-
訪問DolphinScheduler Web界面,在頂部導航欄單擊數據源中心。
-
單擊創建數據源,選擇數據源類型為Spark。
-
在彈出的創建數據源對話框中配置如下參數:
![]()
-
單擊測試連接,測試成功后,單擊確定。
-
說明:其他參數為選填參數,詳情請參見MySQL數據源。
-
創建項目。
-
訪問DolphinScheduler Web界面,在頂部導航欄單擊項目管理。
-
單擊創建項目。
-
在彈出的創建項目對話框中配置項目名稱、所屬用戶等參數。
-
-
創建工作流。
-
單擊已創建的項目名稱,進入工作流定義頁面。
-
單擊創建工作流,進入工作流DAG編輯頁面。
-
在頁面左側選擇SQL,并將其拖拽到右側空白畫布中。
-
在彈出的當前節點設置對話框中配置如下參數:
![]()
-
單擊確認。
-
單擊頁面右上角保存,在彈出的基本信息對話框中配置工作流名稱等參數,單擊確定。
-
-
運行工作流。
-
單擊工作流操作列的
按鈕,上線工作流。 -
單擊工作流操作列的
按鈕。 -
在彈出的啟動前請先設置參數對話框中,配置對應參數。
-
單擊確定,運行工作流。
-
-
查看工作流詳細信息。
-
在左側導航欄單擊任務實例。
-
在操作列,單擊
按鈕,查看工作流執行結果和日志信息。
-
調度Spark Jar作業
說明:您只需要配置keyId、secretId、regionId、clusterId和rgName這些必填參數。如果您的Spark Jar包在本地,還需要配置ossUploadPath等OSS相關參數。
-
創建項目。
-
訪問DolphinScheduler Web界面,在頂部導航欄單擊項目管理。
-
單擊創建項目。
-
在彈出的創建項目對話框中配置項目名稱、所屬用戶等參數。
-
-
創建工作流。
-
單擊已創建的項目名稱,進入工作流定義頁面。
-
單擊創建工作流,進入工作流DAG編輯頁面。
-
在頁面左側選擇SHELL,并將其拖拽到右側空白畫布中。
-
在彈出的當前節點設置對話框中配置如下參數:
![]()
-
單擊確認。
-
單擊頁面右上角保存,在彈出的基本信息對話框中配置工作流名稱等參數,單擊確定。
-
說明:其他參數說明請參見DolphinScheduler任務參數。
-
運行工作流。
-
單擊工作流操作列的
按鈕,上線工作流。 -
單擊工作流操作列的
按鈕。 -
在彈出的啟動前請先設置參數對話框中,配置對應參數。
-
單擊確定,運行工作流。
-
-
查看工作流詳細信息。
-
在左側導航欄單擊任務實例。
-
在操作列,單擊
按鈕,查看工作流執行結果和日志信息。
-

按鈕,上線工作流。
按鈕。
按鈕,查看工作流執行結果和日志信息。

按鈕,查看工作流執行結果和日志信息。
浙公網安備 33010602011771號