<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      大數據時序分析組件druid獲取kafka和hdfs數據示例

      1.說明

      a. druid支持獲取數據種類較多,包括本地離線數據,hdfs數據和kafka實時流數據。在實際基于hadoop生態系統的大數據開發應用中,獲取hdfs數據和kafka流式數據較為常見。本篇文檔著重說明獲取kafka和hdfs數據的實例。
      b. 想要獲取什么樣類型的數據,就需要在配置文件配置(這里默認druid集群或單擊已經搭建完成,如果沒有搭建,參照上篇博客)。vim ${DRUID_HOME}/conf/druid/cluster/_common/common.runtime.properties

      druid.extensions.loadList=["druid-hdfs-storage","mysql-metadata-storage","druid-kafka-indexing-service"]
      

      c. 獲取數據的方法有兩種,第一種就是通過頁面傻瓜式的下一步,如圖

      只需要相關信息填寫正確,按照箭頭方向每一步正確操作即可
      第二種方式是自己寫json配置文件,通過執行命令。其實這兩種方式本事是一樣的。只不過第一種方式是在頁面操作后生成了json文件。但實際開發中,還是建議選擇第二種方式。下面基于獲取kafka和hdfs上的數據來介紹第二種方式。

      2.實時獲取kafka數據流

      a. druid自帶了一個獲取kafka數據樣例,${DRUID_HOME}/quickstart/tutorial/wikipedia-kafka-supervisor.json,直接在此基礎上改成自己的正確的配置

      {
        "type": "kafka",
        "spec" : {
          "dataSchema": {
            "dataSource": "my-wikipedia",
            "timestampSpec": {
              "column": "time",
              "format": "auto"
            },
            "dimensionsSpec": {
              "dimensions": [
                "channel",
                "cityName",
                "comment",
                "countryIsoCode",
                "countryName",
                "isAnonymous",
                "isMinor",
                "isNew",
                "isRobot",
                "isUnpatrolled",
                "metroCode",
                "namespace",
                "page",
                "regionIsoCode",
                "regionName",
                "user",
                {
                  "name": "added",
                  "type": "long"
                },
                {
                  "name": "deleted",
                  "type": "long"
                },
                {
                  "name": "delta",
                  "type": "long"
                }
              ]
            },
            "metricsSpec": [],
            "granularitySpec": {
              "type": "uniform",
              "segmentGranularity": "DAY",
              "queryGranularity": "NONE",
              "rollup": false
            }
          },
          "tuningConfig": {
            "type": "kafka",
            "reportParseExceptions": false
          },
          "ioConfig": {
            "topic": "my-wikipedia",
            "inputFormat": {
              "type": "json"
            },
            "replicas": 1,
            "taskDuration": "PT10M",
            "completionTimeout": "PT20M",
            "consumerProperties": {
              "bootstrap.servers": "master:9092"
            }
          }
        }
      }
      

      b. 執行命令

      curl -XPOST -H'Content-Type: application/json' -d @quickstart/tutorial/wikipedia-kafka-supervisor.json http://master:8081/druid/indexer/v1/supervisor
      

      執行上述命令出現{"id":"my-wikipedia"}的結果證明是成功的
      在druid頁面也正確看到任務的狀況,如下圖,表示完全成功

      c.往kafka寫和配置匹配的樣例數據,就可以在query頁面查看到寫入的數據了

      3. 獲取hdfs數據

      a. 獲取hdfs數據和kafka數據只是在配置文件上有所區別,druid也自帶了一個獲取hdfs數據樣例,${DRUID_HOME}/quickstart/tutorial/wikipedia-index-hadoop.json,這里我將其給名為my-wikipedia-index-hadoop.json,直接在此基礎上改成自己的正確的配置

      {
        "type" : "index_hadoop",
        "spec" : {
          "dataSchema" : {
            "dataSource" : "my-hdfs-wikipedia",
            "parser" : {
              "type" : "hadoopyString",
              "parseSpec" : {
                "format" : "json",
                "dimensionsSpec" : {
                  "dimensions" : [
                    "channel",
                    "cityName",
                    "comment",
                    "countryIsoCode",
                    "countryName",
                    "isAnonymous",
                    "isMinor",
                    "isNew",
                    "isRobot",
                    "isUnpatrolled",
                    "metroCode",
                    "namespace",
                    "page",
                    "regionIsoCode",
                    "regionName",
                    "user",
                    { "name": "added", "type": "long" },
                    { "name": "deleted", "type": "long" },
                    { "name": "delta", "type": "long" }
                  ]
                },
                "timestampSpec" : {
                  "format" : "auto",
                  "column" : "time"
                }
              }
            },
            "metricsSpec" : [],
            "granularitySpec" : {
              "type" : "uniform",
              "segmentGranularity" : "day",
              "queryGranularity" : "none",
              "intervals" : ["2015-09-12/2015-09-13"],
              "rollup" : false
            }
          },
          "ioConfig" : {
            "type" : "hadoop",
            "inputSpec" : {
              "type" : "static",
              "paths" : "/test-data/druid/wikiticker-2015-09-12-sampled.json.gz"
            }
          },
          "tuningConfig" : {
            "type" : "hadoop",
            "partitionsSpec" : {
              "type" : "hashed",
              "targetPartitionSize" : 5000000
            },
            "forceExtendableShardSpecs" : true,
            "jobProperties" : {
              "fs.default.name" : "hdfs://master:8020",
              "fs.defaultFS" : "hdfs://master:8020/",
              "dfs.datanode.address" : "master",
              "dfs.client.use.datanode.hostname" : "true",
              "dfs.datanode.use.datanode.hostname" : "true",
              "yarn.resourcemanager.hostname" : "master",
              "yarn.nodemanager.vmem-check-enabled" : "false",
              "mapreduce.map.java.opts" : "-Duser.timezone=UTC -Dfile.encoding=UTF-8",
              "mapreduce.job.user.classpath.first" : "true",
              "mapreduce.reduce.java.opts" : "-Duser.timezone=UTC -Dfile.encoding=UTF-8",
              "mapreduce.map.memory.mb" : 1024,
              "mapreduce.reduce.memory.mb" : 1024
            }
          }
        },
        "hadoopDependencyCoordinates": ["org.apache.hadoop:hadoop-client:2.8.5"]
      }
      
      

      這里需要注意"hadoopDependencyCoordinates": ["org.apache.hadoop:hadoop-client:2.8.5"]這項配置。這里的配置需要跟隨druid自帶的hadoop-dependencies版本,比如這里是${DRUID_HOME}/hadoop-dependencies/hadoop-client/2.8.5/。但是這里還需要注意hadoop版本和該版本是否一致,如果不至于是會報錯的。這個時候最好的方式是將druid版本作調整。

      b. 執行命令

      curl -XPOST -H'Content-Type: application/json' -d @quickstart/tutorial/my-wikipedia-index-hadoop.json http://master:8081/druid/indexer/v1/task
      
      posted @ 2020-09-27 16:20  技術即藝術  閱讀(963)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 国产av中文字幕精品| 成人永久性免费在线视频| 亚洲av成人无码精品电影在线| 一个人免费观看WWW在线视频| 四虎国产精品永久地址99| 亚洲 制服 丝袜 无码| 精品一区二区三区自拍图片区 | 国产在线观看免费观看| 99福利一区二区视频| 永昌县| 亚洲中文字幕一区二区| 亚洲一区二区三区在线观看精品中文 | 乱60一70归性欧老妇| 亚洲av二区伊人久久| 国产玖玖视频| 国产成人av电影在线观看第一页| 午夜成人无码福利免费视频| 日韩中文字幕v亚洲中文字幕| 欧美成人精品三级网站视频| 国产日韩乱码精品一区二区| 久久精品A一国产成人免费网站| 国产日产亚洲系列av| 亚洲老熟女一区二区三区| 亚洲精品久久久久玩吗| 国产亚洲精品第一综合麻豆| 久久久久成人片免费观看蜜芽| 伊人成色综合人夜夜久久| 亚洲 制服 丝袜 无码| 国产精品涩涩涩视频网站| 国产午夜精品视频在线播放 | 国产高跟黑色丝袜在线| 国产成人综合色在线观看网站| 无码欧亚熟妇人妻AV在线外遇| AV无码免费不卡在线观看| 成人资源网亚洲精品在线| 国产女人在线视频| 东京热加勒比无码少妇| 久久午夜无码鲁丝片直播午夜精品| 成人无码www在线看免费| 亚洲熟女乱综合一区二区| 欧美黑人大战白嫩在线|