posted @ 2025-06-18 18:11
大數據從業者FelixZh
閱讀(27)
推薦(0)
摘要:
I wrote a blog post about how LinkedIn uses Apache Kafka as a central publish-subscribe log for integrating data between applications, stream processi
閱讀全文
posted @ 2020-01-09 11:31
大數據從業者FelixZh
閱讀(530)
推薦(1)
摘要:
https://github.com/claudemamo/kafka-web-console http://github.com/pinterest/doctorkafka http://github.com/yahoo/kafka-manager http://github.com/linked
閱讀全文
posted @ 2019-02-15 16:20
大數據從業者FelixZh
閱讀(860)
推薦(1)
摘要:
http://kafka.apache.org/documentation/#ecosystem https://cwiki.apache.org/confluence/display/KAFKA/Ecosystem 轉至元數據結尾 由 Jay Kreps創建, 最終由 Ray Chiang修改于
閱讀全文
posted @ 2019-01-23 10:07
大數據從業者FelixZh
閱讀(1243)
推薦(1)
摘要:
Apache kafka編譯 前言 github網站kafka項目的README.md有關于kafka源碼編譯的說明 github地址:https://github.com/apache/kafka 編譯環境準備 java maven gradle 編譯 失敗原因:gradle版本太高,降低到4.8
閱讀全文
posted @ 2018-11-27 14:21
大數據從業者FelixZh
閱讀(1026)
推薦(0)
摘要:
國內某大數據供應商 崗位要求1、本科以上學歷,計算機及相關專業畢業。2、對大數據處理有強烈興趣,掌握至少一種主流開源技術方案,如Hadoop、Spark、Flink、Hbase,ES,kafka等,熟悉開源組件開發、系統調優、高可用等技術。3、具備1-3年以上Java開發經驗,掌握Python/Sc
閱讀全文
posted @ 2018-10-27 09:16
大數據從業者FelixZh
閱讀(1630)
推薦(0)
摘要:
本文介紹在centos7.3使用kubeadm快速離線安裝kubernetes 1.10。 采用單master,單node(可以多node),占用資源較少,方便在筆記本或學習環境快速部署,不適用于生產環境。 所需文件百度盤連接 鏈接:https://pan.baidu.com/s/1iQJpKZ9P
閱讀全文
posted @ 2018-09-29 18:59
大數據從業者FelixZh
閱讀(2723)
推薦(0)
摘要:
前言 最新開始搗鼓flink,fucking the code之前,編譯是第一步。 編譯環境 win7 java maven 編譯步驟 https://ci.apache.org/projects/flink/flink-docs-release-1.6/start/building.html 官方
閱讀全文
posted @ 2018-09-21 11:09
大數據從業者FelixZh
閱讀(3751)
推薦(0)
posted @ 2016-11-06 18:25
大數據從業者FelixZh
閱讀(3052)
推薦(0)
摘要:
Docker最核心的特性之一,就是能夠將任何應用包括Hadoop打包到Docker鏡像中。這篇教程介紹了利用Docker在單機上快速搭建多節點 Hadoop集群的詳細步驟。作者在發現目前的Hadoop on Docker項目所存在的問題之后,開發了接近最小化的Hadoop鏡像,并且支持快速搭建任意節...
閱讀全文
posted @ 2015-11-27 16:01
大數據從業者FelixZh
閱讀(1233)
推薦(0)
摘要:
在面試中,如果你被問到:“Elasticsearch(ES)在數據量很大的情況下(數十億級別)如何提高查詢效率?” 那么面試官其實是在測試你是否有實際使用 ES 的經驗。為什么這么說? 因為很多人以為 ES 性能非常強大,但實際上,在數據量達到幾億甚至數十億條時,你可能會驚訝地發現,搜索一次需要 5
閱讀全文
posted @ 2025-06-10 16:38
大數據從業者FelixZh
閱讀(296)
推薦(0)
摘要:
在開發中遇到一個業務訴求,需要在千萬量級的底池數據中篩選出不超過 10W 的數據,并根據配置的權重規則進行排序、打散(如同一個類目下的商品數據不能連續出現 3 次)。下面對該業務訴求的實現,設計思路和方案優化進行介紹。 對“千萬量級數據中查詢 10W 量級的數據”設計了如下方案: 多線程+CK 翻頁
閱讀全文
posted @ 2025-06-10 15:59
大數據從業者FelixZh
閱讀(130)
推薦(0)
摘要:
1. 硬件優化1.1 內存分配Elasticsearch 對內存的需求較高,建議分配足夠的堆內存。默認情況下,Elasticsearch 會使用系統內存的 50% 作為堆內存,但不要超過 32GB(因為 JVM 的指針壓縮機制在 32GB 以下更高效)。 修改 JVM 堆內存:編輯 elastics
閱讀全文
posted @ 2025-06-10 14:02
大數據從業者FelixZh
閱讀(298)
推薦(0)
摘要:
命令 GET _cat/nodes?help 列出所有node, 并展示node所在機器的運行狀態信息,help可顯示幫助信息 1 GET _cat/nodes?h=name,hp,hm,rp,rm,qcm,rcm,fm,sm&v 解析下上面參數的意義 信息如下: 以紅框里的node為例, 內存占用
閱讀全文
posted @ 2025-06-03 15:44
大數據從業者FelixZh
閱讀(57)
推薦(0)
摘要:
在維護 OLAP 引擎時,很多時候需要對引擎做系統的性能分析和優化,此時往往需要查看 CPU 耗時,了解主要耗時點及瓶頸在哪里。俗語有曰:兵欲善其事必先利其器,程序員定位性能問題也需要一件“利器”。性能調優工具(perf)能夠顯示系統的調用棧及時間分布,但是呈現內容上只能單一的列出調用棧或者非層次化
閱讀全文
posted @ 2025-06-03 14:12
大數據從業者FelixZh
閱讀(43)
推薦(0)
摘要:
背景 Presto master出現jvm coredump情況,排查問題,這里記錄下排查過程。 排查過程 先看下JVM Coredump日志: 123456789101112131415161718192021222324252627282930313233343536373839404142 #
閱讀全文
posted @ 2025-06-03 13:46
大數據從業者FelixZh
閱讀(29)
推薦(0)
摘要:
近期業務查詢線上ES集群出現頻繁超時告警,尤其是早晨某個時間點固定的報一波超時,從調用鏈監控上很難看出是什么業務行為導致的。 初步猜測查看Grafana上Elasticsaerch的基礎監控,發現業務告警與ES的Old GC(老年代GC)卡頓時間基本吻合: 同時注意到,Old區的內存持續增長,不到1
閱讀全文
posted @ 2025-05-29 20:57
大數據從業者FelixZh
閱讀(55)
推薦(0)
摘要:
問題背景 客戶方面反饋的問題是ES入庫速度變慢,延遲升高到幾百毫秒,導致數據積壓過多,影響了業務。 排查發現ES的服務日志出現不少的gc overhead現象,下面是一個示例的日志片段: [yyyy-MM-ddTHH:mm:ss,SSS][LEVEL][component][node_name][g
閱讀全文
posted @ 2025-05-29 20:39
大數據從業者FelixZh
閱讀(97)
推薦(0)
摘要:
一、背景 時間大概是在夏天7月份,突然收到小伙伴的情報,我們線上的一個kafka實例的某個broker突然不提供服務了,也沒看到什么異常日志,反正就是生產、消費都停了。因為是線上服務,而且進程還在,就是不提供服務了,第一反應就是保留一下 stack 信息,先重啟吧 因為這個現象是第一次出現,不確定是
閱讀全文
posted @ 2025-05-27 15:56
大數據從業者FelixZh
閱讀(86)
推薦(0)
摘要:
安裝Maven Helper插件,就可以打開pom文件的Dependency Analyzer視圖,視圖三個選項分別是Conflicts(沖突)、All Dependencies as List(列表形式查看所有依賴)、All Dependencies as Tree(樹結構查看所有依賴)。頁面還支
閱讀全文
posted @ 2025-05-16 17:39
大數據從業者FelixZh
閱讀(1628)
推薦(0)
摘要:
一、概述 通過創建Prometheus監控告警規則,您可以制定針對特定Prometheus實例的告警規則。當告警規則設置的條件滿足后,系統會產生對應的告警事件。如果想要收到通知,需要進一步配置對應的通知策略以生成告警并且以短信、郵件、電話、釘群機器人、企業微信機器人或者Webhook等方式發送通知。
閱讀全文
posted @ 2025-05-16 13:55
大數據從業者FelixZh
閱讀(662)
推薦(0)
摘要:
一、概述 Prometheus 包含一個報警模塊,就是我們的 AlertManager,Alertmanager 主要用于接收 Prometheus 發送的告警信息,它支持豐富的告警通知渠道,而且很容易做到告警信息進行去重,降噪,分組等,是一款前衛的告警通知系統。 GitHub地址:https://
閱讀全文
posted @ 2025-05-16 11:14
大數據從業者FelixZh
閱讀(358)
推薦(0)
摘要:
一、概述 Pushgateway是Prometheus的一個組件,prometheus server默認是通過Exporter主動獲取數據(默認采取pull拉取數據),Pushgateway則是通過exporter主動方式推送數據到Pushgateway,再由Prometheus主動去拉取 Push
閱讀全文
posted @ 2025-05-16 10:45
大數據從業者FelixZh
閱讀(186)
推薦(0)
摘要:
集群狀態為什么會異常? 想知道這個,我們首先需要了解一下集群的幾種狀態。 Elasticsearch 集群健康狀態分為三種: GREEN YELLOW RED GREEN是最健康的狀態,說明所有的分片包括副本都可用。這種情況Elasticsearch集群所有的主分片和副本分片都已分配,Elastic
閱讀全文
posted @ 2025-04-29 10:17
大數據從業者FelixZh
閱讀(220)
推薦(0)
摘要:
【一些概念】 本地化(Localization) 將資源下載到本地的過程,這樣container運行時可以從本地加載而不是從訪問遠端的文件。 資源(Resource) 資源表示運行container所需要的一個文件或library,客戶端在提交任務時需要指定所依賴的資源。 對于每個資源,可以指定如下
閱讀全文
posted @ 2025-04-28 10:40
大數據從業者FelixZh
閱讀(50)
推薦(0)
摘要:
一. 前言在YARN中, 分布式緩存是一種分布式文件分發與緩存機制,主要作用是將用戶應用程序執行時所需的外部文件資源自動透明地下載并緩存到各個節點上, 從而省去了用戶手動部署這些文件的麻煩。 二. 工作流程 YARN分布式緩存工作流程具體如下:步驟1 客戶端將應用程序所需的文件資源(外部字典、 JA
閱讀全文
posted @ 2025-04-28 10:30
大數據從業者FelixZh
閱讀(128)
推薦(0)
摘要:
Yarn作為一款優秀的開源集群管理工具,可以用它來運行Hadoop,Spark,Flink等大數據處理任務。所有的分布式計算框架,都是主從模式,ResourceManager作為集群的管理員,是任務提交的入口。一般企業的大數據處理平臺會在Yarn的基礎中做進一步的封裝,以web應用的形式提供更高級的
閱讀全文
posted @ 2025-04-27 11:37
大數據從業者FelixZh
閱讀(297)
推薦(0)
摘要:
背景: 現有的centos7 gcc的最高版本為4.8.5 項目需要升級到7.1.0以上 正常方式可以通過以下命令即可完成升級: $ sudo yum install centos-release-scl $ sudo yum install devtoolset-7-gcc* $ scl enab
閱讀全文
posted @ 2025-01-20 17:03
大數據從業者FelixZh
閱讀(250)
推薦(0)
摘要:
1. 管理->主機網絡管理器 網卡設置: DHCP服務器設置: 2. 選定已創建的虛擬主機,設置->網絡 網卡1設置為:僅主機 網卡2設置為: 橋接網絡 3.主機啟動,修改網卡配置 4.查看效果
閱讀全文
posted @ 2023-08-13 18:18
大數據從業者FelixZh
閱讀(668)
推薦(0)
摘要:
Ambari Alert(告警)簡介 Ambari 告警的基礎概念 Ambari 為了幫助用戶鑒別以及定位集群的問題,實現了告警(Alert)機制。在 Ambari 中預定了很多的告警,這些告警被用于監測集群的各個模塊以及機器的狀態。對于告警來說,主要有兩個概念,一個是 Alert Definiti
閱讀全文
posted @ 2023-03-29 16:45
大數據從業者FelixZh
閱讀(936)
推薦(0)
摘要:
推薦使用的go版本為1.13及以上版本,聲明環境變量 go env -w GO111MODULE=on go env -w GOPROXY=https://goproxy.io,direct #設置不用proxy的私有倉庫,多用逗號相隔(可選) go env -w GOPRIVATE=*.corp.
閱讀全文
posted @ 2023-03-28 20:55
大數據從業者FelixZh
閱讀(407)
推薦(0)
摘要:
1. 官網下載壓縮包 https://downloads.mysql.com/archives/get/p/23/file/mysql-5.7.40-el7-x86_64.tar.gz 2. 卸載系統自帶的Mariadb rpm -qa|grep mariadb rpm -e --nodeps ma
閱讀全文
posted @ 2023-03-04 09:51
大數據從業者FelixZh
閱讀(331)
推薦(0)
摘要:
概覽 Kafka Connect 是一種用于在 Apache Kafka 和其他系統之間可擴展且可靠地流式傳輸數據的工具。 它使快速定義將大量數據移入和移出 Kafka 的連接器變得簡單。 Kafka Connect 可以攝取整個數據庫或從所有應用程序服務器收集指標到 Kafka 主題中,使數據可用
閱讀全文
posted @ 2023-02-24 14:59
大數據從業者FelixZh
閱讀(1316)
推薦(0)
摘要:
1.登錄前先請求,獲取一個token,也可以在本地寫死暫且叫登錄token,用來給登錄時密碼的加密 async getToken(){ const {data:token} = await getToken() // token : eaaaaaaaaaIUzI1NiJ9.eyJ1aWQiOiJDR
閱讀全文
posted @ 2022-11-17 20:37
大數據從業者FelixZh
閱讀(889)
推薦(0)
摘要:
進行HTTP網絡通信的時候,調用API向服務器請求數據,有時為了防止API調用過程中被黑客惡意篡改,所請求參數需要進行MD5算法計算,得到摘要簽名。服務端會根據請求參數,對簽名進行驗證,簽名不合法的請求將會被拒絕。 但是目前原生JS貌似并沒有提供MD5計算相關的函數方法,只能自己實現或者使用前輩大神
閱讀全文
posted @ 2022-11-17 20:33
大數據從業者FelixZh
閱讀(668)
推薦(0)
摘要:
我們用js-cookie這款插件來設置cookie,比較方便,可以自行查看文檔。 js-cookie 的示例中只有以天為單位的有效期: Cookies.set('name', 'value', { expires: 7 }); // 7 天后失效 官方文檔只要設置天數,沒有時分秒,這樣我們想設置更小
閱讀全文
posted @ 2022-11-17 20:30
大數據從業者FelixZh
閱讀(4423)
推薦(1)
摘要:
在學習Cookie、Session和Token之前,我們先了解下HTTP的無狀態協議。 1、HTTP的無狀態協議 HTTP無狀態協議是指該協議對事件的處理過程沒有記憶能力,當后續的步驟需要上一步的信息時,則需要重傳,即需要攜帶上一次的信息。 因此,對于存在依賴性的訪問請求,則下一次的傳遞需要攜帶上一
閱讀全文
posted @ 2022-11-12 16:03
大數據從業者FelixZh
閱讀(1890)
推薦(4)
摘要:
java -jar錯誤信息如下: Exception in thread "main" com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:flinkdemo-1.0-SNAPSH
閱讀全文
posted @ 2022-11-04 21:45
大數據從業者FelixZh
閱讀(464)
推薦(0)
摘要:
在 SQL 任務里面經常會遇到一列轉多行的需求,今天就來總結一下在 Flink SQL 里面如何實現列轉行的,先來看下面的一個具體案例. 需求: 原始數據格式如下 name data JasonLee [{"content_type":"flink","url":"111"},{"content_t
閱讀全文
posted @ 2022-11-01 09:17
大數據從業者FelixZh
閱讀(4331)
推薦(0)