摘要:
作為數據架構師/工程師,查看、修改各類系統中的數據(尤其是結構化數據)是日常高頻操作。以下是根據工作中使用過的工具及平臺進行的匯總。 一、客戶端 客戶端工具需要在本機進行安裝,訪問遠程或本地的數據庫。在Windows環境中,常用的有以下類型: 通用型: 通用性客戶端工具可適配市場多種主流數據庫,可集
閱讀全文
摘要:
OneID是指將分布在不同系統中的同一個實體用同一個ID進行標識,這是在數據治理領域經常出現的一個概念。由于企業中存在大量的數據孤島(業務源系統各自為戰),因此作為下游數據倉庫的架構及開發人員,迫切的需要將不同系統中同一個實體信息進行拉通,這樣在后續的報表、駕駛艙等應用中,指標的口徑才能準確有效。O
閱讀全文
摘要:
網易有數BI是一款自助分析BI工具,具有可視化效果好、操作便捷、不限license、價格相對便宜等優點。 1、技術架構圖 前端繪圖層:主要負責圖表的渲染和可視化的拖拽操作,采用網易自研的NEV繪圖引擎,支持豐富的圖表庫。后端業務層:業務中間層,主要負責用戶權限管理、圖表配置管理、資源管理、定時調度等
閱讀全文
摘要:
網易NDH大數據平臺是基于Hadoop、HDFS、Hive、Yarn、Spark、Impala、kerberos等開源組件進行二次開發的大數據套件,具有數據集成、開發運維、規范建模、數據治理、數據服務等功能的一站式數據開發治理平臺。 其主要技術架構圖如下: 主要功能包括以下: 以下是根據實際使用該平
閱讀全文
摘要:
作為數據從業者,在日常工作中,無論是ETL開發,還是數倉SQL開發,或者工作進展匯報,都可能會涉及到版本管理。這些場景都有什么特點?是否具有共同點呢?以下是一個簡單的總結。 1、通用版本管理工具 這類工具可將各類腳本(如SQL、存儲過程、python、shell等)進行版本管理。通常要有這些功能:記
閱讀全文
摘要:
一、背景 在數據系統的運維運營中,經常遇到一些人工定期重復處理的場景,比如以下這些場景: 1、利用Excel中公式/函數,將各類表格型數據進行加工處理,基于生成的圖表制作成PPT進行月度匯報; 2、每天人工檢核數據系統的離線跑批是否正常并發送值班提醒; 3、提醒業務定期進行操作,如每個月手工上傳各類
閱讀全文
摘要:
0、SQL基本用法 SQL是一個非常容易上手的語言,它類似自然語言,用直觀的邏輯去查詢數據。最簡單的SQL就是select * from table where *** order by ***,非常符合直覺。 稍微復雜一點,就是兩張表去進行關聯,此時只要確定兩張表關聯的字段就可以了。一般是拿一張事
閱讀全文
摘要:
工作十余年以來,在多個行業,不同背景的公司中從事數據開發、架構、運維等相關的崗位,深度使用或者測試過各種類型的數據平臺(包括傳統關系型數據庫、大數據平臺、圖數據庫、嵌入式數據庫、時序數據庫等)。以下是按照使用時間整理的各數據平臺使用經驗。 1、SQL Server 微軟的產品,可應對數據規模在千萬級
閱讀全文
摘要:
數據團隊運維值班主要有以下幾類工作: 一、跑批任務運維 一般來說,大部分非實時數據系統的數據時效為T-1,每日上班前要能展示昨日的數據。一般會在夜間進行對昨日的數據進行批處理。若批處理程序出現錯誤,則需要人工進行介入處理。 錯誤一般分為兩種,平臺工具問題與批處理程序問題。 平臺工具類問題,典型案列有
閱讀全文
摘要:
Python功能強大,適合多種應用場景。安裝合適的python環境是開發的第一步。下面是Windows環境下Python環境的安裝與包管理的實戰方法。 一、環境安裝 a、在線環境 如果需要安裝的環境可以連接互聯網,那么可以直接下載安裝包進行安裝。 1、首先建議下載包管理器Anaconda,這樣可以針
閱讀全文