1. 合作角色 1.1. 數據分析師 1.2. 數據科學家 1.3. MLOps/機器學習工程師 1.4. 業務側 1.4.1. 數據或非技術的利益相關者、經理和高管 1.5. 數據工程師更多的是在支持這些利益相關者的工作,不一定對數據的最終使用方式負責 1.6. 數據工程師負責的是產出高質量的數據 ...
第三十四講:join語句怎么優化? 簡概: 萬年不變的開頭 ? 在上一篇文章中,我和你介紹了 join 語句的兩種算法,分別是 Index Nested-Loop Join(NLJ) 和 Block Nested-Loop Join(BNL)。我們發現在使用 NLJ 算法的時候,其實效果還是不錯的, ...
10月30日,袋鼠云成功舉辦了以“AI驅動,數智未來”為主題的2024年秋季發布會。大會深度探討了如何憑借 AI 實現新的飛躍,重塑企業的經營管理方式,加速數智化進程。 作為大會的重要環節之一,袋鼠云數棧產品經理潮汐帶來了題為《指標+AI+BI:構建數據分析新范式》的精彩演講,深入剖析了當前企業在進 ...
1. 使用場景 1.1. 為分析和BI,也就是統計分析、報表和儀表板提供數據服務 1.1.1. 是數據服務最為常見的目標 1.1.2. 這些概念的提出早于IT和數據庫,但是它們對于了解業務、組織和財務流程的利益相關者來說仍然至關重要 1.2. 為機器學習應用程序提供數據服務 1.2.1. 機器學習完 ...
第三十三講:到底可不可以使用join? 簡概: 厭煩了平淡的開頭 提出問題 ? 在實際生產中,關于 join 語句使用的問題,一般會集中在以下兩類: 我們 DBA 不讓使用 join,使用 join 有什么問題呢? 如果有兩個大小不同的表做 join,應該用哪個表做驅動表呢? 提出示例 ? 今天這篇 ...
MySQL--DAY04 索引 定義 索引是在數據庫表的字段上添加的,是為了提高查詢效率存在的一種機制。 一張表的一個字段可以添加一個索引,當然,多個字段聯合起來也可以添加索引。 索引相當于一本書的目錄,是為了縮小掃描范圍而存在的一種機制。 對于一本字典來說,查找某個漢字有兩種方式: 第一種方式:一 ...
Apache SeaTunnel作為一款高效的數據集成和同步工具,一直活躍于大數據領域。Milvus作為全球領先的開源向量數據庫,致力于推動向量數據管理和AI的應用。 在最新版本中,SeaTunnel Connector已正式支持向量數據庫Milvus,這是SeaTunnel在助力用戶提升AI應用開 ...
需求:編寫程序利用Spark Streaming 監控HDFS 目錄/input目錄下的文件,并對上傳的文件進行詞頻統計。 首先,linux中需要有netcat,來實現監聽功能,有的linux會自帶這個軟件,可以用下面的命令測試一下,如果不報錯就沒問題,Ctrl+z可以退出 nc -l 9999 沒 ...
1. 轉換 1.1. 轉換與查詢不同 1.1.1. 查詢是根據過濾和連接邏輯從各種來源檢索數據 1.1.2. 轉換將結果持久化,供其他轉換或查詢使用 1.1.2.1. 結果可以被短暫地或永久地保存 1.1.3. 除了持久性,轉換區別于查詢的另一個特點是復雜性 1.1.3.1. 你可能會建立復雜的數據 ...
MySQL--DAY03 一個案例 查詢每一個員工的所在部門名稱?要求顯示員工名和部門名。 mysql> select * from emp; + + + + + + + + + | EMPNO | ENAME | JOB | MGR | HIREDATE | SAL | COMM | DEPTNO ...
MySQL--DAY01 基本概念 數據庫:英文單詞DataBase,簡稱DB。按照一定格式存儲數據的一些文件的組合。 顧名思義:存儲數據的倉庫,實際上就是一堆文件。這些文件中存儲了具有特定格式的數據。 數據庫管理系統:DataBaseManagement,簡稱DBMS。 數據庫管理系統是專門用來管 ...
Redis的ZSet底層數據結構,ZSet類型全面解析;應用場景、底層結構、常用命令;壓縮列表ZipList、跳表SkipList;B+樹與跳表對比,MySQL為什么使用B+樹;ZSet為什么用跳表,而不是B+樹、紅黑樹、二叉樹 ...
我的服務器數據庫內存還有4個G,里面有8個G的表,現在,我要讓我的客戶機遠程連接服務器后對數據庫進行一次全表掃描,請問,我的服務器會不會因為內存被8個G的表塞得溢出而崩潰? 面試關如實問到 在我閱讀這篇文章后,我會這么跟面試官說: 第一,內存不會打滿,除非socket send buffer... ...
Redis數據結構——List類型全面解析:存儲多個有序的字符串,列表中每個字符串成為元素 Eelement,最多可以存儲 2^32-1 個元素。可對列表兩端插入(push)和彈出(pop)、獲取指定范圍的元素列表等,常見命令。 底層數據結構:3.2版本之前,底層采用**壓縮鏈表ZipList**... ...
1. 數據建模 1.1. 良好的數據架構必須反映出使用這些數據的組織的業務目標和業務邏輯 1.2. 數據湖1.0、NoSQL和大數據系統的興起,使工程師們有時是為了合理的性能提升去忽略傳統的數據建模 1.3. 數據在企業中的地位急劇上升,人們越來越認識到,建模對于實現數據科學需求層次金字塔中更高層次 ...
在一個陽光灑滿教室的溫暖午后,hr隔著騰訊會議的屏幕目光如炬得看著你,大喝一聲,你在mysql實驗中有沒有遇到sql語句kill不了的情況,所! 每一個sql語句的線程執行都有一個或多個“埋雷點”,kill query或kill 線程id都是向這個埋雷點發信號激活,所以,當這個sql語句執行到被激活... ...
mysql數據誤刪后的數據回滾 第一步:下載MyFlash工具 # 創建文件夾 mkdir /back_data cd /back_data # 下載壓縮包 wget https://codeload.github.com/Meituan-Dianping/MyFlash/zip/master # ...
1. 查詢 1.1. 通過理解查詢、建模和轉換?,你會掌握將原始數據轉化為下游利益相關者可用數據的工具 1.2. 被很多人熟知的SQL,這是最流行和通用的查詢語言 1.3. 查詢是數據工程、數據科學和數據分析的基礎 1.4. 在了解數據轉換的基本模式和技術之前,你需要了解什么是查詢、它如何在各種數據 ...
1、安裝包 Navicat 17: 鏈接:https://pan.quark.cn/s/01e0265eb7eb提取碼:wmti Navicat 16: 鏈接:https://pan.quark.cn/s/63c07b20ea7b提取碼:B9ij 2、安裝教程(這里以安裝Navicat 17 為例) ...
flashback實現數據快速復原 MyFlash 限制 僅支持 5.6 與 5.7 版本 binlog 格式必須為 row,且 binlog_row_image=full 只能回滾DML(增、刪、改) 第零步:確定日志 mysql> show variables like 'log_bin%'; ...