摘要:
后續個人的一些技術總結文章會寫在自己的個人博客上:歡迎關注:xxx Ps:技術探討歡迎提 issue 或者 email。 QQ:1170382650 郵箱:1170382650@qq.com Java Java基礎 深入理解Java:String CoreJava:異常 CoreJava:泛型 深入
閱讀全文
posted @ 2017-09-24 00:58
^_TONY_^
閱讀(1482)
推薦(3)
摘要:
本文轉載自https://tech.meituan.com/cache_about.html,感謝原作者的貢獻
閱讀全文
posted @ 2017-12-30 12:27
^_TONY_^
閱讀(451)
推薦(0)
摘要:
轉載自:http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ,感謝原作者。 簡介 HBase —— Hadoop Database的簡稱,Google BigTable的另一種開源實現方式,從問世之初,就為了解決用大量廉價的機器高速存取
閱讀全文
posted @ 2017-12-28 17:54
^_TONY_^
閱讀(625)
推薦(1)
摘要:
轉自https://tech.meituan.com/spark-tuning-pro.html,感謝原作者的貢獻 前言 繼基礎篇講解了每個Spark開發人員都必須熟知的開發調優與資源調優之后,本文作為《Spark性能優化指南》的高級篇,將深入分析數據傾斜調優與shuffle調優,以解決更加棘手的性
閱讀全文
posted @ 2017-12-28 12:46
^_TONY_^
閱讀(766)
推薦(0)
摘要:
http://blog.csdn.net/zhangerqing/article/details/43057799 http://www.rzrgm.cn/dengzz/p/5688021.html
閱讀全文
posted @ 2017-12-21 23:36
^_TONY_^
閱讀(1187)
推薦(0)
摘要:
悲觀鎖(Pessimistic Lock), 顧名思義,就是很悲觀,每次去拿數據的時候都認為別人會修改,所以每次在拿數據的時候都會上鎖,這樣別人想拿這個數據就會block直到它拿到鎖。傳統的關系型數據庫里邊就用到了很多這種鎖機制,比如行鎖,表鎖等,讀鎖,寫鎖等,都是在做操作之前先上鎖。 樂觀鎖(Op
閱讀全文
posted @ 2017-12-21 23:27
^_TONY_^
閱讀(1653)
推薦(0)
摘要:
轉載自:http://www.importnew.com/14604.html Java虛擬機規范規定JVM的內存分為了好幾塊,比如堆,棧,程序計數器,方法區等,而Hotspot jvm的實現中,將堆內存分為了三部分,新生代,老年代,持久帶,其中持久帶實現了規范中規定的方法區,而內存模型中不同的部分
閱讀全文
posted @ 2017-12-21 23:06
^_TONY_^
閱讀(1003)
推薦(0)
摘要:
http://www.rzrgm.cn/leesf456/p/6022357.html http://www.rzrgm.cn/leesf456/p/6028416.html
閱讀全文
posted @ 2017-12-12 17:38
^_TONY_^
閱讀(423)
推薦(0)
摘要:
Kafka是什么 Kafka是最初由Linkedin公司開發,是一個分布式、分區的、多副本的、多訂閱者,基于zookeeper協調的分布式日志系統(也可以當做MQ系統),常見可以用于web/nginx日志、訪問日志,消息服務等等,Linkedin于2010年貢獻給了Apache基金會并成為頂級開源項
閱讀全文
posted @ 2017-12-12 12:47
^_TONY_^
閱讀(16901)
推薦(0)
摘要:
本文轉載自http://www.rzrgm.cn/cyfonly/p/5954614.html 一、為什么需要消息系統 二、kafka 架構 2.1 拓撲結構 如下圖: 圖.1 2.2 相關概念 如圖.1中,kafka 相關名詞解釋如下: 2.3 zookeeper 節點 kafka 在 zo
閱讀全文
posted @ 2017-12-12 10:59
^_TONY_^
閱讀(5710)
推薦(1)
摘要:
本文轉自:http://tech.meituan.com/spark-tuning-basic.html 感謝原作者 前言 在大數據計算領域,Spark已經成為了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各種
閱讀全文
posted @ 2017-12-11 14:31
^_TONY_^
閱讀(957)
推薦(0)
摘要:
當使用sparkstreaming處理流式數據的時候,它的數據源搭檔大部分都是Kafka,尤其是在互聯網公司頗為常見。 當他們集成的時候我們需要重點考慮就是如果程序發生故障,或者升級重啟,或者集群宕機,它究竟能否做到數據不丟不重呢? 也就是通常我們所說的高可靠和穩定性,通常框架里面都帶有不同層次的消
閱讀全文
posted @ 2017-12-11 13:58
^_TONY_^
閱讀(2181)
推薦(0)
摘要:
1、簡介 Spark Streaming處理的數據流圖: Spark Streaming在內部的處理機制是,接收實時流的數據,并根據一定的時間間隔拆分成一批批的數據,然后通過Spark Engine處理這些批數據,最終得到處理后的一批批結果數據。 對應的批數據,在Spark內核對應一個RDD實例,因
閱讀全文
posted @ 2017-12-08 17:44
^_TONY_^
閱讀(3623)
推薦(1)
摘要:
RDD是什么? RDD (resilientdistributed dataset),指的是一個只讀的,可分區的分布式數據集,這個數據集的全部或部分可以緩存在內存中,在多次計算間重用。 RDD內部可以有許多分區(partitions),每個分區又擁有大量的記錄(records)。 五個特征: dep
閱讀全文
posted @ 2017-12-04 15:35
^_TONY_^
閱讀(19651)
推薦(2)
摘要:
一、 廣播變量 廣播變量允許程序員將一個只讀的變量緩存在每臺機器上,而不用在任務之間傳遞變量。廣播變量可被用于有效地給每個節點一個大輸入數據集的副本。Spark還嘗試使用高效地廣播算法來分發變量,進而減少通信的開銷。 Spark的動作通過一系列的步驟執行,這些步驟由分布式的洗牌操作分開。Spark自
閱讀全文
posted @ 2017-12-03 23:15
^_TONY_^
閱讀(3760)
推薦(0)
摘要:
Hadoop 和 Spark 的關系 Spark 運算比 Hadoop 的 MapReduce 框架快的原因是因為 Hadoop 在一次 MapReduce 運算之后,會將數據的運算結果從內存寫入到磁盤中,第二次 Mapredue 運算時在從磁盤中讀取數據,所以其瓶頸在2次運算間的多余 IO 消耗.
閱讀全文
posted @ 2017-12-03 23:13
^_TONY_^
閱讀(2978)
推薦(0)
摘要:
Spark On Yarn的優勢 每個Spark executor作為一個YARN容器(container)運行。Spark可以使得多個Tasks在同一個容器(container)里面運行 1. Spark支持資源動態共享,運行于Yarn的框架都共享一個集中配置好的資源池 2. 可以很方便的利用Ya
閱讀全文
posted @ 2017-12-03 21:21
^_TONY_^
閱讀(19415)
推薦(9)
摘要:
yum install -y ntp gcc make lrzsz wget vim sysstat.x86_64 xinetd screen expect rsync bind-utils iotop dstat nethogs openssl-devel openssh-clients 1) 配
閱讀全文
posted @ 2017-11-18 16:02
^_TONY_^
閱讀(1862)
推薦(0)
摘要:
觀察報錯的主要信息: 用戶yarn在改文件上執行寫操作時被權限系統拒絕, parquet文件的權限為755 Hadoop分布式文件系統實現了一個和POSIX系統類似的文件和目錄的權限模型。每個文件和目錄有一個所有者(owner)和一個組(group)。文件或目錄對其所有者、同組的其他用戶以及所有其他
閱讀全文
posted @ 2017-11-01 17:04
^_TONY_^
閱讀(14818)
推薦(0)
摘要:
1、limit限制調整 一般情況下,Limit語句還是需要執行整個查詢語句,然后再返回部分結果。 有一個配置屬性可以開啟,避免這種情況 對數據源進行抽樣 hive.limit.optimize.enable=true 開啟對數據源進行采樣的功能 hive.limit.row.max.size 設置最
閱讀全文
posted @ 2017-10-17 17:45
^_TONY_^
閱讀(14249)
推薦(2)
摘要:
一、Parquet的組成 Parquet僅僅是一種存儲格式,它是語言、平臺無關的,并且不需要和任何一種數據處理框架綁定,目前能夠和Parquet適配的組件包括下面這些,可以看出基本上通常使用的查詢引擎和計算框架都已適配,并且可以很方便的將其它序列化工具生成的數據轉換成Parquet格式。 查詢引擎:
閱讀全文
posted @ 2017-10-17 12:30
^_TONY_^
閱讀(44602)
推薦(1)
摘要:
一、ORC File文件結構 ORC的全稱是(Optimized Row Columnar),ORC文件格式是一種Hadoop生態圈中的列式存儲格式,它的產生早在2013年初,最初產生自Apache Hive,用于降低Hadoop數據存儲空間和加速Hive查詢速度。和Parquet類似,它并不是一個
閱讀全文
posted @ 2017-10-16 17:25
^_TONY_^
閱讀(58949)
推薦(11)
摘要:
背景 寫這篇文章主要是介紹一下我做數據倉庫ETL同步的過程中遇到的一些有意思的內容和提升程序運行效率的過程。 關系型數據庫: 項目初期:游戲的運營數據比較輕量,相關的運營數據是通過Java后臺程序聚合查詢關系型數據庫MySQL完全可以應付,系統通過定時任務每日統計相關數據,等待運營人員查詢即可。 項
閱讀全文
posted @ 2017-09-29 18:14
^_TONY_^
閱讀(11016)
推薦(1)
摘要:
周末看到一個用jstack查看死鎖的例子。昨天晚上總結了一下jstack(查看線程)、jmap(查看內存)和jstat(性能分析)命令。供大家參考 1.Jstack 1.1 jstack能得到運行java程序的java stack和native stack的信息。可以輕松得知當前線程的運行情況。如下
閱讀全文
posted @ 2017-09-28 23:14
^_TONY_^
閱讀(1526)
推薦(0)
摘要:
一、 背景 線程是稀缺資源,如果無限制的創建,不僅會消耗系統資源,還會降低系統的穩定性,合理的使用線程池可以對線程進行統一的分配、調優和監控,并有以下好處: 第一:降低資源消耗。通過重復利用已創建的線程降低線程創建和銷毀造成的消耗。 第二:提高響應速度。當任務到達時,任務可以不需要等到線程創建就能立
閱讀全文
posted @ 2017-09-28 21:50
^_TONY_^
閱讀(1213)
推薦(1)
摘要:
一、什么是CopyOnWrite容器 CopyOnWrite容器即寫時復制的容器。通俗的理解是當我們往一個容器添加元素的時候,不直接往當前容器添加,而是先將當前容器進行Copy,復制出一個新的容器,然后新的容器里添加元素,添加完元素之后,再將原容器的引用指向新的容器。這樣做的好處是我們可以對Copy
閱讀全文
posted @ 2017-09-28 16:55
^_TONY_^
閱讀(676)
推薦(0)
摘要:
1. 什么是阻塞隊列 阻塞隊列(BlockingQueue)是 Java 5 并發新特性中的內容,阻塞隊列的接口是 java.util.concurrent.BlockingQueue,它提供了兩個附加操作:當隊列中為空時,從隊列中獲取元素的操作將被阻塞;當隊列滿時,向隊列中添加元素的操作將被阻塞。
閱讀全文
posted @ 2017-09-28 16:27
^_TONY_^
閱讀(2560)
推薦(1)
摘要:
場景描述: 多線程設計過程中,經常會遇到需要等待其它線程結束以后再做其他事情的情況。 有幾種方案: 1.在主線程中設置一自定義全局計數標志,在工作線程完成時,計數減1。主線程偵測該標志是否為0,一旦為0,表示所有工作線程已經完成。 2.使用Java標準的類CountDownLatch來完成這項工作,
閱讀全文
posted @ 2017-09-27 18:17
^_TONY_^
閱讀(3033)
推薦(0)
摘要:
參考資料: 程曉明:Java內存模型 《Java并發編程的藝術》 《深入理解Java虛擬機:JVM高級特性與最佳實踐》
閱讀全文
posted @ 2017-09-27 17:21
^_TONY_^
閱讀(975)
推薦(1)
摘要:
一、線程安全性 定義:多個線程之間的操作無論采用何種執行時序或交替方式,都要保證不變性條件不被破壞 “共享”:變量可以由多個線程同時訪問; “可變”:變量的值在其生命周期內可以發生改變 如果當多個線程訪問同一個可變的狀態變量時,沒有使用合適的同步,那么程序將會出現錯誤。有三種方式可以修復該問題: 不
閱讀全文
posted @ 2017-09-27 16:17
^_TONY_^
閱讀(1002)
推薦(0)
摘要:
一.內存模型的相關概念 大家都知道,計算機在執行程序時,每條指令都是在CPU中執行的,而執行指令過程中,勢必涉及到數據的讀取和寫入。由于程序運行過程中的臨時數據是存放在主存(物理內存)當中的,這時就存在一個問題,由于CPU執行速度很快,而從內存讀取數據和向內存寫入數據的過程跟CPU執行指令的速度比起
閱讀全文
posted @ 2017-09-24 01:55
^_TONY_^
閱讀(962)
推薦(0)