摘要:
HyperLogLog算法 也就是基數估計統計算法,預估一個集合中不同數據的個數,也就是我們常說的去重統計,在redis中也存在hyperloglog 類型的結構,能夠使用12k的內存,允許誤差在0.81%的情況下統計2^64個數據,在這種大數據量情況下能夠減少存儲空間的消耗,但是前提是允許存在一定 閱讀全文
posted @ 2020-01-12 21:12
阿甘—paul
閱讀(732)
評論(0)
推薦(0)
摘要:
在Flink去重第一彈:MapState去重中介紹了使用編碼方式完成去重,但是這種方式開發周期比較長,我們可能需要針對不同的業務邏輯實現不同的編碼,對于業務開發來說也需要熟悉Flink編碼,也會增加相應的成本,我們更多希望能夠以sql的方式提供給業務開發完成自己的去重邏輯。本篇介紹如何使用sql方式 閱讀全文
posted @ 2020-01-12 21:10
阿甘—paul
閱讀(1524)
評論(0)
推薦(0)
摘要:
去重計算應該是數據分析業務里面常見的指標計算,例如網站一天的訪問用戶數、廣告的點擊用戶數等等,離線計算是一個全量、一次性計算的過程通常可以通過distinct的方式得到去重結果,而實時計算是一種增量、長期計算過程,我們在面對不同的場景,例如數據量的大小、計算結果精準度要求等可以使用不同的方案。此篇介 閱讀全文
posted @ 2020-01-12 21:09
阿甘—paul
閱讀(1193)
評論(0)
推薦(0)
浙公網安備 33010602011771號