Flink去重第四彈:bitmap精確去重
摘要:private final static long DATACENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT。private final static long MACHINE_LEFT = SEQUENCE_BIT。
點擊箭頭處 “藍色字” ,關注我們哦!!
往期精彩回顧
在前面提到的精確去重方案都是會保存全量的數據,但是這種方式是以犧牲存儲爲代價的,而hyperloglog方式雖然減少了存儲但是損失了精度,那麼如何能夠做到精確去重又能不消耗太多的存儲呢,這篇主要講解如何使用bitmap做精確去重。
ID-mapping
在使用bitmap去重需要將去重的id轉換爲一串數字,但是我們去重的通常是一串包含字符的字符串例如設備ID,那麼第一步需要將字符串轉換爲數字,首先可能想到對字符串做hash,但是hash是會存在概率衝突的,那麼可以使用美團開源的leaf分佈式唯一自增ID算法,也可以使用Twitter開源的snowflake分佈式唯一ID雪花算法,我們選擇了實現相對較爲方便的 snowflake 算法( 從網上找的 ),代碼如下:
public class SnowFlake {
/**
* 起始的時間戳
*/
private final static long START_STMP = 1480166465631L;
/**
* 每一部分佔用的位數
*/
private final static long SEQUENCE_BIT = 12; //序列號佔用的位數
private final static long MACHINE_BIT = 5; //機器標識佔用的位數
private final static long DATACENTER_BIT = 5;//數據中心佔用的位數
/**
* 每一部分的最大值
*/
private final static long MAX_DATACENTER_NUM = -1L ^ (-1L << DATACENTER_BIT);
private final static long MAX_MACHINE_NUM = -1L ^ (-1L << MACHINE_BIT);
private final static long MAX_SEQUENCE = -1L ^ (-1L << SEQUENCE_BIT);
/**
* 每一部分向左的位移
*/
private final static long MACHINE_LEFT = SEQUENCE_BIT;
private final static long DATACENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT;
private final static long TIMESTMP_LEFT = DATACENTER_LEFT + DATACENTER_BIT;
private long datacenterId; //數據中心
private long machineId; //機器標識
private long sequence = 0L; //序列號
private long lastStmp = -1L;//上一次時間戳
public SnowFlake(long datacenterId, long machineId) {
if (datacenterId > MAX_DATACENTER_NUM || datacenterId < 0) {
throw new IllegalArgumentException("datacenterId can't be greater than MAX_DATACENTER_NUM or less than 0");
}
if (machineId > MAX_MACHINE_NUM || machineId < 0) {
throw new IllegalArgumentException("machineId can't be greater than MAX_MACHINE_NUM or less than 0");
}
this.datacenterId = datacenterId;
this.machineId = machineId;
}
/**
* 產生下一個ID
*
* @return
*/
public synchronized long nextId() {
long currStmp = getNewstmp();
if (currStmp < lastStmp) {
throw new RuntimeException("Clock moved backwards. Refusing to generate id");
}
if (currStmp == lastStmp) {
//相同毫秒內,序列號自增
sequence = (sequence + 1) & MAX_SEQUENCE;
//同一毫秒的序列數已經達到最大
if (sequence == 0L) {
currStmp = getNextMill();
}
} else {
//不同毫秒內,序列號置爲0
sequence = 0L;
}
lastStmp = currStmp;
return (currStmp - START_STMP) << TIMESTMP_LEFT //時間戳部分
| datacenterId << DATACENTER_LEFT //數據中心部分
| machineId << MACHINE_LEFT //機器標識部分
| sequence; //序列號部分
}
private long getNextMill() {
long mill = getNewstmp();
while (mill <= lastStmp) {
mill = getNewstmp();
}
return mill;
}
private long getNewstmp() {
return System.currentTimeMillis();
}
}
snowflake算法的實現是與機器碼以及時間有關的,爲了保證其高可用做了兩個機器碼不同的對外提供的服務。 那麼整個轉換流程如下圖:
首先會從Hbase中查詢是否有UID對應的ID,如果有則直接獲取,如果沒有則會調用ID-Mapping服務,然後將其對應關係存儲到Hbase中,最後返回ID至下游處理。
UDF化
爲了方便提供業務方使用,同樣需要將其封裝成爲UDF, 由於snowflake算法得到的是一個長整型,因此選擇了Roaring64NavgabelMap作爲存儲對象,由於去重是按照維度來計算,所以使用UDAF,首先定義一個accumulator:
public class PreciseAccumulator{
private Roaring64NavigableMap bitmap;
public PreciseAccumulator(){
bitmap=new Roaring64NavigableMap();
}
public void add(long id){
bitmap.addLong(id);
}
public long getCardinality(){
return bitmap.getLongCardinality();
}
}
udfa實現
public class PreciseDistinct extends AggregateFunction<Long, PreciseAccumulator> {
@Override public PreciseAccumulator createAccumulator() {
return new PreciseAccumulator();
}
public void accumulate(PreciseAccumulator accumulator,long id){
accumulator.add(id);
}
@Override public Long getValue(PreciseAccumulator accumulator) {
return accumulator.getCardinality();
}
}
那麼在實際使用中只需要註冊udaf即可。
關於去重系列就寫到這裏,如果您有不同的意見或者看法,歡迎私信。
—END—
關注回覆 Flink
獲取更多系列
原創不易,好看,就點個"在看"