Flink去重第四彈：bitmap精確去重

摘要：private final static long DATACENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT。private final static long MACHINE_LEFT = SEQUENCE_BIT。

點擊箭頭處 “藍色字” ，關注我們哦！！

往期精彩回顧

Flink去重第一彈:MapState去重

Flink去重第二彈：SQL方式

Flink去重第三彈：HyperLogLog去重

關於hyperloglog去重優化

不得不掌握的三種BitMap

在前面提到的精確去重方案都是會保存全量的數據，但是這種方式是以犧牲存儲爲代價的，而hyperloglog方式雖然減少了存儲但是損失了精度，那麼如何能夠做到精確去重又能不消耗太多的存儲呢，這篇主要講解如何使用bitmap做精確去重。

ID-mapping

在使用bitmap去重需要將去重的id轉換爲一串數字，但是我們去重的通常是一串包含字符的字符串例如設備ID，那麼第一步需要將字符串轉換爲數字，首先可能想到對字符串做hash，但是hash是會存在概率衝突的，那麼可以使用美團開源的leaf分佈式唯一自增ID算法，也可以使用Twitter開源的snowflake分佈式唯一ID雪花算法，我們選擇了實現相對較爲方便的 snowflake 算法( 從網上找的 )，代碼如下：

public class SnowFlake {

    /**
     * 起始的時間戳
     */
    private final static long START_STMP = 1480166465631L;

    /**
     * 每一部分佔用的位數
     */
    private final static long SEQUENCE_BIT = 12; //序列號佔用的位數

    private final static long MACHINE_BIT = 5;   //機器標識佔用的位數

    private final static long DATACENTER_BIT = 5;//數據中心佔用的位數

    /**
     * 每一部分的最大值
     */
    private final static long MAX_DATACENTER_NUM = -1L ^ (-1L << DATACENTER_BIT);

    private final static long MAX_MACHINE_NUM = -1L ^ (-1L << MACHINE_BIT);

    private final static long MAX_SEQUENCE = -1L ^ (-1L << SEQUENCE_BIT);

    /**
     * 每一部分向左的位移
     */
    private final static long MACHINE_LEFT = SEQUENCE_BIT;

    private final static long DATACENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT;

    private final static long TIMESTMP_LEFT = DATACENTER_LEFT + DATACENTER_BIT;

    private long datacenterId;  //數據中心

    private long machineId;     //機器標識

    private long sequence = 0L; //序列號

    private long lastStmp = -1L;//上一次時間戳

    public SnowFlake(long datacenterId, long machineId) {
        if (datacenterId > MAX_DATACENTER_NUM || datacenterId < 0) {
            throw new IllegalArgumentException("datacenterId can't be greater than MAX_DATACENTER_NUM or less than 0");
        }
        if (machineId > MAX_MACHINE_NUM || machineId < 0) {
            throw new IllegalArgumentException("machineId can't be greater than MAX_MACHINE_NUM or less than 0");
        }
        this.datacenterId = datacenterId;
        this.machineId = machineId;
    }

    /**
     * 產生下一個ID
     *
     * @return
     */
    public synchronized long nextId() {
        long currStmp = getNewstmp();
        if (currStmp < lastStmp) {
            throw new RuntimeException("Clock moved backwards.  Refusing to generate id");
        }

        if (currStmp == lastStmp) {
            //相同毫秒內，序列號自增
            sequence = (sequence + 1) & MAX_SEQUENCE;
            //同一毫秒的序列數已經達到最大
            if (sequence == 0L) {
                currStmp = getNextMill();
            }
        } else {
            //不同毫秒內，序列號置爲0
            sequence = 0L;
        }

        lastStmp = currStmp;

        return (currStmp - START_STMP) << TIMESTMP_LEFT //時間戳部分
                | datacenterId << DATACENTER_LEFT       //數據中心部分
                | machineId << MACHINE_LEFT             //機器標識部分
                | sequence;                             //序列號部分
    }

    private long getNextMill() {
        long mill = getNewstmp();
        while (mill <= lastStmp) {
            mill = getNewstmp();
        }
        return mill;
    }

    private long getNewstmp() {
        return System.currentTimeMillis();
    }


}

snowflake算法的實現是與機器碼以及時間有關的，爲了保證其高可用做了兩個機器碼不同的對外提供的服務。那麼整個轉換流程如下圖：

首先會從Hbase中查詢是否有UID對應的ID，如果有則直接獲取，如果沒有則會調用ID-Mapping服務，然後將其對應關係存儲到Hbase中，最後返回ID至下游處理。

UDF化

爲了方便提供業務方使用，同樣需要將其封裝成爲UDF, 由於snowflake算法得到的是一個長整型，因此選擇了Roaring64NavgabelMap作爲存儲對象，由於去重是按照維度來計算，所以使用UDAF，首先定義一個accumulator:

public class PreciseAccumulator{

    private Roaring64NavigableMap bitmap;

    public PreciseAccumulator(){
        bitmap=new Roaring64NavigableMap();
    }

    public void add(long id){
        bitmap.addLong(id);
    }

    public long getCardinality(){
        return bitmap.getLongCardinality();
    }
}

udfa實現

public class PreciseDistinct extends AggregateFunction<Long, PreciseAccumulator> {

    @Override public PreciseAccumulator createAccumulator() {
        return new PreciseAccumulator();
    }

    public void accumulate(PreciseAccumulator accumulator,long id){
        accumulator.add(id);
    }

    @Override public Long getValue(PreciseAccumulator accumulator) {
        return accumulator.getCardinality();
    }
}