摘要:private final static long DATACENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT。private final static long MACHINE_LEFT = SEQUENCE_BIT。

點擊箭頭處 “藍色字” ,關注我們哦!!

在前面提到的精確去重方案都是會保存全量的數據,但是這種方式是以犧牲存儲爲代價的,而hyperloglog方式雖然減少了存儲但是損失了精度,那麼如何能夠做到精確去重又能不消耗太多的存儲呢,這篇主要講解如何使用bitmap做精確去重。

ID-mapping

在使用bitmap去重需要將去重的id轉換爲一串數字,但是我們去重的通常是一串包含字符的字符串例如設備ID,那麼第一步需要將字符串轉換爲數字,首先可能想到對字符串做hash,但是hash是會存在概率衝突的,那麼可以使用美團開源的leaf分佈式唯一自增ID算法,也可以使用Twitter開源的snowflake分佈式唯一ID雪花算法,我們選擇了實現相對較爲方便的 snowflake 算法( 從網上找的 ),代碼如下:

public class SnowFlake {


/**

* 起始的時間戳

*/

private final static long START_STMP = 1480166465631L;


/**

* 每一部分佔用的位數

*/

private final static long SEQUENCE_BIT = 12; //序列號佔用的位數


private final static long MACHINE_BIT = 5; //機器標識佔用的位數


private final static long DATACENTER_BIT = 5;//數據中心佔用的位數


/**

* 每一部分的最大值

*/

private final static long MAX_DATACENTER_NUM = -1L ^ (-1L << DATACENTER_BIT);


private final static long MAX_MACHINE_NUM = -1L ^ (-1L << MACHINE_BIT);


private final static long MAX_SEQUENCE = -1L ^ (-1L << SEQUENCE_BIT);


/**

* 每一部分向左的位移

*/

private final static long MACHINE_LEFT = SEQUENCE_BIT;


private final static long DATACENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT;


private final static long TIMESTMP_LEFT = DATACENTER_LEFT + DATACENTER_BIT;


private long datacenterId; //數據中心


private long machineId; //機器標識


private long sequence = 0L; //序列號


private long lastStmp = -1L;//上一次時間戳


public SnowFlake(long datacenterId, long machineId) {

if (datacenterId > MAX_DATACENTER_NUM || datacenterId < 0) {

throw new IllegalArgumentException("datacenterId can't be greater than MAX_DATACENTER_NUM or less than 0");

}

if (machineId > MAX_MACHINE_NUM || machineId < 0) {

throw new IllegalArgumentException("machineId can't be greater than MAX_MACHINE_NUM or less than 0");

}

this.datacenterId = datacenterId;

this.machineId = machineId;

}


/**

* 產生下一個ID

*

* @return

*/

public synchronized long nextId() {

long currStmp = getNewstmp();

if (currStmp < lastStmp) {

throw new RuntimeException("Clock moved backwards. Refusing to generate id");

}


if (currStmp == lastStmp) {

//相同毫秒內,序列號自增

sequence = (sequence + 1) & MAX_SEQUENCE;

//同一毫秒的序列數已經達到最大

if (sequence == 0L) {

currStmp = getNextMill();

}

} else {

//不同毫秒內,序列號置爲0

sequence = 0L;

}


lastStmp = currStmp;


return (currStmp - START_STMP) << TIMESTMP_LEFT //時間戳部分

| datacenterId << DATACENTER_LEFT //數據中心部分

| machineId << MACHINE_LEFT //機器標識部分

| sequence; //序列號部分

}


private long getNextMill() {

long mill = getNewstmp();

while (mill <= lastStmp) {

mill = getNewstmp();

}

return mill;

}


private long getNewstmp() {

return System.currentTimeMillis();

}



}

snowflake算法的實現是與機器碼以及時間有關的,爲了保證其高可用做了兩個機器碼不同的對外提供的服務。 那麼整個轉換流程如下圖:

首先會從Hbase中查詢是否有UID對應的ID,如果有則直接獲取,如果沒有則會調用ID-Mapping服務,然後將其對應關係存儲到Hbase中,最後返回ID至下游處理。

UDF化

爲了方便提供業務方使用,同樣需要將其封裝成爲UDF, 由於snowflake算法得到的是一個長整型,因此選擇了Roaring64NavgabelMap作爲存儲對象,由於去重是按照維度來計算,所以使用UDAF,首先定義一個accumulator:

public class PreciseAccumulator{


private Roaring64NavigableMap bitmap;


public PreciseAccumulator(){

bitmap=new Roaring64NavigableMap();

}


public void add(long id){

bitmap.addLong(id);

}


public long getCardinality(){

return bitmap.getLongCardinality();

}

}

udfa實現

public class PreciseDistinct extends AggregateFunction<Long, PreciseAccumulator> {


@Override public PreciseAccumulator createAccumulator() {

return new PreciseAccumulator();

}


public void accumulate(PreciseAccumulator accumulator,long id){

accumulator.add(id);

}


@Override public Long getValue(PreciseAccumulator accumulator) {

return accumulator.getCardinality();

}

}

那麼在實際使用中只需要註冊udaf即可。

關於去重系列就寫到這裏,如果您有不同的意見或者看法,歡迎私信。

—END—

關注回覆 Flink

獲取更多系列

原創不易,好看,就點個"在看"

相關文章