赞
踩
引⼊链表来处理哈希冲突;也就是将冲突元素⽤链表链接起来;这也是常⽤的处理冲突的⽅
式;但是可能出现⼀种极端情况,冲突元素⽐较多,该冲突链表过⻓,这个时候可以将这个链
表转换为红⿊树;由原来链表时间复杂度 o(n) 转换为红⿊树时间复杂度 ;那么判
断该链表过⻓的依据是多少?可以采⽤超过256(经验值)个节点的时候将链表结构转换为红
⿊树结构;
将所有的元素都存放在哈希表的数组中, 不使⽤额外的数据结构;⼀般使⽤线性探查的思路解
决;
1. 当插⼊新元素的时,使⽤哈希函数在哈希表中定位元素位置;
2. 检查数组中该槽位索引是否存在元素。如果该槽位为空,则插⼊,否则3;
3. 在 2 检测的槽位索引上加⼀定步⻓接着检查2;加⼀定步⻓分为以下⼏种:
1. i+1,i+2,i+3,i+4 ... i+n
2. i- ,i+ ,i- ,1+ ...
这两种都会导致同类hash聚集;也就是近似值它的hash值也近似,那么它的数组槽位也靠
近,形成hash聚集;第⼀种同类聚集冲突在前,第⼆种只是将聚集冲突延后;
- 在.net HashTable类的hash函数Hk定义如下:
- Hk(key) = [GetHash(key) + k * (1 + (((GetHash(key) >> 5) + 1) %
- (hashsize – 1)))] % hashsize
- 在此 (1 + (((GetHash(key) >> 5) + 1) % (hashsize – 1))) 与 hashsize
- 互为素数(两数互为素数表示两者没有共同的质因⼦);
- 执⾏了 hashsize 次探查后,哈希表中的每⼀个位置都有且只有⼀次被访问到,也就是
- 说,对于给定的 key,对哈希表中的同⼀位置不会同时使⽤ Hi 和 Hj;
红⿊树和hashtable都不能解决海量数据问题,它们都需要存储具体字符串,如果数据量⼤,提供
不了⼏百G的内存;所以需要尝试探寻不存储key的⽅案,并且拥有hashtable的优点(不需要⽐较
字符串);
当⼀个元素加⼊位图时,通过k个hash函数将这个元素映射到位图的k个点,并把它们置为
1;当检索时,再通过k个hash函数运算检测位图的k个点是否都为1;如果有不为1的点,那么认为
不存在;如果全部为1,则可能存在(存在误差);
在位图中每个槽位只有两种状态(0或者1),⼀个槽位被设置为1状态,但不明确它被设置了多少
次;也就是不知道被多少个str1哈希映射以及是被哪个hash函数映射过来的;所以不⽀持删除操
作;
在实际应⽤过程中,布隆过滤器该如何使⽤?要选择多少个hash函数,要分配多少空间的位图,存储多少元素?另外如何控制假阳率(布隆过滤器能明确⼀定不存在,不能明确⼀定存在,那么存在的判断是有误差的,假阳率就是错误判断存在的概率)?
- n -- 布隆过滤器中元素的个数,如上图 只有str1和str2 两个元素 那么 n=2
- p -- 假阳率,在0-1之间 0.000000
- m -- 位图所占空间
- k -- hash函数的个数
- 公式如下:
- n = ceil(m / (-k / log(1 - exp(log(p) / k))))
- p = pow(1 - exp(-k / (m / n)), k)
- m = ceil((n * log(p)) / log(1 / pow(2, log(2))));
- k = round((m / n) * log(2));
在实际应⽤中,我们确定n和p,通过上⾯的计算算出m和k;也可以在⽹站上选取合适的值:
Bloom filter calculator
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。