海量数据处理(海量数据处理的算法)
主要讲述一下 Bloom Filter算法
Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合 。它是一个判断元素是否存在集合的快速的概率算法 。Bloom Filter有可能会出现错误判断,但不会漏掉判断 。也就是BloomFilter判断元素不再集合,那肯定不在 。如果判断元素存在集合中,有一定的概率判断错误 。因此,BloomFilter不适合那些“零错误”的应用场合 。
而在能容忍低错误率的应用场合下,BloomFilter比其他常见的算法(如hash,折半查找)极大节省了空间 。
BloomFilter的详细介绍:海量数据处理之Bloom Filter详解
【适用范围】
可以用来实现数据字典,进行数据的判重,或者集合求交集
【基本原理及要点】
原理要点:一是位数组,而是k个独立hash函数 。
1)位数组:
假设BloomFilter使用一个m比特的数组来保存信息,初始状态时,Bloom Filter是一个包含m位的位数组,每一位都置为0,即BF整个数组的元素都设置为0 。
2)k个独立hash函数
为了表达S={x1, x2,…,xn}这样一个n个元素的集合,BloomFilter使用k个相互独立的哈希函数(Hash Function),它们分别将集合中的每个元素映射到{1,…,m}的范围中 。
当我们往Bloom Filter中增加任意一个元素x时候,我们使用k个哈希函数得到k个哈希值,然后将数组中对应的比特位设置为1 。即第i个哈希函数映射的位置hashi(x)就会被置为1(1≤i≤k) 。注意,如果一个位置多次被置为1,那么只有第一次会起作用,后面几次将没有任何效果 。在下图中,k=3,且有两个哈希函数选中同一个位置(从左边数第五位,即第二个“1“处) 。
3)判断元素是否存在集合
在判断y是否属于这个集合时,我们只需要对y使用k个哈希函数得到k个哈希值,如果所有hashi(y)的位置都是1(1≤i≤k),即k个位置都被设置为1了,那么我们就认为y是集合中的元素,否则就认为y不是集合中的元素 。下图中y1就不是集合中的元素(因为y1有一处指向了“0”位) 。y2或者属于这个集合,或者刚好是一个false positive 。
显然这 个判断并不保证查找的结果是100%正确的 。
BloomFilter的缺点:
1)Bloom Filter无法从Bloom Filter集合中删除一个元素 。因为该元素对应的位会牵动到其他的元素 。所以一个简单的改进就是 counting Bloom filter,用一个counter数组代替位数组,就可以支持删除了 。此外,BloomFilter的hash函数选择会影响算法的效果 。
2)还有一个比较重要的问题,如何根据输入元素个数n,确定位数组m的大小及hash函数个数,即hash函数选择会影响算法的效果 。当hash函数个数k=(ln2)*(m/n)时错误率最小 。在错误率不大于E的情况 下,m至少要等于n*lg(1/E) 才能表示任意n个元素的集合 。但m还应该更大些,因为还要保证bit数组里至少一半为0,则m应 该>=nlg(1/E)*lge,大概就是nlg(1/E)1.44倍(lg表示以2为底的对数) 。
举个例子我们假设错误率为0.01,则此时m应大概是n的13倍 。这样k大概是8个 。
注意:
这里m与n的单位不同,m是bit为单位,而n则是以元素个数为单位(准确的说是不同元素的个数) 。通常单个元素的长度都是有很多bit的 。所以使用bloom filter内存上通常都是节省的 。
推荐阅读
- 金银花的功效与禁忌! 金银花的功效与作用
- 冷冻后的苦瓜怎么吃
- 新手开服装店的5个技巧 开服装店的前期准备
- 2021电脑死机的十大原因 电脑为什么老死机
- 六一儿童节美好的寄语 六一儿童节发朋友圈的句子
- 郭亚宁的七味早餐糊哪里有卖的
- 木瓜的功效与应用 木瓜的作用与功效与作用
- 祝贺国庆节祝福语大全简短 描写国庆节的佳句
- 二十四节气的起源 二十四节气表顺口溜
- 剪映默认的码率是多少