当前位置:首页 » 净水方式 » guava过滤器

guava过滤器

发布时间: 2021-04-15 08:47:03

『壹』 如何使用bloomfilter构建大型java缓存系统

在如今的软件当中,缓存是解决很多问题的一个关键概念。你的应用可能会进行CPU密集型运算。你当然不想让这些运算一边又一边的重复执行,相反,你可以只执行一次, 把这个结果放在内存中作为缓存。有时系统的瓶颈在I/O操作上,比如你不想重复的查询数据库,你想把结果缓存起来,只在数据发生变化时才去数据查询来更新缓存。
与上面的情况类似,有些场合下我们需要进行快速的查找来决定如何处理新来的请求。例如,考虑下面这种情况,你需要确认一个URL是否指向一个恶意网站,这种需求可能会有很多。如果我们把所有恶意网站的URL缓存起来,那么会占用很大的空间。或者另一种情况,需要确认用户输入的字符串是包含了美国的地名。像“华盛顿的博物馆”——在这个字符串中,华盛顿是美国的一个地名。我们应该把美国所有的地名保存在内存中然后再查询吗?那样的话缓存会有多大?是否能在不使用数据库的前提下来高效地完成?
这就是为什么我们要跨越基本的数据结构map,在更高级的数据结构像布隆过滤器(bloomfilter)中来寻找答案。你可以把布隆过滤器看做Java中的集合(collection),你可以往它里面添加元素,查询某个元素是否存在(就像一个HashSet)。如果布隆过滤器说没有这个元素,这个结果可能是错误的。如果我们在设计布隆过滤器时足够细心,我们可以把这种出错的概率控制在可接受范围内。
解释
布隆过滤器被设计为一个具有N的元素的位数组A(bit array),初始时所有的位都置为0.
添加元素
要添加一个元素,我们需要提供k个哈希函数。每个函数都能返回一个值,这个值必须能够作为位数组的索引(可以通过对数组长度进行取模得到)。然后,我们把位数组在这个索引处的值设为1。例如,第一个哈希函数作用于元素I上,返回x。类似的,第二个第三个哈希函数返回y与z,那么:
A[x]=A[y]=A[z] = 1

查找元素
查找的过程与上面的过程类似,元素将会被会被不同的哈希函数处理三次,每个哈希函数都返回一个作为位数组索引值的整数,然后我们检测位数组在x、y与z处的值是否为1。如果有一处不为1,那么就说明这个元素没有被添加到这个布隆过滤器中。如果都为1,就说明这个元素在布隆过滤器里面。当然,会有一定误判的概率。
算法优化
通过上面的解释我们可以知道,如果想设计出一个好的布隆过滤器,我们必须遵循以下准则:
好的哈希函数能够尽可能的返回宽范围的哈希值。
位数组的大小(用m表示)非常重要:如果太小,那么所有的位很快就都会被赋值为1,这样就增加了误判的几率。
哈希函数的个数(用k表示)对索引值的均匀分配也很重要。
计算m的公式如下:
m = - nlog p / (log2)^2;

这里p为可接受的误判率。
计算k的公式如下:
k = m/n log(2) ;

这里k=哈希函数个数,m=位数组个数,n=待检测元素的个数(后面会用到这几个字母)。
哈希算法
哈希算法是影响布隆过滤器性能的地方。我们需要选择一个效率高但不耗时的哈希函数,在论文《更少的哈希函数,相同的性能指标:构造一个更好的布隆过滤器》中,讨论了如何选用2个哈希函数来模拟k个哈希函数。首先,我们需要计算两个哈希函数h1(x)与h2(x)。然后,我们可以用这两个哈希函数来模仿产生k个哈希函数的效果:
gi(x) = h1(x) + ih2(x);

这里i的取值范围是1到k的整数。
Google guava类库使用这个技巧实现了一个布隆过滤器,哈希算法的主要逻辑如下:
long hash64 = …; //calculate a 64 bit hash function
//split it in two halves of 32 bit hash values
int hash1 = (int) hash64;
int hash2 = (int) (hash64 >>> 32);
//Generate k different hash functions with a simple loop
for (int i = 1; i <= numHashFunctions; i++) {
int nextHash = hash1 + i * hash2;
}

应用
从数学公式中,我们可以很明显的知道使用布隆过滤器来解决问题。但是,我们需要很好地理解布隆过滤器所能解决问题的领域。像我们可以使用布隆过滤器来存放美国的所有城市,因为城市的数量是可以大概确定的,所以我们可以确定n(待检测元素的个数)的值。根据需求来修改p(误判概率)的值,在这种情况下,我们能够设计出一个查询耗时少,内存使用率高的缓存机制。
实现
Google Guava类库有一个实现,查看这个类的构造函数,在这里面需要设置待检测元素的个数与误判率。
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

//Create Bloomfilter
int expectedInsertions = ….;
double fpp = 0.03; // desired false positive probability
BloomFilter<CharSequence> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.forName("UTF-8")), expectedInsertions,fpp)

『贰』 请按分类要求写英语单词

公共场所:park, hospital, museum, market, restaurant
各种房间:living room, kitchen, bathroom,study
身体部位:elbow, knee, leg, arm, stomach
性格印象:optimistic,pessimistic, careful, fathful,energetic,responsible, realistic, logical
日常用品:soap, towel, toothbrush, toothpaste, fork, chopstick,
常见疾病:fever, ulcer, headache, indigestion, flu, stomachache
形状尺码:round, oval-shaped, square, triangle,
颜色:red, orange, yellow, green, blue, violet, purple, brown, balck, white, gray, pink,
月份:January, February, March, April, May, June, July, August, September, October, November, December,
方向:left, tight,
位置:front, back, above, below,
天气:sunny, cloudy, snowy, rainy, foggy, typhooon, tsunami,tornado
水果:guave, watermelon, pear, banana,tomato, mango, kiwi, melon, strawberry, peach, grape, lemon, pineapple, apple, passion fruit
蔬菜:muchroom, asparagus, celery, chestnut, cucumber, eggplant, ginger, onion, corn, pea, pepper,
食物:staak, sandwich, soup, pizza, pasta, cake, hamburger, ham, bread,
饮料:soda, juice, beer, white wine, red wine, milk, tea, soy milk,
动物:dog, cat, goldfish, bear, deer, camel, dolphin, lion, monkey, panda,tiger, sheep, turtle, fox, penguin, rabbit,

『叁』 求 西餐各种酱料和餐具的英文表达,要全面,谢啦

All kinds of sauces and tableware for Western food

词汇详解:

kind

一、读音

英 [kaɪnd] 美 [kaɪnd]

二、释义

n、同类的人(或事物);种类。

adj、体贴的;慈祥的;宽容的;客气请求或命令。

三、语法

a kind of:(informal) (表示不确切)某种,几分,隐约。

(3)guava过滤器扩展阅读:

kind近义词:class

词汇详解:

一、读音

英 [klɑːs] 美 [klæs]

二、释义

n、班;班级;课;上课;(某科目的)系列课程。

v、把…归入某等级;把…看作。

adj、很好的;优秀的;出色的。

三、语法

the chattering classes:(BrE) 喜欢(对政治或社会问题)发表意见的人。

『肆』 一个合格的Java开发工程师应该具备哪些技能

.CoreJava,就是Java基础、JDK的类库,很多童鞋都会说,JDK我懂,但是懂还不足够,知其然还要知其所以然,JDK的源代码写的非常好,要经常查看,对使用频繁的类,比如String,集合类(List,Map,Set)等数据结构要知道它们的实现,不同的集合类有什么区别,然后才能知道在一个具体的场合下使用哪个集合类更适合、更高效,这些内容直接看源代码就OK了2.多线程并发编程,现在并发几乎是写服务端程序必须的技术,那对Java中的多线程就要有足够的熟悉,包括对象锁机制、synchronized关键字,concurrent包都要非常熟悉,这部分推荐你看看《Java并发编程实践》这本书,讲解的很详细3.I/O,Socket编程,首先要熟悉Java中Socket编程,以及I/O包,再深入下去就是JavaNIO,再深入下去是操作系统底层的Socket实现,了解Windows和Linux中是怎么实现socket的4.JVM的一些知识,不需要熟悉,但是需要了解,这是Java的本质,可以说是Java的母体,了解之后眼界会更宽阔,比如Java内存模型(会对理解Java锁、多线程有帮助)、字节码、JVM的模型、各种垃圾收集器以及选择、JVM的执行参数(优化JVM)等等,这些知识在《深入Java虚拟机》这本书中都有详尽的解释,或者去oracle网站上查看具体版本的JVM规范.5.一些常用的设计模式,比如单例、模板方法、代理、适配器等等,以及在CoreJava和一些Java框架里的具体场景的实现,这个可能需要慢慢积累,先了解有哪些使用场景,见得多了,自己就自然而然会去用。6.常用数据库(Oracle、MySQL等)、SQL语句以及一般的优化7.JavaWeb开发的框架,比如Spring、iBatis等框架,同样他们的原理才是最重要的,至少要知道他们的大致原理。8.其他一些有名的用的比较多的开源框架和包,Netty网络框架,Apachecommon的N多包,Google的Guava等等,也可以经常去Github上找一些代码看看

『伍』 如何使用bloomfilter构建大型Java缓存系统

在如今的软件当中,缓存是解决很多问题的一个关键概念。你的应用可能会进行CPU密集型运算。你当然不想让这些运算一边又一边的重复执行,相反,你可以只执行一次, 把这个结果放在内存中作为缓存。有时系统的瓶颈在I/O操作上,比如你不想重复的查询数据库,你想把结果缓存起来,只在数据发生变化时才去数据查询来更新缓存。
与上面的情况类似,有些场合下我们需要进行快速的查找来决定如何处理新来的请求。例如,考虑下面这种情况,你需要确认一个URL是否指向一个恶意网站,这种需求可能会有很多。如果我们把所有恶意网站的URL缓存起来,那么会占用很大的空间。或者另一种情况,需要确认用户输入的字符串是包含了美国的地名。像“华盛顿的博物馆”——在这个字符串中,华盛顿是美国的一个地名。我们应该把美国所有的地名保存在内存中然后再查询吗?那样的话缓存会有多大?是否能在不使用数据库的前提下来高效地完成?
这就是为什么我们要跨越基本的数据结构map,在更高级的数据结构像布隆过滤器(bloomfilter)中来寻找答案。你可以把布隆过滤器看做Java中的集合(collection),你可以往它里面添加元素,查询某个元素是否存在(就像一个HashSet)。如果布隆过滤器说没有这个元素,那么可以肯定不含有这个元素,但是如果布隆过滤器说有某个元素,那么这个结果可能是错误的。如果我们在设计布隆过滤器时足够细心,我们可以把这种出错的概率控制在可接受范围内。
解释

布隆过滤器被设计为一个具有N的元素的位数组A(bit array),初始时所有的位都置为0.
添加元素
要添加一个元素,我们需要提供k个哈希函数。每个函数都能返回一个值,这个值必须能够作为位数组的索引(可以通过对数组长度进行取模得到)。然后,我们把位数组在这个索引处的值设为1。例如,第一个哈希函数作用于元素I上,返回x。类似的,第二个第三个哈希函数返回y与z,那么:
A[x]=A[y]=A[z] = 1

查找元素
查找的过程与上面的过程类似,元素将会被会被不同的哈希函数处理三次,每个哈希函数都返回一个作为位数组索引值的整数,然后我们检测位数组在x、y与z处的值是否为1。如果有一处不为1,那么就说明这个元素没有被添加到这个布隆过滤器中。如果都为1,就说明这个元素在布隆过滤器里面。当然,会有一定误判的概率。
算法优化
通过上面的解释我们可以知道,如果想设计出一个好的布隆过滤器,我们必须遵循以下准则:
好的哈希函数能够尽可能的返回宽范围的哈希值。
位数组的大小(用m表示)非常重要:如果太小,那么所有的位很快就都会被赋值为1,这样就增加了误判的几率。
哈希函数的个数(用k表示)对索引值的均匀分配也很重要。
计算m的公式如下:
m = - nlog p / (log2)^2;

这里p为可接受的误判率。
计算k的公式如下:
k = m/n log(2) ;

这里k=哈希函数个数,m=位数组个数,n=待检测元素的个数(后面会用到这几个字母)。
哈希算法
哈希算法是影响布隆过滤器性能的地方。我们需要选择一个效率高但不耗时的哈希函数,在论文《更少的哈希函数,相同的性能指标:构造一个更好的布隆过滤器》中,讨论了如何选用2个哈希函数来模拟k个哈希函数。首先,我们需要计算两个哈希函数h1(x)与h2(x)。然后,我们可以用这两个哈希函数来模仿产生k个哈希函数的效果:
gi(x) = h1(x) + ih2(x);

这里i的取值范围是1到k的整数。
Google guava类库使用这个技巧实现了一个布隆过滤器,哈希算法的主要逻辑如下:

long hash64 = …; //calculate a 64 bit hash function
//split it in two halves of 32 bit hash values
int hash1 = (int) hash64;
int hash2 = (int) (hash64 >>> 32);
//Generate k different hash functions with a simple loop
for (int i = 1; i <= numHashFunctions; i++) {
int nextHash = hash1 + i * hash2;
}

应用
从数学公式中,我们可以很明显的知道使用布隆过滤器来解决问题。但是,我们需要很好地理解布隆过滤器所能解决问题的领域。像我们可以使用布隆过滤器来存放美国的所有城市,因为城市的数量是可以大概确定的,所以我们可以确定n(待检测元素的个数)的值。根据需求来修改p(误判概率)的值,在这种情况下,我们能够设计出一个查询耗时少,内存使用率高的缓存机制。
实现
Google Guava类库有一个实现,查看这个类的构造函数,在这里面需要设置待检测元素的个数与误判率。
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

//Create Bloomfilter
int expectedInsertions = ….;
double fpp = 0.03; // desired false positive probability
BloomFilter<CharSequence> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charse

『陆』 如何使用bloomfilter构建大型Java缓存系统

在如抄今的软件当中,缓存袭是解决很多问题的一个关键概念。你的应用可能会进行CPU密集型运算。你当然不想让这些运算一边又一边的重复执行,相反,你可以只执行一次, 把这个结果放在内存中作为缓存。有时系统的瓶颈在I/O操作上,比如你不想重复的查...

热点内容
丁度巴拉斯情人电影推荐 发布:2024-08-19 09:13:07 浏览:886
类似深水的露点电影 发布:2024-08-19 09:10:12 浏览:80
《消失的眼角膜》2电影 发布:2024-08-19 08:34:43 浏览:878
私人影院什么电影好看 发布:2024-08-19 08:33:32 浏览:593
干 B 发布:2024-08-19 08:30:21 浏览:910
夜晚看片网站 发布:2024-08-19 08:20:59 浏览:440
台湾男同电影《越界》 发布:2024-08-19 08:04:35 浏览:290
看电影选座位追女孩 发布:2024-08-19 07:54:42 浏览:975
日本a级爱情 发布:2024-08-19 07:30:38 浏览:832
生活中的玛丽类似电影 发布:2024-08-19 07:26:46 浏览:239