加入收藏 | 设为首页 | 会员中心 | 我要投稿 衡阳站长网 (https://www.0734zz.cn/)- 数据集成、设备管理、备份、数据加密、智能搜索!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

内存崩溃了?其实你只需要换一种方式

发布时间:2019-11-02 12:23:20 所属栏目:优化 来源:平头哥
导读:在上一篇 Java 多线程爬虫及分布式爬虫架构探索 中,我们使用了 JDK 自带的 Set 集合来进行 URL 去重,看上去效果不错,但是这种做法有一个致命了缺陷,就是随着采集的 URL 增多,你需要的内存越来越大,最终会导致你的内存崩溃。那我们在不使用数据库的情

  1. <dependency> 
  2.     <groupId>com.google.guava</groupId> 
  3.     <artifactId>guava</artifactId> 
  4.     <version>28.1-jre</version> 
  5. </dependency> 

Guava 中的布隆过滤器实现的非常复杂,关于细节我们就不去探究了,我们就来看看 Guava 中布隆过滤器的构造函数吧,Guava 中并没有提供构造函数,而且提供了 create 方法来构造布隆过滤器:

  1. public static <T> BloomFilter<T> create( 
  2.     Funnel<? super T> funnel, int expectedInsertions, double fpp) { 
  3.   return create(funnel, (long) expectedInsertions, fpp); 

funnel:你要过滤数据的类型

expectedInsertions:你要存放的数据量

fpp:误判率

你只需要传入这三个参数你就可以使用 Guava 包中的布隆过滤器了,下面这我写的一段 Guava 布隆过滤器测试程序,可以改动 fpp 多运行几次,体验 Guava 的布隆过滤器。

  1. public class GuavaBloomFilterTest { 
  2.     // bit 数组大小 
  3.     private static int size = 10000; 
  4.     // 布隆过滤器 
  5.     private static BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.defaultCharset()), size, 0.03); 
  6.  
  7.     public static void main(String[] args) { 
  8.         // 先向布隆过滤器中添加 10000 个url 
  9.         for (int i = 0; i < size; i++) { 
  10.             String url = "https://voice.hupu.com/nba/" + i; 
  11.             bloomFilter.put(url); 
  12.         } 
  13.         // 前10000个url不会出现误判 
  14.         for (int i = 0; i < size; i++) { 
  15.             String url = "https://voice.hupu.com/nba/" + i; 
  16.             if (!bloomFilter.mightContain(url)) { 
  17.                 System.out.println("该 url 被采集过了"); 
  18.             } 
  19.         } 
  20.         List<String> list = new ArrayList<String>(1000); 
  21.         // 再向布隆过滤器中添加 2000 个 url ,在这2000 个中就会出现误判了 
  22.         // 误判的个数为 2000 * fpp 
  23.         for (int i = size; i < size + 2000; i++) { 
  24.             String url = "https://voice.hupu.com/nba/" + i; 
  25.             if (bloomFilter.mightContain(url)) { 
  26.                 list.add(url); 
  27.             } 
  28.         } 
  29.         System.out.println("误判数量:" + list.size()); 
  30.     } 

布隆过滤器的应用

缓存击穿

缓存击穿是查询数据库中不存在的数据,如果有用户恶意模拟请求很多缓存中不存在的数据,由于缓存中都没有,导致这些请求短时间内直接落在了DB上,对DB产生压力,导致数据库异常。

(编辑:衡阳站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读