加入收藏 | 设为首页 | 会员中心 | 我要投稿 衡阳站长网 (https://www.0734zz.cn/)- 数据集成、设备管理、备份、数据加密、智能搜索!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

内存崩溃了?其实你只需要换一种方式

发布时间:2019-11-02 12:23:20 所属栏目:优化 来源:平头哥
导读:在上一篇 Java 多线程爬虫及分布式爬虫架构探索 中,我们使用了 JDK 自带的 Set 集合来进行 URL 去重,看上去效果不错,但是这种做法有一个致命了缺陷,就是随着采集的 URL 增多,你需要的内存越来越大,最终会导致你的内存崩溃。那我们在不使用数据库的情

最常见的解决办法就是采用布隆过滤器,将所有可能存在的数据哈希到一个足够大的bitmap中,一个一定不存在的数据会被这个bitmap拦截掉,从而避免了对底层存储系统的查询压力。下面是一段伪代码:

  1. public String getByKey(String key) { 
  2.     // 通过key获取value 
  3.     String value = redis.get(key); 
  4.     if (StringUtil.isEmpty(value)) { 
  5.         if (bloomFilter.mightContain(key)) { 
  6.             value = xxxService.get(key); 
  7.             redis.set(key, value); 
  8.             return value; 
  9.         } else { 
  10.             return null; 
  11.         } 
  12.     } 
  13.     return value; 

爬虫 URL 去重

爬虫是对 url 的去重,防止 url 重复采集,这也是我们这篇文章重点讲解的内容

垃圾邮件识别

从数十亿个垃圾邮件列表中判断某邮箱是否垃圾邮箱,将垃圾邮箱添加到布隆过滤器中,然后判断某个邮件是否是存在在布隆过滤器中,存在说明就是垃圾邮箱。

(编辑:衡阳站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读