您的位置首页 > 数码极客

「cbitmap如何用url」cbitmap转化为byte!

鲁达发布于 2023-07-06

点击上方"java全栈技术"关注，每天学习一个java知识点

两周之前——

爬虫的原理就不细说了，无非是通过种子URL来顺藤摸瓜，爬取出网站关联的所有的子网页，存入自己的网页库当中。

但是，这其中涉及到一个小小的问题......

URL去重方案第一版：HashSet

创建一个HashSet集合，把每一个URL字符串作为HashSet的key插入到集合当中，利用HashSet的Key唯一性来对URL做去重。

这个方案看似没毛病，但是经过几轮压测之后......

每一个URL按照20字节来算，一亿个URL就是20亿字节，也就是大约占了1.8G以上的空间。这么大的HashSet集合显然是不可取的。

于是小灰又思考了一番......

URL去重方案第二版：Bitmap

Bitmap是一种节省空间的数据结构，不太了解的朋友可以看看往期的相关文章：

每日一算法：Bitmap算法

具体怎么做呢？获取每一个URL的HashCode，根据HashCode的值来插入到Bitmap的对应位置。如果要插入位置的值已经是1，说明该URL已重复。

使用Bitmap以后，每一个Url只占了1个Bit，一亿个Url占约12MB。假设整个Bitmap的空隙比较多，额外空间占90%，总空间也不过是120MB，相比HashSet来说大大节省了内存空间。

这个方案貌似好了很多，可是......

String的Hashcode方法虽然尽可能做到均匀分布，但仍然免不了会有冲突的情况。HashCode的冲突意味着什么呢？意味着两个原本并不相同的Url被误判为重复Url。

———————————————

听起来有点绕，我们来详细描述一下：

1.把第一个URL按照三种Hash算法，分别生成三个不同的Hash值。

2.把第二个URL也按照三种Hash算法，分别生成三个不同的Hash值。

3.依次比较每一个Hash结果，只有当全部结果都相等时，才判定两个URL相同。

具体怎样映射呢？流程如下：

1.创建一个空的Bitmap集合。

2.把第一个URL按照三种Hash算法，分别生成三个不同的Hash值。

3.分别判断5，17， 9 在Bitmap的对应位置是否为1，只要不同时为1，就认为该Url没有重复，于是把5，17，9的对应位置设置为1。

4.把第二个URL按照三种Hash算法，分别生成三个不同的Hash值。

5.分别判断10，12， 9 在Bitmap的对应位置是否为1，只要不同时为1，就认为该Url没有重复，于是把10，12， 9 的对应位置设置为1。

6.把第三个URL按照三种Hash算法，分别生成三个不同的Hash值。

7.分别判断4，16， 11 在Bitmap的对应位置是否为1，只要不同时为1，就认为该Url没有重复，于是把4，16， 11 的对应位置设置为1。

8.把第四个URL按照三种Hash算法，分别生成三个不同的Hash值。

9.分别判断5，17， 9 在Bitmap的对应位置是否为1。判断的结果是 5，17， 9 在Bitmap对应位置的值都是1，所以判定该Url是一个重复的Url。

1.URL按照三个Hash算法得到三个结果。

2.分别判断10，12， 17 在Bitmap的对应位置是否为1。判断的结果是 10，12， 17 在Bitmap对应位置的值都是1，所以判定该Url是一个重复的Url。

文章转自程序员小灰

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作，旨在以深度学习研究为目的传播信息知识，内容观点与本网站无关，反馈举报请点击此处；
2.仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告，请读者放心使用！

“cbitmap如何用url,cbitmap转化为byte,cimage和cbitmap,cbitmap类,cbitmap保存图片”边界阅读

iphone拍照如何曝光时间—iphone拍照怎么调参数…

iphone拍照如何曝光时间,iphone拍照怎么调参数,iphone拍照闪光灯旁边的是什么相关介绍,每一个热爱生活的人都关注了“手机摄影技巧” 今天和大家来详细讲解苹果手机自带相机的操作，自带相机中有很多隐藏的功能，也有些功能是很常用的，有些不常用，我们都来详细说一说，尤其是还没有完全搞明白苹果手

〔iphone拍照如何曝光时间〕iphone拍照加时间水印!

iphone拍照如何曝光时间,iphone拍照加时间水印,iphone拍照闪光灯旁边的是什么相关介绍,苹果对全新的iPhone 13系列不管是摄像头硬件方面还是软件方面都做了许多的提升，那么如何用iPhone 13系列拍摄出更精美的照片和视频呢，下面就来教大家。以下是使用 iPhone 13 系列机

(Iphone7如何删除icloud)iphone7如何删除通讯录

Iphone7如何删除icloud,iphone7如何删除通讯录,iphone7如何删除通讯录的联系人相关介绍,苹果iCloud怎么注销，下面跟我一起来看看吧。操作方法 01 打开你的手机，点击“设置” 02 在设置里面点击“iCloud” 03 点击下面的“注销” 04 点击“从iphone上删除” 05

h1z1如何调渲染距离

h1z1如何调渲染距离相关介绍,H1Z1图像与鼠标速度设置教程有很多人不会正确的设置图像结果造成自己的帧数非常低达不到流畅的游戏效果，或者总觉得自己看不清掩体后的人或者远处的人。还有些人不知道游戏里的鼠标速度到底怎么设置才能更容

mp3的英语听力如何下载到手机软件

mp3的英语听力如何下载到手机软件相关介绍,为了学习英语，我收集了一些英语视频，但有时不方便看视频，所以我想把视频中的伴音提取出来放在手机上边听边学。不过很多视频并没有音轨文件（视频和伴音是一体的），而现在声卡又没有录音功能，怎么将其音频提取出

miui如何冻住不卡米

miui如何冻住不卡米相关介绍,声明：本文章系本人原创，但其中方法非原创，转载请注明出处测试机型小米4联通4g版（2g运存）其他机型请谨慎简而言之，防止卡米的方法其实都是：卸载xp框架，ota之后再次安装首先你需要一个第三方

Mac的qq如何看群公告

Mac的qq如何看群公告相关介绍,IT之家（www.i）：QQ for Mac 4.0正式版下载：给你一块大面板 IT之家讯 12月11日消息，在经过一段时间的开放体验后，近日腾讯QQ for Mac 4.0正式版开放下载。 10月中

lcd60my73a如何关机

lcd60my73a如何关机相关介绍,电脑开机和关机是我们每天都要做，那能说出几种关机方法呢？今天就来给大家罗列一些，看看你都会吗？正常关机开始->点关机快捷键关机键盘Alt+F4，然后点击关机。任务管理器关机键盘Alt

《