海量文档快速语义去重

firstboy05132014-03-25 09:56:38搜索引擎 / 搜索功能
本文的实现思路是结合Charikar的simhash指纹编码与Google的Hamming distance拆分算法原理实现的。 说起这个实现,还是先说说需求吧。搜索引擎中常常要对新进来的文档(一般指网页,这里统一以文档称之)进行重复性判断,判断这个文档是否已经在已有数据库中存在了没有,如果存在则不予插入。这也就是通用互联网搜索引擎对整个互联网的网页进行不间断更新的处理过程,当然这个不间断的间隔

搜索引擎相似度计算方法之arctan方法

firstboy05132014-03-24 17:56:11搜索引擎 / 搜索功能
搜索引擎相似度的计算有很多种方法,相似度是对搜索结果进行排序的一种方式,是指所输入的搜索关键字与搜索结果每一条记录之间的"相似程度",我们知道百度的竞价排名就是一种"有名"的相似度排名方法,这里使用arctan函数来计算不同次数相邻关键字的相似度计算,仅仅在于获取不同关键字出现次数以达到完全分隔在不同相似度等级分数的需求。在搜索引擎的设计与实现中,除了存储速

libdatrie源码分析

firstboy05132014-03-21 16:33:10搜索引擎 / 搜索功能
libdatrie库是一个Double Array Trie的C语言实现项目,详情可以参考官方链接.Double Array Trie中文名叫作双数组trie的比较多,是一种压缩形的trie,但是效率和理论上的trie是基本一样的,理论上的trie可以使用一个状态转换的有限状态机来实现,但是这样的话这个状态机的二维状态转移矩阵会很大,因为这里面状态一般都很多,这里的状态像上述图中所示的,每
比咕搜索引擎定制与数据分析技术服务
最新评论
比咕网移动端APP下载

iPhone、Android 手机
扫描二维码下载安装

(可以使用QQ,微博等的扫描二维码功能)