网站所在服务器因redis漏洞在9月份被黑,无奈回滚~

firstboy05132015-12-10 23:18:36比咕视角 / 每日一文
已发现恶意某个perl脚本,因为服务器还涉及一些其他数据的安全考虑,特此含泪回滚到一个靠前时刻的快照…… 后面会统一整理博客及改版事宜~

自然语言处理&搜索引擎中一些系统模块演示示例

firstboy05132014-05-23 09:39:58比咕实验室 / 互联网项目
以前做过的一些底层系统模块我做了一些演示版本,下面是演示地址: CWS (Chinese Word Segmentation) 简体中文分词系统示例 http://47.97.45.210/cws/cws.html massword海量数据新词自动识别示例 http://47.97.45.210/mass/mass.html 什么是deduplication去重? http

海量文档快速语义去重

firstboy05132014-03-25 09:56:38搜索引擎 / 搜索功能
本文的实现思路是结合Charikar的simhash指纹编码与Google的Hamming distance拆分算法原理实现的。 说起这个实现,还是先说说需求吧。搜索引擎中常常要对新进来的文档(一般指网页,这里统一以文档称之)进行重复性判断,判断这个文档是否已经在已有数据库中存在了没有,如果存在则不予插入。这也就是通用互联网搜索引擎对整个互联网的网页进行不间断更新的处理过程,当然这个不间断的间隔

搜索引擎相似度计算方法之arctan方法

firstboy05132014-03-24 17:56:11搜索引擎 / 搜索功能
搜索引擎相似度的计算有很多种方法,相似度是对搜索结果进行排序的一种方式,是指所输入的搜索关键字与搜索结果每一条记录之间的"相似程度",我们知道百度的竞价排名就是一种"有名"的相似度排名方法,这里使用arctan函数来计算不同次数相邻关键字的相似度计算,仅仅在于获取不同关键字出现次数以达到完全分隔在不同相似度等级分数的需求。在搜索引擎的设计与实现中,除了存储速

libdatrie源码分析

firstboy05132014-03-21 16:33:10搜索引擎 / 搜索功能
libdatrie库是一个Double Array Trie的C语言实现项目,详情可以参考官方链接.Double Array Trie中文名叫作双数组trie的比较多,是一种压缩形的trie,但是效率和理论上的trie是基本一样的,理论上的trie可以使用一个状态转换的有限状态机来实现,但是这样的话这个状态机的二维状态转移矩阵会很大,因为这里面状态一般都很多,这里的状态像上述图中所示的,每

lexstat英文阅读单词统计助手

firstboy05132014-03-20 00:23:43比咕实验室 / 互联网项目
Idea的由来是这酱紫的:在看英文书籍或者英文新闻页面的时候,有时候一些专业词汇的缺失很让人抓狂,于是就想做一个在阅读之前把所有英文内容里面的单词词汇给我罗列出来,让我看或者记忆下来,免得每次遇到生词就要无力一个个查词的囧境.想来也就是把文章都给过一遍预处理呗,嗯,最近在看几本英文书所以下面是当时随心所遇草草记录下来的notes. 做一个非OCR解析PDF的上传功能,让用户上传书籍,然后根据统计

BM字符串匹配算法中求模式串Good Suffix的问题

firstboy05132014-03-14 22:58:51
BM字符串算法在实际应用中比较高效,很容易接近O(n)的时间复杂度,这里n是需要搜索的内容字符串,而模式串长度记为m,一般都比n小. BM字符串算法大家参考比较多的是这个地方的资料Boyer-Moore string search algorithm,讲得很简练,原理很容易看明白,只是在实现上每次算偏移量的地方需要消耗点脑细胞. 对原理有不明白的还可以看国内中文类似的翻译解说,但仅供参考,因为

MySQL里面procedure的中文乱码问题

firstboy05132014-03-13 23:03:35程序技巧 / 系统相关
先吐槽一个baidu搜索,同样的关键字“mysql procedure utf8”,是个人应该可以看出来应该想要找什么内容了吧,当下可是2013年,搜索引擎技术可以说成熟到家了吧,每次搜索技术问题或者一些非技术问题但内容有针对性时,搜索百度永远是个内伤呀,还是google勉强可以用用了,不说了,不然又要怪我专门黑百度来着。 mysql procedure中出现乱码的原

QDBM源码分析4_villa模块

firstboy05132014-03-05 10:20:48搜索引擎 / 存储技术
说一下各种数据结构 内部结点是(里面就heir比较奇葩被可怜地放到外面,它就是第一个子结点的指针) 65 typedef struct { /* type of structure for a node page */ 66 int id; /* ID number of

[译]非洲种可可豆的农民第一次品尝巧克力

guohua05942014-03-01 21:45:06比咕视角 / 每日一文
在翻译之前吐嘈一下,上图就是可可豆,比我想像中要大得多哈,我一直以为和所谓的黄豆豌豆之类称为豆类一样大小呢。这篇CNN报导的文章说的是Abidian,中文叫“阿比让”,是一个非洲西部的国家“科特迪瓦”的最大港口城市,刚刚wiki一下这个城市,看到维基百科下过特意留下的城市温度,吓了一跳,每个月的温度都可以算是酷暑呀,最高温度四十几度有好几个月,
比咕搜索引擎定制与数据分析技术服务
最新评论
比咕网移动端APP下载

iPhone、Android 手机
扫描二维码下载安装

(可以使用QQ,微博等的扫描二维码功能)