日志标签 搜索引擎
Xapian的检索
8月8日
Xapian中有关查询的代码比索引复杂的多,因为它支持多种查询机制,而索引就只是循环叠加。如下面的多种查询机制:
- 概率性搜索排名
- 相关度反馈
- 词组和邻近搜索
- 全方位的布尔型搜索器
- 支持提取搜索关键字的词干
- 支持通配符查询
- 支持别名查询
- Xapian支持拼写纠正
xapian索引的term处理
7月31日
Xapian 是一个用C++编写的全文检索程序,License是GPL,它的作用类似于Java的lucene。Xapian 的 官方网站是http://xapian.org/,采用trac作为项目管理软件。如果想要了解更多则可以查看xapian的文档。Xapian的索引不支持中文切词,不管是单字切词还是多元切词,中文是同英文一样的处理方式。下面就来分析Xapian怎样索引英文文档。
改变 Nutch 对 robots.txt 的解析实现
6月3日
昨天晚上,改进后的 Nutch 终于在公司内网环境中部署了,爬了一个晚上,今天早晨发现服务器CPU占用 100%,Nutch 爬虫仍在抓取 Redmine 管理平台下各个项目的版本库相关页面。我的天,一定是 robots.txt 缺乏相应配置造成的。
robots.txt 的配置如下:
User-agent: * Disallow: /issues/gantt Disallow: /issues/calendar Disallow: /activity Disallow: /redmine/repositories/ Disallow: /redmine/projects/redmine/repository Disallow: /redmine/projects/redmine/issues Disallow: /redmine/projects/redmine/activity Disallow: /redmine/issues/gantt Disallow: /redmine/issues/calendar Disallow: /redmine/activity
我们知道 redmine 下每个项目的版本库浏览的 URL 为: http://bj.ossxp.com/redmine/projects/<PROJECTNAME>/repository, 难道要一一为每个项目进行配置么?
看了一下王胜之前的两个博文(robots.txt参考1, robots.txt参考2),以及 wikipedia 上的相关参考,尤其是 WikiPedia 上的这句话,让我眼前一亮。
The robots.txt patterns are matched by simple substring comparisons, so care should be taken to make sure that patterns matching directories have the final ‘/’ character appended, otherwise all files with names starting with that substring will match, rather than just those in the directory intended.
如果 Disallow: 后面的字符串配置是使用的 substring,那么不就是说可以是路径中任意的一部分么,那么使用 Disallow: /repository 是不是就可以限制搜索引擎对 redmine 版本库的抓取呢?
Nutch 深度的测试
3月19日
今天下午我做了一个Nutch深度的测试。先在apache2下建立一个小网站,这个网站用Git作版本控制工具,它只有5个网页,分别是a.html,b.html,c.html,d.html,index.html。它们的链接关系index.html中有a.html,a.html有b.html,依次类推。
robots.txt 文件的非标准扩展
3月9日
在前面的博客 关于机器人 /robots.txt 文件的常识 中已经介绍了 robots.txt 文件的一些基本用法,这篇文章向大家介绍一些 robots.txt 文件的一些扩展指令。
关于机器人 /robots.txt 文件的常识
3月8日
一、概述
网站所有者使用/ robots.txt文件提供有关其网站网络机器人的指示;这就是所谓的机器人排除协议 (The Robots Exclusion Protocol)。
它的作用机理: 一个网络机器人想要访问一个 Web 站点,比如说:http://www.example.com/welcome.html。在这之前,它会首先访问http://www.example.com/robots.txt,并发现:
阅读全部内容 »
Debian/Linux下Sphinx-for-chinese (中文全文搜索)的安装
3月4日
Sphinx是一个基于SQL的全文检索引擎,但对中文用户来说一个致命的缺陷是不支持中文。后来在网上发现了一个基于 Sphinx 的支持切词的全文搜索引擎 sphinx-for-chinese。下载下来安装使用后发现很好用,下面介绍一下具体的安装过程。
阅读全部内容 »
Debian/Linux下sphinx的安装
2月26日
sphinx的介绍
Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用 程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL 也设计了一个存储引擎插件。


最新评论