• 1.摘要
  • 2.基本信息
  • 3.宣传语
  • 4.内容简介
  • 5.前言
  • 6.目录
  • 7.参考资料

自己动手写搜索引擎

2009年电子工业出版社出版的图书

《自己动手写搜索引擎》是2009年电子工业出版社出版的图书,作者是罗刚。1本书全方位展现出一个商用级别的Lucene搜索解决方案。

基本信息

  • 书名

    自己动手写搜索引擎

  • 作者

    罗刚

  • ISBN

    978-7-121-09640-2

  • 类别

    图书 >>小说

  • 定价

    55.00元(含光盘1张)

  • 出版社

    电子工业出版社

  • 出版时间

    2009-10

宣传语

·首次揭示商业级搜索引擎实现秘密。

·业内知名开发团队倾情奉献。

·引领Lucene开发技术升级。

内容简介

《自己动手写搜索引擎》是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。本书主要包括爬虫、自然语言处理和搜索实现部分。爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。

本书是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。本书全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。

爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。

自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。

其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。

在实现搜索方面,本书用简单的例子介绍了完整的搜索实现过程,覆盖了从索引库的设计和索引库与数据库的同步到搜索用户界面设计与实现。搜索用户界面包括实现布尔逻辑查询、按区间范围查询、搜索结果按日期排序等。本书还进一步介绍了搜索排序的优化方法。

最后以基于Lucene的搜索服务器Solr为例,展示了Lucene的最新应用方法。

前言

15 在中国,随着互联网从城市到农村的普及,搜索引擎对日常生活产生越来越大的影响。例如,笔者自己一般每天就有15个左右的问题需要求助于搜索引擎。从04年开始笔者也从数据库相关软件开发转入搜索引擎相关开发工作。

Google 20世纪末,在美国国家科学基金会的支持下,斯坦福大学的两个学生在他们的教授指导下开始了一个数字图书馆项目。后来,他们创建了Google公司,开创了通过互联网搜索技术共享人类信息的新纪元。Google通过网络广告取得了巨大的商业回报,仍然是世界500强企业中赢利能力最强的公司之一。NASDAQ证券交易市场的最高股价是Google公司的股票。搜索引擎开发成为一项极有含金量的技术。

Web开始写作《自己动手写搜索引擎》这本书以前,已经有一些介绍搜索理论或者搜索开发工具的图书,但是往往表现出来的是纯粹的理论推导和公式定理,或者仅仅是现成开源软件的介绍、分析和使用,并没有介绍其理论依据。有的读者是数学专业的博士,对于相关的数学模型一看就明白,但对于算法实现可能仍然缺少经验。有的读者是培训学校毕业的学生,可能对Web开发框架和软件工具的使用很熟悉,但缺少理论基础和深入创新的能力。本书的一个特点在于前面是原理介绍,接着是具体的代码实现。不仅讲解抽象的知识,更重要的是把知识转化成具体软件应用的过程也展示出来。

Lucene 《自己动手写搜索引擎》是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。感谢Lucene,它把搜索引擎开发工作变成了广大程序员都能够参与的游戏。所以本书选用Lucene来全方位展现一个商用级别的搜索解决方案。中文分词当前仍然是实现中文搜索的热门话题之一。本书重点介绍了中文分词的相关理论和代码实现,以及在搜索引擎中实用中文分词等细节。本书用简单的例子介绍了搜索引擎完整的实现过程,同时也没有忽略一些经典的算法实现。

该书适合需要具体实现搜索引擎的程序员使用,对于自然语言处理等相关研究人员也有一定参考价值,同时猎兔搜索团队也已经开发出以本书为基础的专门培训课程。本书附带光盘中的代码经过了详细的注释。为了帮助初学者更容易地了解程序的功能,经过笔者的精心整理后,每个主要变量和每行主要的执行程序都加上了注释,前后对比图如下所示。

3年 笔者花了3年时间编写本书,但限于时间和水平,其中很多内容笔者仍然正在改写中,希望读者不吝赐教,使本书在重印时内容能更全面。如果条件允许,笔者也很愿意探索一些非比寻常的方式来介绍技术。