本书旨在从计算机科学的角度提供一种现代的信息检索方法
本书旨在从计算机科学的角度提供一种现代的信息检索方法。本书是我们在斯坦福大学和斯图加特大学教授的一系列课程的结果,课程范围包括一个季度,一个学期和两个季度。这些课程针对的是计算机科学的早期研究生,但我??们也有来自上层计算机科学本科生,以及法律,医学信息学,统计学,语言学和各种工程学科的学生。因此,本书的关键设计原则是涵盖我们认为在信息检索的一学期研究生课程中重要的内容。
本书的前八章专门介绍了信息检索的基础知识,特别是搜索引擎的核心; 我们认为这些材料是任何信息检索课程的核心。
第1章介绍了反向索引,并展示了如何使用这些索引处理简单的布尔查询。
第2章以此介绍为基础,详细介绍了在编制索引之前预处理文档的方式,并讨论了如何以各种方式增强反向索引的功能和速度。
第3章讨论了字典的搜索结构,以及如何处理具有拼写错误的查询以及与正在搜索的文档集合中的词汇表的其他不精确匹配。
第4章描述了许多用于从文本集合构造倒排索引的算法,特别关注可以应用于非常大的集合的高度可伸缩和分布式算法。
第5章介绍了压缩字典和反向索引的技巧。这些技术对于在大型搜索引擎中实现用户查询的亚秒级响应时间至关重要。在introicompress中考虑的索引和查询仅处理布尔检索,其中文档与查询匹配,或者不匹配。
希望衡量文档与查询匹配的程度,或查询文档的分数,在第6章和第7章中激发术语权重的发展和分数的计算,从而产生文档列表的概念为查询排序的。
第8章侧重于基于其检索的文档的相关性对信息检索系统的评估,允许我们比较不同系统在基准文档集合和查询上的相对性能。