当前位置:   article > 正文

MapReduce经典案例-倒排索引的实现流程

mapreduce经典案例

MapReduce经典案例—倒排索引

案例分析

1. 倒排索引介绍 倒排索引是文档检索系统中最常用的数据结构,被广泛应用于全文搜索引擎。倒排 索引主要用来存储某个单词(或词组)在一组文档中的存储位置的映射,提供了可以根据 内容来查找文档的方式,而不是根据文档来确定内容,因此称为倒排索引(Inverted Index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(Inverted File)。

 

MapReduce经典案例

2. 案例需求及分析 现假设有三个源文件file1.txt、file2.txt和file3.txt,需要使用倒排索引的方式 对这三个源文件内容实现倒排索引,并将最后的倒排索引文件输出。

 

MapReduce经典案例—倒排索引

案例分析

2. 案例需求及分析 首先,使用默认的TextInputFormat类对每个输入文件进行处理,得到文本 中每行的偏移量及其内容。Map过程首先分析输入的键值对,经 过处理可以得到倒排索引中需要的三个信息:单词、文档名称和词频。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/976685
推荐阅读
相关标签
  

闽ICP备14008679号