当前位置:   article > 正文

相关性算法BM25的python实现_bm25 python

bm25 python

计算原理

在这里插入图片描述

  • 第一项c(w,q)就是搜索q中词w的词频
  • 第三项是词w的逆文档频率,M是所有文本的个数,df(w)是出现词w的文本个数
  • 中间的第二项是关键,实质是词w的TF值的变换,c(w,d)是词w在文本d中的词频。首先是一个TF Transformation,目的是防止某个词的词频过大,经过下图中公式的约束,词频的上限为k+1,不会无限制的增长。例如,一个词在文本中的词频无论是50还是100,都说明文本与这个词有关,但相关度不可能是两倍关系。

优点

开源实现

snownlp
gensim_bm25
rank_bm25

实践

一般流程(对于中文)

  1. 构建corpus
    1.1. 构建停用词词表(可加入部分高频词)
    1.2. 分词
    1.3. 去除停用词
  2. 训练BM25模型
  3. 使用模型计算相似性

gensim的使用

from gensim.summarization import bm25


def test_gensim_bm25():
    corpus = [
    ['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多'], 
    ['第1', '个', '是', '应该', '第2', '个', '是'], 
    ['不', '对', '应该', '就是', '差', '不', '多'], 
    ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']]
    
    bm25Model = bm25.BM25(corpus)

    test_strs = [
        ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁'],
        ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁', '问题', '第1', '个'],
        ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁', '问题', '第1', '个','来', '问', '几', '个', '问题'],
        ['应该', '差', '不', '多', '一定', '要', '退', '60', '岁'],
        ['差', '不', '多', '一定', '要', '退'],
        ['一定', '要', '差', '不', '多', '退'],
        ['一定', '要', '退'],
        ['一定', '差', '不', '多'],
    ]
    for test_str in test_strs:
        scores = bm25Model.get_scores(test_str)
        print('测试句子:', test_str)
        for i, j in zip(scores, corpus):
            print('分值:{},原句:{}'.format(i, j))
        print('\n')

if __name__ == '__main__':
    test_gensim_bm25()

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32

运行结果

测试句子: ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']
分值:0.2828807225045471,原句:['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值:0.226504790662966,原句:['第1', '个', '是', '应该', '第2', '个', '是']
分值:0.42164043562468434,原句:['不', '对', '应该', '就是', '差', '不', '多']
分值:2.2007072441488233,原句:['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子: ['应该', '差', '不', '多', '一定', '要', '退', '60', '岁']
分值:0.202827468444139,原句:['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值:0.09756782248085916,原句:['第1', '个', '是', '应该', '第2', '个', '是']
分值:0.42164043562468434,原句:['不', '对', '应该', '就是', '差', '不', '多']
分值:1.2213019690359779,原句:['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子: ['差', '不', '多', '一定', '要', '退']
分值:0.15212060133310423,原句:['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值:0,原句:['第1', '个', '是', '应该', '第2', '个', '是']
分值:0.3240726131438252,原句:['不', '对', '应该', '就是', '差', '不', '多']
分值:1.1406697377282669,原句:['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子: ['一定', '要', '差', '不', '多', '退']
分值:0.15212060133310423,原句:['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值:0,原句:['第1', '个', '是', '应该', '第2', '个', '是']
分值:0.3240726131438252,原句:['不', '对', '应该', '就是', '差', '不', '多']
分值:1.1406697377282669,原句:['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子: ['一定', '要', '退']
分值:0.0,原句:['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值:0,原句:['第1', '个', '是', '应该', '第2', '个', '是']
分值:0,原句:['不', '对', '应该', '就是', '差', '不', '多']
分值:0.898773043805134,原句:['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子: ['一定', '差', '不', '多']
分值:0.15212060133310423,原句:['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值:0,原句:['第1', '个', '是', '应该', '第2', '个', '是']
分值:0.3240726131438252,原句:['不', '对', '应该', '就是', '差', '不', '多']
分值:0.24189669392313295,原句:['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40

更多关于gensim BM25

想取得生成模型后的逆文档频率,只需访问其属性idf

TODO

  • 对开源实现的深度优劣分析

参考:
python根据BM25实现文本检索

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/972340
推荐阅读
相关标签
  

闽ICP备14008679号