相关性算法BM25的python实现_bm25 python

作者：小惠珠哦 | 2024-08-13 00:45:29

踩

bm25 python

计算原理

在这里插入图片描述

第一项c(w,q)就是搜索q中词w的词频
第三项是词w的逆文档频率，M是所有文本的个数，df(w)是出现词w的文本个数
中间的第二项是关键，实质是词w的TF值的变换，c(w,d)是词w在文本d中的词频。首先是一个TF Transformation，目的是防止某个词的词频过大，经过下图中公式的约束，词频的上限为k+1，不会无限制的增长。例如，一个词在文本中的词频无论是50还是100，都说明文本与这个词有关，但相关度不可能是两倍关系。

优点

开源实现

snownlp
gensim_bm25
rank_bm25

实践

一般流程（对于中文）

构建corpus
1.1. 构建停用词词表（可加入部分高频词）
1.2. 分词
1.3. 去除停用词
训练BM25模型
使用模型计算相似性

gensim的使用

from gensim.summarization import bm25


def test_gensim_bm25():
    corpus = [
    ['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多'], 
    ['第1', '个', '是', '应该', '第2', '个', '是'], 
    ['不', '对', '应该', '就是', '差', '不', '多'], 
    ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']]
    
    bm25Model = bm25.BM25(corpus)

    test_strs = [
        ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁'],
        ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁', '问题', '第1', '个'],
        ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁', '问题', '第1', '个','来', '问', '几', '个', '问题'],
        ['应该', '差', '不', '多', '一定', '要', '退', '60', '岁'],
        ['差', '不', '多', '一定', '要', '退'],
        ['一定', '要', '差', '不', '多', '退'],
        ['一定', '要', '退'],
        ['一定', '差', '不', '多'],
    ]
    for test_str in test_strs:
        scores = bm25Model.get_scores(test_str)
        print('测试句子：', test_str)
        for i, j in zip(scores, corpus):
            print('分值：{},原句：{}'.format(i, j))
        print('\n')

if __name__ == '__main__':
    test_gensim_bm25()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

运行结果

测试句子： ['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']
分值：0.2828807225045471,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0.226504790662966,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.42164043562468434,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：2.2007072441488233,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子： ['应该', '差', '不', '多', '一定', '要', '退', '60', '岁']
分值：0.202827468444139,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0.09756782248085916,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.42164043562468434,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：1.2213019690359779,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子： ['差', '不', '多', '一定', '要', '退']
分值：0.15212060133310423,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.3240726131438252,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：1.1406697377282669,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子： ['一定', '要', '差', '不', '多', '退']
分值：0.15212060133310423,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.3240726131438252,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：1.1406697377282669,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子： ['一定', '要', '退']
分值：0.0,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：0.898773043805134,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']


测试句子： ['一定', '差', '不', '多']
分值：0.15212060133310423,原句：['来', '问', '几', '个', '问题', '第1', '个', '就', '是', '60', '岁', '60', '岁', '的', '时候', '退休', '是', '时间', '到', '了', '一定', '要', '退休', '还是', '觉得', '应该', '差', '不', '多']
分值：0,原句：['第1', '个', '是', '应该', '第2', '个', '是']
分值：0.3240726131438252,原句：['不', '对', '应该', '就是', '差', '不', '多']
分值：0.24189669392313295,原句：['所以', '是', '应该', '差', '不', '多', '还是', '一定', '要', '退', '60', '岁']
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40

TODO

对开源实现的深度优劣分析

参考：
python根据BM25实现文本检索

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小惠珠哦/article/detail/972340

相关性算法BM25的python实现_bm25 python

计算原理

优点

开源实现

实践

一般流程（对于中文）

gensim的使用

运行结果

更多关于gensim BM25

TODO

更多关于`gensim BM25`