M3E&ChatGLM向量化构建本地知识库_chatgpt 将文档向量化

作者：数据灵魂 | 2024-02-01 16:50:59

踩

chatgpt 将文档向量化

M3E&ChatGLM向量化构建本地知识库

整体步骤
向量数据库
文本向量化
基于本地知识库的问答

整体步骤

向量化：首先，你需要将语言模型的数据转化为向量。这通常通过嵌入模型（embedding models）完成，比如word2vec，GloVe，或者BERT等，这些模型可以将文本数据转化为向量形式。
存储：向量化后的数据可以存储在向量数据库中。向量数据库提供了一种高效的方式来存储和索引大量的向量数据。
查询：存储在向量数据库中的向量可以通过向量空间中的搜索和比较操作来查询。例如，你可以通过查找与给定向量最相近的向量来找到与给定文本最相关的文本。

向量数据库

向量数据库简介

向量数据库是一种特殊类型的数据库，它用于存储和处理向量数据。向量数据库的主要特点是能够高效地执行向量空间中的搜索和比较操作，比如最近邻搜索（nearest neighbor search）。向量数据库在许多领域都有应用，包括机器学习、人工智能、计算机视觉和自然语言处理等。

主流数据库

Faiss：Faiss是Facebook AI研究所开发的一种用于高效相似度搜索和聚类的库。它可以处理大量数据，并且支持在GPU上运行。
Annoy (Approximate Nearest Neighbors Oh Yeah)：Annoy是Spotify开发的一种用于大规模近似最近邻搜索的C++库。Annoy的优点是它支持动态添加向量，这对于需要不断更新数据的应用来说非常有用。
Milvus：Milvus是一款开源的向量数据库，支持在线向量相似度搜索和向量聚类。它提供了丰富的API接口，可以方便地与其他系统进行集成。
Pinecone：Pinecone是一款托管型向量搜索服务，提供全托管的向量搜索引擎，用于构建和部署大规模向量搜索应用。

这里我们选择Milvus。

Milvus部署

Milvus是基于Docker部署的，你的Docker需要符合以下条件：

Docker 版本 > 19.03 部署docker
Docker Compose 版本 > 1.25.1 安装Compose

1、下载保存docker-compose.standalone.yml并保存为docker-compose.yml：

wget https://github.com/milvus-io/milvus/releases/download/v2.2.12/milvus-standalone-docker-compose.yml -O docker-compose.yml
1

2、启动单节点

docker-compose up -d
1

3、通过命令确定单节点安装完成

[root@slave2 docker]# sudo docker-compose psName                     Command                  State             Ports       
--------------------------------------------------------------------------------------
milvus-etcd         etcd -listen-peer-urls=htt ...   Up (healthy)   2379/tcp, 2380/tcp
milvus-minio        /usr/bin/docker-entrypoint ...   Up (healthy)   9000/tcp          
milvus-standalone   /tini -- milvus run standalone   Exit 132
1
2
3
4
5

4、关闭Milvus

docker-compose down
1

5、启动Milvus

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/article/detail/54299