赞
踩
在使用Langchain-Chatchat做RAG的时候,发现导入的pdf文件中的表格关系无法保存,导致LLM的回答不符合预期。例如我想问的内容在表格中,但LLM的回答并不是对表格的总结。
那么想要解决这个问题,就需要找到一种合适的文本格式来保留表格间的关系,然后修改Langchain-Chatchat的文本加载源码,使pdf文本转换成目标的文本格式,也就是本篇的markdown格式。
Langchain-Chatchat默认对pdf文件使用的loader是mypdfloader.py,解析文档的流程如下:
出问题的地方就在于加载pdf文件的部分,把表格作为普通的文本加载,自然就保存不了表格的关系了。
在 LLM 和 RAG 环境中使用 Markdown 文本格式可确保更准确和相关的结果,因为它为 LLM 提供了更丰富的数据结构和更相关的数据块加载。
相比于text格式的分词来说,markdown格式的分词可以保留表格的数据和关系
,例如下面的表格。
可以看到表格关系都保留下来了。
参考官方的开发环境搭建 即可。因为使用的是大模型是Qwen1.5-14B-Chat,因此需要更改模型配置文件的路径,读取Qwen1.5-14B-Chat。
# model_config.py MODEL_ROOT_PATH = "你的本地模型地址path" LLM_MODELS = ["Qwen1.5-14B-Chat"] MODEL_PATH = { "llm_model":{ "Qwen1.5-14B-Chat": "modelPath/Qwen1.5-14B-Chat", } } # server_config.py FSCHAT_MODEL_WORKERS = { # 给Qwen-14b不同的启动端口,不然会默认使用default "Qwen1.5-14B-Chat": { "host": DEFAULT_BIND_HOST, "port": 21012, "device": LLM_DEVICE, "infer_turbo": False, # model_worker多卡加载需要配置的参数 "gpus": "0,1,2,3", # 使用的GPU,以str的格式指定,如"0,1",如失效请使用CUDA_VISIBLE_DEVICES="0,1"等形式指定 "num_gpus": 4, # 使用GPU的数量 }, }
import pdf4llm
def pdf2markdown_text(filepath):
doc = pdf4llm.to_markdown(filepath, pages=None)
return doc
# pdf转markdown
from unstructured.partition.md import partition_md
text = pdf2markdown_text(self.file_path)
# 这里使用partition_md的分段
return partition_md(text=text, **self.unstructured_kwargs)
raise OSError(errno.ENOSPC, "inotify watch limit reached")
OSError: [Errno 28] inotify watch limit reached
streamlit可能需要开启大量的inotify实例来监视文件系统的改动,因此可以手动增加max_user_watches的值来解决。
一般程序监视某个或某些目录的文件是否被创建、修改、删除等等就需要启动inotify实例,但是每一个inotify实例都需要消耗一定量的内存。
# 查看当前系统中的max_user_instances数量
cat /proc/sys/fs/inotify/max_user_instances
max_user_instances 控制着一个单一用户(或者用户ID,UID)可以创建的 inotify 实例的最大数量。
# 查看当前系统中的max_user_watches数量
cat /proc/sys/fs/inotify/max_user_watches
max_user_watches 控制着一个用户可以添加到所有 inotify 实例中的监视项(watches)的总数。
# 增大max_user_instances的值 (修改成10240还是启动不了,得修改成102400)
sudo sysctl -w fs.inotify.max_user_watches=102400
# 目前把这一行配置给加到/etc/sysctl.conf中去了,设置成102400
fs.inotify.max_user_watches=102400
# 执行一次sysctl.conf配置
sudo sysctl -p /etc/sysctl.conf
# 这样的好处是不需要重新启动系统即可应用更改,并且在每次系统启动时会自动将此值设置为 102400。
经过测试,有的图片内容能提取出来,有的提取不出来 – 建议还是加一个图片提取函数
AssertionError: A list of valid ids are required when auto_id is False.
或
milvus error: KeyError: 'pk'
参考:https://github.com/langchain-ai/langchain/issues/17172
原因是Langchain-Chatchat中milvus的默认配置是auto_id=False,也就是说需要自己提供主键。但是在代码中没有发现有添加主键的部分,因此导入到milvus会报错。
修复方法也比较简单,直接在初始化Milvus的时候设置auto_id=True即可,如下:
def _load_milvus(self):
self.milvus = Milvus(embedding_function=EmbeddingsFunAdapter(self.embed_model),
collection_name=self.kb_name,
connection_args=kbs_config.get("milvus"),
auto_id=True,
index_params=kbs_config.get("milvus_kwargs")["index_params"],
search_params=kbs_config.get("milvus_kwargs")["search_params"]
)
end
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。