代码之家 › 专栏 › 技术社区 › Diego Quirós

在langchain和openAI嵌入中无法从链中获取源文档

openaiembeddings langchain openai-api python

Diego Quirós · 技术社区 · 1 年前

我正在使用langchain.document_loaders加载pdf:

loader = DirectoryLoader( './files/', glob='*.pdf', loader_cls=PyPDFLoader)

然后拆分文档,创建嵌入,存储并加载它们:

docsearch = Chroma.from_documents(texts, embeddings, persist_directory=persist_directory)

...

docsearch = Chroma(persist_directory, embedding_function=embeddings ) 
retriever = docsearch.as_retriever( search_kwargs={"k": 5})
docs = retriever.get_relevant_documents( query )
len( docs)

我得到了正确的答案,但我没有得到源文档。

0 回复 | 直到 1 年前

HamidReza Saad 1 年前

如果你正确设置了加载器,下面的代码应该可以工作(这是一个例子,你可以更改chunk_size或其他字段):

loader = DirectoryLoader( './files/', glob='*.pdf', loader_cls=PyPDFLoader)
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
docsearch = Chroma.from_documents(texts, embeddings, persist_directory=persist_directory)
retriever = docsearch.as_retriever( search_kwargs={"k": 5})
docs = retriever.get_relevant_documents( query )
len( docs)

Diego Quirós 1 年前

错误发生在:

docsearch = Chroma(persist_directory, embedding_function=embeddings )

应该是:

docsearch = Chroma(persist_directory=persist_directory, embedding_function=embeddings )

HaX.Alvin 1 年前

a的第一个构造函数 Chroma 对象是 collection_name .
你应该通过 persist_directory 变量到 持久性目录 构造函数参数。
所以它看起来像这样:

docsearch = Chroma(persist_directory=persist_directory, embedding_function=embeddings)

推荐文章

July · 如何定义数字间隔,然后四舍五入

1 年前

Community wiki · 对象名称前的单下划线和双下划线的含义是什么?

1 年前

Brian Johnson · 为什么在Python中列出字典列表会引发TypeError?[已关闭]

1 年前

user026 · 如何根据特定窗口的平均值(行数)创建新列?

1 年前

Ashok Shrestha · 需要追踪特定的颜色线并获取坐标

1 年前

Nicote Ool · 在FastApi和Vue3中获得422

1 年前

NeoExceptCodeBad · 如果我有很多垂直线,我如何找到它们的边缘?

1 年前

Abdulaziz · 如何对集合内的列表进行排序[重复]

1 年前

user2743931 · 带有src目录的Python setup.py

1 年前

asmgx · 为什么合并数据帧不能按照python中的预期方式工作

1 年前