处理文档

document_store = InMemoryDocumentStore()
fetcher = LinkContentFetcher()
converter = HTMLToDocument()
splitter = DocumentSplitter(split_by="sentence", split_length=3, split_overlap=1)
document_embedder = SentenceTransformersDocumentEmbedder(
    model="sentence-transformers/all-MiniLM-L6-v2"
)
writer = DocumentWriter(document_store = document_store)

indexing_pipeline = Pipeline()
indexing_pipeline.add_component("fetcher", fetcher)
indexing_pipeline.add_component("converter", converter)
indexing_pipeline.add_component("splitter", splitter)
indexing_pipeline.add_component("document_embedder", document_embedder)
indexing_pipeline.add_component("writer", writer)

indexing_pipeline.connect("fetcher.streams", "converter.sources")
indexing_pipeline.connect("converter.documents", "splitter.documents")
indexing_pipeline.connect("splitter.documents", "document_embedder.documents")
indexing_pipeline.connect("document_embedder.documents", "writer.documents")

indexing_pipeline.run(data={"fetcher": {"urls": ["https://en.wikipedia.org/wiki/Nanjing_University"]}})

LLM智能应用开发

使用Haystack实现RAG流程

Document

Component

Pipeline

Pipeline

Converter

Converter

Splitter

Spiltter

DocumentSplitter

DocumentSplitter

NLTKDocumentSplitter

奇怪的输入

简单以句子为单位切分

简单以句子为单位切分

NLTKDocumentSplitter

Retriever

BM25Retriever原理

BM25Retriever原理

例子

处理文档

处理查询

优缺点

BERT

DenseEmbeddingRetriever: 文本嵌入模型

DenseEmbeddingRetriever: 相似度计算

DenseEmbeddingRetriever: 相似度计算

例子

输出

处理查询

输出

优缺点

SimilarityReranker: 相似度计算模型

SimilarityReranker: 相似度计算模型

例子

输出

优缺点

Simple RAG

处理文档

处理文档

处理查询

处理查询

测试

问一些大模型不知道的问题

Chatgpt answer

RAG answer

Advanced RAG: 检索结果合并

Advanced RAG: 检索结果合并

例子

import

文档处理

bm25检索

输出

dense embedding检索

输出

权重合并

输出

RRF合并

输出

重排序机制

例子

import

文档处理

bm25初步检索

输出

重排序

输出

上下文丰富

上下文窗口扩展(Sentence window retrieval)

自动合并检索(Auto-merging retrieval)