FlashRAG是一个用于复制和开发检索增强生成(RAG)钻研的Python工具包。它包括32个预解决的基准RAG数据集、13种最先进的RAG算法,5大RAG组件,包括检索器、重排器、生成器、精炼器、评测器。借助FlashRAG和提供的资源,可以轻松地复制RAG畛域的现有SOTA(最先进)上班,或许成功自定义的RAG流程和组件,比LangChain和LlamaIndex轻量且易操作。
FlashRAG概览
12种RAG技术在三个数据集上启动的功能评价。 优化组件示意该方法重要优化的组件,而流程示意对整个RAG环节的优化。带有∗标志的方法示意经常使用了通过训练的生成器。
在不同检索文档数量和检索器数量下的规范RAG环节的结果。 左图:经常使用三种不同检索器,检索不同数量文档,在六个数据集上的平均结果。右图:经常使用E5作为检索器,在六个数据集上的独自结果。
32个数据集总结。 FlashRAG目前蕴含了不同义务的多种数据集。每个数据集的样本大小以及答案的知识起源被列出作为参考。"-"示意知识起源是知识。星号(∗)示意这个数据集的义务曾经被修正以顺应RAG场景。
A Modular Toolkit for Efficient Retrieval-Augmented Generation Research
© 版权声明