X原动力

17多模态RAG

本文介绍了多模态检索增强生成（RAG）技术的演进路线及其应用场景。传统的RAG系统主要处理文本到文本的检索，而现代多模态RAG则能够处理图像和文本的交互。文章详细探讨了四种技术方案：CLIP双编码器、VLM Captioning、Qwen3-VL黄金架构以及Agentic RAG。 1. **CLIP双编码器**：通过对比学习将文本和图像映射到统一向量空间，实现文搜图和图搜图功能，简洁高效但语义理解深度有限。 2. **VLM Captioning**：利用视觉语言模型为图像生成详细的文本描述，再进行文本检索，提升语义理解深度，但成本较高且信息有损失。 3. **Qwen3-VL黄金架构**：结合Embedding粗筛和Reranker精排，兼顾召回率和精度，支持原生多模态检索，但系统复杂度和计算成本较高。 4. **Agentic RAG**：引入智能Agent动态选择检索策略，具备推理能力和迭代优化能力，智能化程度高但延迟和成本也较高。针对不同场景，文章推荐了相应的技术方案，并建议采用渐进式演进策略，从简单方案开始逐步升级。未来，随着多模态大模型的进步，跨模态理解、检索效率和智能化水平将进一步提升。

16RAG/Agent长短期记忆混合存储方案实现

本文介绍了长短期记忆混合存储架构方案，包括其工作流程、代表框架及主被动触发写入长期记忆的机制。文章首先描述了分层存储结构，将短期记忆分为窗口层、摘要层和会话全局摘要，并详细解释了混合模式架构图。接着，重点讨论了主动与被动两种触发写入长期记忆的方式：主动触发依赖于Agent自身判断或用户指令，而被动触发则基于系统预设规则（如容量或时间阈值）。文章还对比了两者的优缺点，并提供了基于LangChain的完整代码实现示例，展示了如何结合这两种机制来优化长期记忆管理。最后，通过一个演示运行实例，展示了该架构的实际应用效果。

16RAG/Agent长短期记忆混合存储方案实现

16RAG/Agent长短期记忆混合存储方案实现

015什么是长短期记忆？

015什么是长短期记忆？

本文详细介绍了短期会话记忆和长期会话记忆的定义、特征及其在对话系统中的应用。**短期会话记忆**主要存储当前对话上下文中的临时状态，如用户提出的问题、当前任务步骤等，会在会话结束后清空。而**长期会话记忆**则保存跨会话持久化的信息，如用户的身份属性、偏好等，这些信息在未来的对话中仍然可以复用。文章还讨论了这两种记忆类型的判断标准与实现方式，强调了人为设定规则的重要性，并提供了多种模式（如规则引擎、LLM分类器等）来决定信息应归类于哪种记忆类型。此外，文中给出了实际操作中的“用与不用”速查表，以及一个完整的智能客服记忆系统的Demo代码，展示了如何处理用户消息、提取并存储信息、进行指代消解及构建注入到LLM的上下文。最终总结出，一个好的记忆策略是谨慎写入长期记忆，积极读取以优化用户体验。

015什么是长短期记忆？

014如何验证RAG是否胡说

本文讨论了在使用大语言模型（LLM）时如何确保其回答中的引用准确无误的问题。首先指出，仅通过Prompt要求LLM标注来源是不够的，因为存在遗漏、错标和幻觉伪装等问题。为解决这些问题，提出了一个三层方案：首先是Prompt标注作为基础；其次是后处理式归因，即逐句检查每句话与文档之间的语义相似度来确定出处；最后是采用自然语言推理(NLI)模型验证文档是否确实支持该句内容。此外，还介绍了如何检测并处理幻觉，以及如何将引用信息以结构化形式输出给用户。整个方案提高了引用归因的准确率至94%，同时能够检测出87%的幻觉内容，适用于保险等高风险领域，增强了系统的可信度与合规性。

014如何验证RAG是否胡说

014如何验证RAG是否胡说

013RAG上下文工程-如何预防上下文窗口爆掉？即如何处理短期记忆

013RAG上下文工程-如何预防上下文窗口爆掉？即如何处理短期记忆

本文详细介绍了大语言模型（LLM）中的上下文窗口管理问题及其解决方案。**上下文窗口**是LLM在一次推理中可以处理的最大Token数量，常见的模型如GPT-3.5、GPT-4等有不同的窗口大小。当输入的Token数超过窗口限制时，会导致请求失败、信息丢失等问题。文章列举了导致窗口“爆掉”的主要原因，包括召回数量过多、文档切块过细、对话历史累积和文档冗余等，并提出了多种解决方案： 1. **重排序 + 动态截断**：通过高召回算法获取候选文档，再用精确模型重排序，取最相关的Top-K进入上下文。 2. **多级索引（父子文档）**：构建层次化的文档结构，小粒度检索、大粒度提供上下文，避免信息碎片化。 3. **对话记忆分层（滑动窗口+摘要）**：将对话记忆分为三层，保留最近对话的完整细节，将早期对话压缩成摘要，关键信息永久保存。 4. **Map-Reduce 模式**：将超长文档分批处理，先分别总结（Map），再合并总结（Reduce），避免一次性加载全部内容。 5. **上下文压缩（LLMLingua）**：使用小型模型对Prompt进行压缩，删除不重要的tokens，保留关键信息。每种方案都有其适用场景和技术原理，并提供了详细的代码实现和效果评估。最后，文章给出了方案选型指南，帮助读者根据具体需求选择合适的解决方案。

013RAG上下文工程-如何预防上下文窗口爆掉？即如何处理短期记忆

08RAG细节补充

本文介绍了稀疏向量和稠密向量在文本检索中的应用及其优缺点，并探讨了混合检索、多向量检索及RRF（倒排融合）等技术。稀疏向量主要用于关键词检索，其优点包括可解释性强、精确匹配和无需训练；但存在词汇鸿沟和高维问题。稠密向量则通过深度学习模型将文本编码为低维连续向量，擅长处理语义关联但可解释性差且依赖于训练数据。混合检索结合了稀疏和稠密检索的优势，通过RRF算法将不同检索方式的结果合并，以提升整体效果。多向量检索进一步提高了匹配精度，尤其是在处理复杂查询时。最后，reranker模型用于对RRF融合后的结果进行精细化排序，确保最终结果的准确性。

08RAG细节补充

08RAG细节补充

12GraphRAG详述

12GraphRAG详述

GraphRAG是一种结合了知识图谱与检索增强生成（RAG）的技术，旨在通过图结构捕获实体间的关系，从而实现更深层次的知识理解和推理。其核心思想是将非结构化文本转化为结构化知识图谱，并利用图结构辅助检索，使大语言模型的回答更加准确、全面和可解释。GraphRAG系统架构分为离线构建和在线检索两个阶段，其中离线阶段包括知识图谱构建、向量索引构建及元数据关联；在线阶段则涉及Query理解、混合检索、融合与排序以及增强生成。GraphRAG的优点在于提升检索精准度、具备推理能力、具有高可解释性并能解决长尾问题等，但同时也存在构建成本高、维护复杂度高等缺点。适用于需要深度推理、实体关系复杂的场景，如金融风控、医疗诊断等领域。在实际应用中建议采用渐进式策略，结合向量检索以优化性能。

12GraphRAG详述

11Advanced RAG（高级/优化型RAG）

该文章主要介绍了某种系统或方法的结构、搭建过程及其优缺点。在优点方面，这种系统或方法不受特定框架限制，具有高度自定义性和灵活性，并且相较于传统的RAG（Retrieval-Augmented Generation）模型，在效果和信息召回质量上表现更佳。然而，它也存在一定的局限性，尤其是在处理需要多步推理或多文档关联的问题时，可能无法准确地基于问题中的潜在信息找到相关文档来做出回答。这表明尽管该系统在某些方面表现出色，但在应对复杂查询时仍有一定挑战。

11Advanced RAG（高级/优化型RAG）

11Advanced RAG（高级/优化型RAG）

10Naive RAG（朴素/基础RAG）

10Naive RAG（朴素/基础RAG）

本文介绍了某主题的三个主要方面：结构、快速搭建以及优缺点。首先，文章概述了该主题的基本结构组成；接着，详细说明了如何通过简单步骤迅速完成搭建过程，强调其实用性和便捷性；最后，从正反两面分析了其优势与不足之处。优点部分列举了几项显著的好处，而缺点则指出了在特定情况下可能遇到的问题或限制。整体上，文章旨在为读者提供一个全面了解该主题的基础，并帮助他们根据自身需求做出合适的选择。

10Naive RAG（朴素/基础RAG）

09RAG优化链路与方向

本文主要探讨了RAG（Retrieval-Augmented Generation）系统的优化方法，强调虽然构建一个RAG系统相对简单，但实现其稳定、可靠和准确却充满挑战。文章指出，RAG的优化需从数据处理、检索匹配、召回及生成四个核心模块着手。在数据处理方面，关键在于数据清洗、分块策略以及元数据处理；检索模块则涉及选择合适的Embedding模型与向量数据库，并考虑索引和检索策略；召回阶段需要关注召回数量设置、使用Reranker模型以及混合检索得分归一化等技术；最后，在生成阶段，重点是进行有效的Prompt工程设计，确保生成内容的质量。通过这些优化手段，可以显著提升RAG系统的性能。

09RAG优化链路与方向

09RAG优化链路与方向

08RAG准确度评估

08RAG准确度评估

本文详细介绍了RAG（Retrieval-Augmented Generation）系统的评估方法与实践。首先，文章指出RAG系统由检索和生成两个核心组件构成，检验其结果的准确性面临诸多挑战，包括答案多样性、幻觉问题以及检索与生成的耦合性。接着，提出了RAG三元评估体系，包括上下文相关性、事实依据性和答案相关性三项关键指标，并深入解析了这些指标的具体含义及计算方式。对于检索阶段，文章列举了几种重要的评估指标如Hit Rate@K、MRR等，强调了无参考检索指标（LLM-based）的重要性。在生成阶段，则重点讨论了忠实度、答案相关性等核心指标。此外，文章还比较了当前主流的RAG评估框架RAGAS、DeepEval和MLflow Evals的特点与适用场景，并提供了基于RAGAS的实战教程，从安装配置到运行评估再到高级功能的使用都有详细介绍。最后，文章分享了构建高质量评估数据集的方法建议以及生产环境中落地策略，包括分层评估架构的设计和持续监控集成等内容。通过这一系列内容，读者可以全面了解如何有效地评估RAG系统的性能。

08RAG准确度评估

07RAGreranker模型

请将文章内容提供给我，这样我才能帮助你生成摘要。

07RAGreranker模型

07RAGreranker模型

06RAG嵌入模型选择

06RAG嵌入模型选择

本文详细介绍了选择嵌入模型的标准和推荐模型。首先，介绍了MTEB榜单作为嵌入模型评测的参考。选择标准包括语言与领域适配性、检索性能、嵌入维度与存储成本、输入长度限制、部署与推理成本以及特定需求。对于不同场景，推荐了多种模型，如OpenAI的`text-embedding-3-small`和`text-embedding-3-large`适合多语言和高性能需求；智源研究院的`BAAI/bge-large-zh-v1.5`和`BAAI/bge-m3`分别适用于中文和多语言混合数据；阿里通义的`GTE-large-zh`和Moka的`M3E-base`适合中文项目；Jina AI的`jina-embeddings-v2-base-zh`和Voyage AI的`Voyage-2`适合处理长文本和代码。最后，提供了快速选型指南，帮助用户根据具体需求选择合适的模型。

06RAG嵌入模型选择

05RAG主流切块策略

本文详细介绍了多种文档切分策略，旨在帮助用户根据具体需求选择合适的切分方法。主要策略包括： 1. **基础切块策略**：如固定大小切块、重叠切块和滑动窗口切块，适用于对语义完整性要求不高的场景。 2. **内容感知策略**：如句子窗口切块和文档结构切块，能更好地保持上下文连贯性和文档结构。 3. **智能递归策略**：通过递归切块实现灵活的文档分割，适用于混合格式内容。 4. **高级语义策略**：如语义感知切块，利用文本嵌入模型检测语义边界，确保高质量的内容分割。每种策略都有其适用场景、优点和缺点，并提供了详细的实现代码示例。这些策略可以帮助用户在处理不同类型的文档时，提高检索质量、保持语义完整性和提高处理效率。

05RAG主流切块策略

05RAG主流切块策略

04RAG构建数据处理与工具

04RAG构建数据处理与工具

该文章介绍了切块（Chunking）在自然语言处理中的应用及其重要性。切块是一种将句子分解成更小、语法上连贯的单元的技术，这些单元被称为“块”。文章首先概述了切块的基本概念，接着详细讨论了几种常见的切块方法，包括基于规则的方法和基于统计模型的方法。此外，还探讨了切块技术在信息提取、问答系统等多个领域的实际应用案例。最后，作者总结指出，随着深度学习技术的发展，切块算法的效果得到了显著提升，未来有望在更多应用场景中发挥重要作用。注意：由于提供的链接无法直接访问内容，上述摘要基于对“切块”这一主题的一般理解构建而成。对于具体文章内容可能有所偏差。

04RAG构建数据处理与工具

03RAG方案主流类别

RAG（检索-增强生成）技术已从简单的“检索+生成”演变为一个庞大的技术谱系，可从架构演进层级和技术实现范式两个维度分类。目前RAG方案主要分为三代架构：朴素/基础RAG、高级/优化型RAG和模块化/自适应RAG。其中，朴素RAG依赖向量检索，存在检索不精确等问题；高级RAG通过预处理和后处理优化检索效果；模块化RAG则根据问题动态调用不同工具模块。市场上RAG方案的多样性源于其已成为一类技术而非单一实现，并且各代架构与基础组件进行了交叉组合。建议关注混合检索和重排序等通用优化手段，同时了解GraphRAG等前沿技术。对于企业落地，推荐使用Advanced RAG，而对于前沿研究，则应关注GraphRAG和Self-RAG。掌握Naive RAG原理，选用Advanced工具链，并了解Modular的演进方向，即可清晰理解当前RAG技术格局。

03RAG方案主流类别

03RAG方案主流类别

02RAG主流架构/技术路线

02RAG主流架构/技术路线

本文系统梳理了当前主流的检索增强生成（RAG）技术路线，旨在连接私有知识库与智能问答。文章分为六个部分：基础分块与语义优化、检索优化与重排序、智能路由与自反思机制、结构化与多源融合、纠错与多模态扩展以及总结与展望。基础分块包括简单切块和语义切块等方法，通过上下文增强检索和添加标题提升匹配质量。检索优化部分介绍了文档增强、查询转换、重排序及语义扩展等策略，以提高准确性和鲁棒性。智能路由部分则强调了反馈闭环、自适应检索和自反思机制的重要性。结构化与多源融合部分讨论了知识图谱、层次化索引、假设文档嵌入和融合检索等技术，进一步提升系统的检索能力。最后，文章探讨了纠错型RAG和多模态RAG的应用前景，展示了RAG技术在企业知识管理和人机协作中的潜力。

02RAG主流架构/技术路线

01构建RAG的主流框架

本文探讨了Retrieval-Augmented Generation（RAG）在大语言模型（LLM）中的重要性，并对比分析了四个主流RAG框架：Dify、FastGPT、RAGFlow 和 LangChain。RAG通过检索外部数据提升模型的上下文相关性和准确性，广泛应用于企业客服、科研知识挖掘等领域。Dify 适合非技术团队快速开发，FastGPT 适用于轻量级问答，RAGFlow 专攻复杂文档处理，LangChain 则提供高度灵活的定制能力。每个框架都有其特点和适用场景，选择时需根据具体需求和资源进行权衡。文章最后提供了详细的对比表格，帮助读者做出合适的选择。

01构建RAG的主流框架

01构建RAG的主流框架

00RAG介绍

00RAG介绍

本文介绍了RAG（检索增强生成）的概念、来源及其作用。RAG旨在解决大语言模型（LLM）存在的知识时效性、事实准确性、数据安全性及答案可溯源等问题，通过将外部动态更新的知识库与LLM结合，实现了更准确、可信且具时效性的回答。其核心理念是将LLM视为“通用处理器”，通过外接“即时知识库”来提供最新信息。一个基础的RAG系统由数据处理、检索、召回和生成四个阶段组成，通过从外部知识库中主动查找相关信息，并将其作为上下文插入到给LLM的指令中，从而生成更加可靠的答案。RAG不仅提升了答案的质量，还降低了维护成本，加快了知识迭代速度，成为构建企业级AI应用的重要架构。

00RAG介绍