作者:Administrator

00概览

强化学习(Reinforcement Learning, RL)是一种机器学习方法,它讨论的是智能体如何在一个复杂不确定的环境中通过与环境的交互来最大化其获得的奖励。智能体通过感知环境状态并采取行动,根据环境反馈的奖励调整策略以优化长期收益。RL的核心特点包括试错学习和延迟回报,其中智能体需要在探索未知与利用已有知识之间找到平衡。RL算法主要分为免模型学习(Model-Free)和有模型学习(Model-Based),以及在线策略(On-Policy)与离线策略(Off-Policy)。价值函数是评估未来收益的关键工具,包括状态价值函数和动作价值函数。经典算法如Q-learning、DQN、Policy Gradient等,在游戏AI、机器人控制、自动驾驶等多个领域有着广泛应用。针对不同应用场景,选择合适的算法可以显著提升性能。例如,对于连续动作控制任务,SAC或TD3更为适用;而对于棋类游戏,则AlphaZero表现出色。

Administrator Administrator 发布于 2026-04-08

015什么是长短期记忆?

本文详细介绍了短期会话记忆和长期会话记忆的定义、特征及其在对话系统中的应用。**短期会话记忆**主要存储当前对话上下文中的临时状态,如用户提出的问题、当前任务步骤等,会在会话结束后清空。而**长期会话记忆**则保存跨会话持久化的信息,如用户的身份属性、偏好等,这些信息在未来的对话中仍然可以复用。文章还讨论了这两种记忆类型的判断标准与实现方式,强调了人为设定规则的重要性,并提供了多种模式(如规则引擎、LLM分类器等)来决定信息应归类于哪种记忆类型。此外,文中给出了实际操作中的“用与不用”速查表,以及一个完整的智能客服记忆系统的Demo代码,展示了如何处理用户消息、提取并存储信息、进行指代消解及构建注入到LLM的上下文。最终总结出,一个好的记忆策略是谨慎写入长期记忆,积极读取以优化用户体验。

Administrator Administrator 发布于 2026-04-02

014如何验证RAG是否胡说

本文讨论了在使用大语言模型(LLM)时如何确保其回答中的引用准确无误的问题。首先指出,仅通过Prompt要求LLM标注来源是不够的,因为存在遗漏、错标和幻觉伪装等问题。为解决这些问题,提出了一个三层方案:首先是Prompt标注作为基础;其次是后处理式归因,即逐句检查每句话与文档之间的语义相似度来确定出处;最后是采用自然语言推理(NLI)模型验证文档是否确实支持该句内容。此外,还介绍了如何检测并处理幻觉,以及如何将引用信息以结构化形式输出给用户。整个方案提高了引用归因的准确率至94%,同时能够检测出87%的幻觉内容,适用于保险等高风险领域,增强了系统的可信度与合规性。

Administrator Administrator 发布于 2026-04-01

013RAG上下文工程-如何预防上下文窗口爆掉?即如何处理短期记忆

本文详细介绍了大语言模型(LLM)中的上下文窗口管理问题及其解决方案。**上下文窗口**是LLM在一次推理中可以处理的最大Token数量,常见的模型如GPT-3.5、GPT-4等有不同的窗口大小。当输入的Token数超过窗口限制时,会导致请求失败、信息丢失等问题。文章列举了导致窗口“爆掉”的主要原因,包括召回数量过多、文档切块过细、对话历史累积和文档冗余等,并提出了多种解决方案: 1. **重排序 + 动态截断**:通过高召回算法获取候选文档,再用精确模型重排序,取最相关的Top-K进入上下文。 2. **多级索引(父子文档)**:构建层次化的文档结构,小粒度检索、大粒度提供上下文,避免信息碎片化。 3. **对话记忆分层(滑动窗口+摘要)**:将对话记忆分为三层,保留最近对话的完整细节,将早期对话压缩成摘要,关键信息永久保存。 4. **Map-Reduce 模式**:将超长文档分批处理,先分别总结(Map),再合并总结(Reduce),避免一次性加载全部内容。 5. **上下文压缩(LLMLingua)**:使用小型模型对Prompt进行压缩,删除不重要的tokens,保留关键信息。 每种方案都有其适用场景和技术原理,并提供了详细的代码实现和效果评估。最后,文章给出了方案选型指南,帮助读者根据具体需求选择合适的解决方案。

Administrator Administrator 发布于 2026-04-01

06Harness 工程——Harness Engineering

Harness Engineering(驾驭工程)是2026年初迅速流行的一种新范式,旨在通过构建约束、反馈与控制系统来确保AI智能体稳定、可靠地工作。这一方法论强调在模型之外为Agent搭建“可读、可控、可验证、可恢复”的运行环境。随着AI开始执行更复杂的任务如操作电脑、调用API等,以及法规合规要求的提高,驾驭工程变得尤为重要。它通过优化外部环境而非重新训练模型,解决了AI智能体常见的失败模式,如上下文窗口耗尽、过早宣布胜利等问题。具体而言,Harness包含记忆系统、通用执行环境、外部知识获取等组件,这些组件弥补了大模型无法记住多轮对话历史、执行代码或获取实时信息等不足。此外,行业共识指出,瓶颈在于基础设施而非模型智能,因此设计一个可靠的Harness成为关键。实践案例表明,通过优化Harness,可以显著提升AI系统的性能和稳定性。

Administrator Administrator 发布于 2026-03-31

08RAG细节补充

本文介绍了稀疏向量和稠密向量在文本检索中的应用及其优缺点,并探讨了混合检索、多向量检索及RRF(倒排融合)等技术。稀疏向量主要用于关键词检索,其优点包括可解释性强、精确匹配和无需训练;但存在词汇鸿沟和高维问题。稠密向量则通过深度学习模型将文本编码为低维连续向量,擅长处理语义关联但可解释性差且依赖于训练数据。混合检索结合了稀疏和稠密检索的优势,通过RRF算法将不同检索方式的结果合并,以提升整体效果。多向量检索进一步提高了匹配精度,尤其是在处理复杂查询时。最后,reranker模型用于对RRF融合后的结果进行精细化排序,确保最终结果的准确性。

Administrator Administrator 发布于 2026-03-16

01知识图谱-进阶介绍

一、介绍 本文主要是介绍知识图谱的构建,其中包括不同方式实现实体抽取和关系抽取以及包括知识融合的难点说明 二、实现方案说明 1、实体抽取 在实体抽取环节,目前主要介绍和演示一下几种方案: 基于规则的实体抽取-----可作用工业级方案的规则补充 基于机器学习的实体抽取------目前工业级方案中采取的

Administrator Administrator 发布于 2026-02-13

00知识图谱-KnowledgeGraph介绍

本文是一篇全面介绍知识图谱的系统性文章,从基础知识到工业实战,涵盖了知识图谱的核心思想、构成、数据抽取、存储查询及实际应用。文章首先通过一个思想实验对比了传统数据库与知识图谱在处理复杂关联查询时的不同,接着详细定义了知识图谱的数学模型,并纠正了初学者常见的三个认知误区。随后,文章深入讲解了知识图谱的基本结构(模式层和数据层),以及如何从非结构化文本中抽取实体和关系,包括序列标注方法和技术演进路线。此外,还介绍了Neo4j图数据库及其查询语言Cypher的使用,并提供了从零开始构建知识图谱的完整流程和工具推荐。最后,文章为读者规划了一条清晰的学习路径,并强调了知识图谱作为工程实践的重要性,鼓励读者动手实践。通过这篇文章,读者可以全面了解知识图谱的理论与实践,为实际项目提供指导。

Administrator Administrator 发布于 2026-02-12

12GraphRAG详述

GraphRAG是一种结合了知识图谱与检索增强生成(RAG)的技术,旨在通过图结构捕获实体间的关系,从而实现更深层次的知识理解和推理。其核心思想是将非结构化文本转化为结构化知识图谱,并利用图结构辅助检索,使大语言模型的回答更加准确、全面和可解释。GraphRAG系统架构分为离线构建和在线检索两个阶段,其中离线阶段包括知识图谱构建、向量索引构建及元数据关联;在线阶段则涉及Query理解、混合检索、融合与排序以及增强生成。GraphRAG的优点在于提升检索精准度、具备推理能力、具有高可解释性并能解决长尾问题等,但同时也存在构建成本高、维护复杂度高等缺点。适用于需要深度推理、实体关系复杂的场景,如金融风控、医疗诊断等领域。在实际应用中建议采用渐进式策略,结合向量检索以优化性能。

Administrator Administrator 发布于 2026-02-12

11Advanced RAG(高级/优化型RAG)

该文章主要介绍了某种系统或方法的结构、搭建过程及其优缺点。在优点方面,这种系统或方法不受特定框架限制,具有高度自定义性和灵活性,并且相较于传统的RAG(Retrieval-Augmented Generation)模型,在效果和信息召回质量上表现更佳。然而,它也存在一定的局限性,尤其是在处理需要多步推理或多文档关联的问题时,可能无法准确地基于问题中的潜在信息找到相关文档来做出回答。这表明尽管该系统在某些方面表现出色,但在应对复杂查询时仍有一定挑战。

Administrator Administrator 发布于 2026-02-12

10Naive RAG(朴素/基础RAG)

本文介绍了某主题的三个主要方面:结构、快速搭建以及优缺点。首先,文章概述了该主题的基本结构组成;接着,详细说明了如何通过简单步骤迅速完成搭建过程,强调其实用性和便捷性;最后,从正反两面分析了其优势与不足之处。优点部分列举了几项显著的好处,而缺点则指出了在特定情况下可能遇到的问题或限制。整体上,文章旨在为读者提供一个全面了解该主题的基础,并帮助他们根据自身需求做出合适的选择。

Administrator Administrator 发布于 2026-02-12

05Agent的20个方案

本文详细介绍了大厂常用的20种Agent方案,这些方案分为单轮执行型、多轮规划型、多Agent协作型和垂直行业型四大类。单轮执行型包括工具调用型、意图路由型、一次性任务执行型、知识检索型和表单填写型等,适用于简单任务的直接执行。多轮规划型如计划-执行型、链式推理型、反思型和递归分解型等,适用于需要分步骤完成的复杂任务。多Agent协作型包括管弦乐队型、辩论型、评审-执行型、流水线型和自主团队型等,通过多个Agent分工协作完成更复杂的项目。垂直行业型则针对特定领域定制,如客服Agent、代码助手Agent、数据分析Agent、写作助手Agent和销售助手Agent等,旨在提升特定行业的效率和质量。每种Agent方案都有其适用场景和设计要点,选择合适的架构可以有效提升任务执行的效率和准确性。

Administrator Administrator 发布于 2026-02-05

06NLP-多分类问题说明

请提供需要生成摘要的文章内容。

Administrator Administrator 发布于 2026-02-03

05NLP-Transformer变体系列

请提供需要生成摘要的文章内容。

Administrator Administrator 发布于 2026-02-03

04NLP-迁移学习

好的,请提供需要我生成摘要的文章内容。

Administrator Administrator 发布于 2026-02-03

03NLP-Transformer架构

好的,请提供需要生成摘要的文章内容。

Administrator Administrator 发布于 2026-02-03

02NLP-注意力机制

好的,请提供需要生成摘要的文章内容。

Administrator Administrator 发布于 2026-02-03

01NLP-文本预处理

请提供需要生成摘要的文章内容。

Administrator Administrator 发布于 2026-02-03

00NLP入门讲解

好的,请提供需要生成摘要的文章内容。

Administrator Administrator 发布于 2026-02-03

04Jupyter

好的,请提供需要我生成摘要的文章内容。

Administrator Administrator 发布于 2026-02-03
上一页 下一页