Name: Building Agentic AI
Author: Sinan Ozdemir

《Building Agentic AI Workflows, Fine-Tuning, Optimization, and Deployment》

作者：Sinan Ozdemir，AI 从业者、教育家、连续创业者，拥有约翰霍普金斯数学硕士学位，创办 Kylie.ai 并实现退出，著有多部 LLM 实操书籍，开设 AI 播客。
丛书归属：Jon Krohn Pearson AI Signature 系列，丛书聚焦工程落地、业务编排、AI 基础三大方向，拒绝空谈概念，提供可长期复用的落地方法论。
出版信息：2026 年 Pearson 出版，ISBN：978-0-13-548968-0，全书分三大板块、9 个核心章节，配套 GitHub 完整代码、多组工业级实验、真实业务案例（SQL 生成、SDR 销售多智能体、客服策略机器人、多模态编码代理等）。
核心定位：面向开发者、数据科学家、AI 产品经理，不局限单一静态方案，提供一套可迭代、适配未来大模型的智能体 AI 全链路工程体系，覆盖工作流、智能体、微调、模型优化、多模态、推理模型、计算机操控全落地环节，全程配套实验评测方法。

第一部分：AI、LLM 基础与实验入门（第 1-3 章）

第 1 章：AI、大语言模型与智能体核心概念

1. LLM 底层基础分类

自回归模型（Autoregressive）：逐 token 生成文本（GPT、Claude、Llama、Qwen 等），主打生成任务，对话、代码、文案生成均依赖该架构。
自编码模型（Autoencoding）：双向读取文本（BERT 为代表），无原生生成能力，核心用于嵌入、文本分类、检索排序。
核心指标：参数量：参数量代表模型学习容量，但性能同时受训练数据、架构、微调影响；参数量越大算力、内存开销越高。
上下文窗口（Context Window）：LLM 短期记忆上限，存在中间内容丢失/ 大海捞针（Needle in Haystack） 位置偏差缺陷：模型更重视文本首尾内容，中段信息检索准确率暴跌，是长文本系统核心痛点。

2. LLM 任务体系划分（四大类，配套对应评测思路）

理解任务：嵌入、分类，用于检索、标签业务；
生成任务：自由文本、多选问答，对话、SQL、报告生成；
对齐（Alignment）四大维度
- 指令对齐：匹配用户真实意图；
- 对话对齐：多轮连贯交互；
- 行为对齐：安全、合规限制；
- 风格 / 价值对齐：语气、底层价值观控制（模型存在固有训练偏见）。

3. 全套提示工程实操技术

提示排序规则：高优先级目标、约束放最前，静态文档、示例居中，动态检索内容、用户问题放末尾，规避位置偏差；
CoT 思维链：强制模型输出推理步骤，数学、逻辑、SQL 任务准确率大幅提升；
少样本学习（Few-shot）：系统提示内置案例优于用户输入，分随机样本、语义相似样本（后者效果更强）；
提示链（Prompt Chaining）：拆分长任务分多轮 LLM 调用，解决超长文本丢失问题，代价是更高成本、延迟。

4. LLM 原生工程能力

推理参数：temperature（随机性）、top_k、top_p，控制输出确定性；
提示缓存：静态系统提示可缓存，大幅降低 token 开销与首 token 延迟，但推理模型因动态思考无法稳定缓存；
结构化输出：强制 JSON / 固定格式，自动化解析输出，减少解析报错；
工具调用：模型仅输出调用指令，由外部系统执行工具，是智能体底层核心能力。

5. 核心区分：LLM 工作流 VS AI 智能体

LLM 工作流：预定义完整节点、分支、执行路径，流程固定、可控、低成本低延迟，适合标准化重复任务；缺陷是无法自主适配未知场景；
AI 智能体（ReAct 智能体为基础）：拥有工具、自主决策能力，可动态选择执行步骤，适配复杂多变任务；缺陷是工具调用次数不可控，成本、延迟更高，易出现幻觉、工具误用；
ReAct 范式：Reason 推理→Action 调用工具→接收观测循环执行，是全书所有智能体底层标准框架。

第 2 章：LLM 工作流落地 ——Text-to-SQL 检索增强生成（RAG）实战

本章搭建企业数据库自然语言转 SQL 完整 LangGraph 工作流，以 BIRD-SQL（12000+SQL 基准数据集）为实验载体，完整落地 RAG 全链路。

RAG 三大核心模块
- 索引器：文本向量化存入向量库；
- 检索器：基于余弦相似度匹配相关证据；
- 生成器：LLM 结合检索内容生成 SQL；
完整五步搭建流程
1. 证据向量化入库：使用 Chroma 向量库，嵌入 BIRD 基准的数据库说明、业务证据，绑定数据库元数据；
2. LangGraph 状态定义：用 Pydantic 维护全局状态（用户问题、检索文档、生成 SQL、执行结果、对话历史等），所有节点共享状态；
3. 检索节点：基于用户 query 做嵌入相似度检索，返回 Top-k 相关业务证据；
4. SQL 生成节点：结构化输出 + CoT 提示，固定 temperature=0 保证输出稳定；
5. SQL 执行节点：对接 SQLite/Postgres，执行语句并捕获报错，封装可读结果；
有状态对话扩展：引入 LangGraph interrupt、MemorySaver 实现多轮上下文记忆，支持用户追问，无需重复输入数据库信息；
核心痛点：基础 RAG 未做提示优化、检索调优，SQL 准确率存在明显天花板，第三章针对性实验优化。

第 3 章：AI 系统标准化评测与对照实验

本章建立全品类 LLM 任务量化评测体系，所有落地系统必须配套可复现实验，杜绝主观判断。

1. 任务对应评测指标体系

检索类任务（RAG 核心）
- Precision@k：检索结果中有效证据占比（适合高风险业务，避免无关信息干扰）；
- Recall@k：全部有效证据被召回比例（复杂多步骤查询必备）；
- MRR@k：有效文档排名，衡量是否快速命中关键信息；实验：对比 7 款主流嵌入模型（OpenAI、Cohere、Jina、MiniLM 等），Cohere V4 综合检索指标最优；不同数据库领域适配不同嵌入模型，部分领域开源嵌入效果极差。
生成类任务（SQL、摘要）
- SQL 准确率 (SQA)：执行结果与标准答案数据集匹配度；
- 文本摘要评测：原文分块计算摘要语义余弦相似度，量化信息丢失程度；
实验变量控制方法
- 模型对照：多厂商 LLM 对比准确率、延迟、成本三维指标；
- 提示对照：0-shot/1-shot/3-shot、有无 CoT、随机样本 / 语义样本多组对照，实验证明语义少样本 + 思维链可提升 30%+ 准确率；
- 长文本优化实验：分块提示链摘要优于单次长摘要，但开销显著上升。

2. 工程实验规范

所有实验依托 LangGraph 搭建可复现流程，完整记录指标、参数；区分领域难度，对检索效果差的业务域，提供嵌入微调、查询改写两套优化方向。

第二部分：AI 智能体、多智能体与多模态进阶（第 4-6 章）

第 4 章：AI 单智能体与多智能体基础落地

核心对比：把第二章的 SQL RAG 工作流改造为 ReAct 智能体，量化两种架构优劣；同时落地完整 SDR 销售多智能体流水线。

1. SQL 智能体改造实验

智能体工具集：检索证据、读取库表结构、执行 SQL 三大工具；
评测维度：工具调用次数、答案准确率、延迟、成本；
实验结论：同等数据集下固定 RAG 工作流准确率接近智能体，但成本、延迟远低于智能体，智能体易无意义多次调用工具；

2. 延伸心智实验（Otto 记事本工具）

基于哲学延伸心智理论，给智能体增加 “写入业务证据” 工具，重复相似问题场景下，智能可复用历史记录，准确率大幅提升；无重复问题数据集无明显收益。

3. 多智能体案例：端到端销售 SDR 流水线

拆解 3 个分工独立 ReAct 智能体，搭配 MCP（模型上下文协议）标准化工具服务器：

线索挖掘智能体：工具（网页搜索、爬虫、CRM 创建联系人），挖掘授课 AI 领域高校讲师；
线索质检智能体：复用网页 / CRM 工具，核对讲师课程是否覆盖 LLM，标记合格 / 不合格线索；
邮件触达智能体：接入 Resend 官方 MCP 邮件服务器，自动生成个性化邮件并更新 CRM；

MCP 作用：标准化工具定义、远程工具调用，解耦工具代码与智能体，跨语言兼容；
单智能体 VS 多智能体取舍：多智能体拆分职责，可单独调优单个模块、隔离故障，适合长链路流水线；单智能体易步骤遗漏、逻辑混乱。

4. 智能体观测工具 LangSmith

全链路追踪所有 LLM 调用、工具调用、状态变更，用于调试、指标统计、线上审计，开箱即用无需复杂开发。

第 5 章：智能体增强：提示、混合工作流、多层多智能体架构

聚焦解决智能不遵守规则、工具漏调用、幻觉三大生产级痛点，提供混合架构（工作流 + 智能体）、监督多智能体方案。

案例 1：合规政策客服智能体

数据集：爬取 Airbnb 千条政策，用 GPT-4.1 生成 1000+ synthetic 用户场景问答测试集；
检索改造：放弃向量嵌入，采用传统 BM25 关键词检索，适合政策、FAQ 专有术语匹配；
提示实验：三组智能对照（无检索工具、有工具无强制提示、工具 + 强制必检索提示）；
关键结论：仅增加一句 “必须调用检索工具再回答”，模型合规准确率提升近 50%；小模型更容易无视工具，大模型过度自信、拒绝检索，本质是模型校准缺陷。

案例 2：深度研究混合智能工作流（规划 + 反思双组件）

混合架构：刚性工作流框架，内部步骤由自主智能体执行，两大核心组件：

规划器：大模型生成分步调研计划，复杂任务提前拆解；
反思 / 重规划器：每步执行后复盘，更新、缩减、拓展任务计划；落地场景：行业研报、AI 资讯周刊生成，不同步骤可搭配高低成本模型平衡开销。

多智能体三大主流架构

全互联网络：智能体自由互传消息，灵活但易逻辑混乱；
基础监督架构：单一主管分发任务，智能体无跨通信；
工具式监督架构：主管将其他智能体封装为工具调用，最适配 LangGraph 开发；实操改造 SDR 流水线：新增定时主管智能体，每日自动触发线索挖掘、质检、邮件分发，实现自动化销售流程。

智能体工具选择专项实验

15 类工具、5 款大模型对照，发现模型存在位置偏见：工具列表靠前的函数更容易被选中；工具描述模糊会大幅降低调用精准度，缺失入参时模型会拒绝调用而非合理提问。

第 6 章：多模态 AI、编码智能体落地

跳出纯文本，讲解图像、音频、代码跨模态系统 5 大构建范式，配套图像检索、视觉问答、代码生成三大案例。

多模态五大核心构建方案

统一向量空间嵌入（CLIP/SigLIP）：图文共用编码器，图像、文本映射至同一向量，用于以文搜图、以图搜文；
模态互映射：扩散模型（Flux、Mercury）实现文生图、文生代码；
模态转文本落地：音频转文字、OCR 图像转文本，用 LLM 做核心推理（语音机器人底层逻辑）；
联合建模（LLaVA/Moondream）：单模型同时处理图像 + 文本，原生视觉问答；
模态分离编排：多单模态模型通过智能体 / 工作流串联，开发成本最低、易迭代。

三大实操案例

图像检索流水线：CLIP 粗检索 + ViLT 跨编码器重排序，平衡检索速度与精准度；
Moondream 轻量视觉问答模型：轻量化开源多模态模型，支持看图描述、目标检测、坐标定位，适合边缘设备；
通用编码智能体：不依赖原生工具调用，通过标记 Python 代码块实现执行；集成图像生成、Moondream 看图工具，可读写本地文件、批量处理图文；

缺陷：代码执行存在本地安全风险，需增加沙箱防护。

前沿 Any-to-Any 通用多模态模型

统一编码器处理文本、图像、音频、输出任意模态，是行业长期研发方向，但当前工程落地成本极高。

第三部分：推理 LLM、微调、生产级模型优化（第 7-9 章）

第 7 章：推理型大模型与计算机操控智能体

1. 智能七大底层智能支柱

推理、记忆、学习、语言、感知、自我认知、价值动机，全书所有技术均围绕七大能力落地。

2. 上下文工程（Context Engineering）

统一框架：工具集成、提示工程、记忆管理、检索四大模块协同，是所有智能体系统底层设计标准。

3. 推理模型核心原理

推理模型（o4、Claude Opus、DeepSeek R1）通过 RL 训练强制输出思考过程，分两种输出模式：

推理 Token 与对话分离：节省上下文，但无法缓存；
推理嵌入对话：可复用历史思考，增加 token 开销；关键实验结论：推理不代表一定提升效果，HLE、MathQA 基准对照显示：简单任务关闭推理速度更快、准确率无下降；复杂多步骤工具调用、计算机操控场景推理模型优势显著。

4. 计算机操控两大技术路线

纯多模态视觉路线：截取屏幕截图，多模态模型识别坐标执行点击、输入；
DOM 文本接地路线：解析网页 / 程序页面元素为文本，无需图像理解，延迟更低；基于 MacPaw 屏幕数据集测试，坐标定位类任务推理模型提升明显。

第 8 章：微调实现模型校准与领域适配

聚焦微调解决两大核心问题：模型置信度校准、垂直领域知识适配，以 Qwen3 推理模型、Airbnb 政策数据集为案例。

LLM 校准：原生模型常过度自信（不懂也编造答案），微调后输出置信度匹配真实正确率；
分类 / 多选任务微调实验：对比基座模型与 LoRA 微调模型，平衡准确率、推理成本、数据隐私；
领域适配案例：基于 Airbnb 政策数据集微调 Qwen3，垂直问答幻觉大幅降低；
权衡维度：微调算力成本、训练数据隐私、推理速度、输出准确率四维取舍。

第 9 章：生产级全维度模型优化

汇总工业落地全套压缩、加速方案，配套 4 个完整工程案例。

核心优化技术

量化（Quantization）：降低模型权重精度，缩小体积、提升推理速度，轻微损失精度；
模型蒸馏：大教师模型知识迁移至小型学生模型，兼顾速度与效果；
投机解码（Speculative Decoding）：小模型预生成 Token，大模型校验，大幅降低生成延迟；
套娃嵌入（Matryoshka Embeddings）：分层向量，按需截取维度，平衡检索速度与精度。

四大落地案例

Qwen 系列投机解码加速实验；
实时语音机器人：STT 语音转文字、TTS 语音合成模型选型优化；
套娃嵌入微调：定制分层向量适配不同检索场景；
完整迭代优化链路：从基座→微调→量化→蒸馏→线上部署全流程。

全书核心整体脉络与价值总结

1. 逻辑递进链路

基础 LLM 概念 → RAG 标准化工作流 + 评测体系 → 单 / 多 ReAct 智能体搭建 → 混合工作流架构 + 检索优化 (BM25) → 多模态图文 / 编码系统 → 推理专用大模型 → 领域微调校准 → 生产压缩、加速部署从基础文本流水线，逐步拓展自主智能、跨模态能力，最后落地线上性能优化，完整覆盖 AI 智能体系统从原型到工业上线全生命周期。

2. 核心方法论

拒绝黑盒：所有技术配套对照实验、量化指标，不空谈效果；
双架构平衡：标准化任务优先预定义工作流（低成本稳定），复杂多变任务采用智能体 / 混合架构（高灵活）；
分层落地思维：小原型（SQL、客服单案例）→多业务流水线（SDR 多智能体）→多模态拓展→模型底层调优；
落地优先：全部代码、数据集、实验开源配套，基于 LangGraph、LangSmith、MCP 等主流开源栈，可直接复用至企业系统。

3. 关键性结论

提示工程成本远低于微调，一句强制提示可大幅改善智能体工具使用效果；
传统 BM25 检索在政策、专有领域不弱于嵌入模型，无需一味追求新算法；
推理模型不是万能，简单业务关闭推理可节省大量成本；
多智能体类似微服务架构，拆分职责便于迭代排障；
模型参数量不是唯一标准，上下文偏差、校准、检索质量对线上效果影响更大。