《Building Agentic AI Workflows, Fine-Tuning, Optimization, and Deployment》
作者:Sinan Ozdemir,AI 从业者、教育家、连续创业者,拥有约翰霍普金斯 数学硕士学位,创办 Kylie.ai 并实现退出,著有多部 LLM 实操书籍,开设 AI 播客。
丛书归属:Jon Krohn Pearson AI Signature 系列,丛书聚焦工程落地、业务编排、AI 基础三大方向,拒绝空谈概念,提供可长期复用的落地方法论。
出版信息:2026 年 Pearson 出版,ISBN:978-0-13-548968-0,全书分三大板块、9 个核心章节,配套 GitHub 完整代码、多组工业级实验、真实业务案例(SQL 生成、SDR 销售多智能体、客服策略机器人、多模态编码代理等)。
核心定位:面向开发者、数据科学家、AI 产品经理,不局限单一静态方案,提供一套可迭代、适配未来大模型的智能体 AI 全链路工程体系,覆盖工作流、智能体、微调、模型优化、多模态、推理模型、计算机操控全落地环节,全程配套实验评测方法。
第一部分:AI、LLM 基础与实验入门(第 1-3 章)
第 1 章:AI、大语言模型与智能体核心概念
1. LLM 底层基础分类
自回归模型(Autoregressive):逐 token 生成文本(GPT、Claude、Llama、Qwen 等),主打生成任务,对话、代码、文案生成均依赖该架构。
自编码模型(Autoencoding):双向读取文本(BERT 为代表),无原生生成能力,核心用于嵌入、文本分类、检索排序。
核心指标:参数量:参数量代表模型学习容量,但性能同时受训练数据、架构、微调影响;参数量越大算力、内存开销越高。
上下文窗口(Context Window):LLM 短期记忆上限,存在中间内容丢失/ 大海捞针(Needle in Haystack) 位置偏差缺陷:模型更重视文本首尾内容,中段信息检索准确率暴跌,是长文本系统核心痛点。
2. LLM 任务体系划分(四大类,配套对应评测思路)
理解任务:嵌入、分类,用于检索、标签业务;
生成任务:自由文本、多选问答,对话、SQL、报告生成;
对齐(Alignment)四大维度
指令对齐:匹配用户真实意图;
对话对齐:多轮连贯交互;
行为对齐:安全、合规限制;
风格 / 价值对齐:语气、底层价值观控制(模型存在固有训练偏见)。
3. 全套提示工程实操技术
提示排序规则:高优先级目标、约束放最前,静态文档、示例居中,动态检索内容、用户问题放末尾,规避位置偏差;
CoT 思维链:强制模型输出推理步骤,数学、逻辑、SQL 任务准确率大幅提升;
少样本学习(Few-shot):系统提示内置案例优于用户输入,分随机样本、语义相似样本(后者效果更强);
提示链(Prompt Chaining):拆分长任务分多轮 LLM 调用,解决超长文本丢失问题,代价是更高成本、延迟。
4. LLM 原生工程能力
推理参数:temperature(随机性)、top_k、top_p,控制输出确定性;
提示缓存:静态系统提示可缓存,大幅降低 token 开销与首 token 延迟,但推理模型因动态思考无法稳定缓存;
结构化输出:强制 JSON / 固定格式,自动化解析输出,减少解析报错;
工具调用:模型仅输出调用指令,由外部系统执行工具,是智能体底层核心能力。
5. 核心区分:LLM 工作流 VS AI 智能体
LLM 工作流:预定义完整节点、分支、执行路径,流程固定、可控、低成本低延迟,适合标准化重复任务;缺陷是无法自主适配未知场景;
AI 智能体(ReAct 智能体为基础):拥有工具、自主决策能力,可动态选择执行步骤,适配复杂多变任务;缺陷是工具调用次数不可控,成本、延迟更高,易出现幻觉、工具误用;
ReAct 范式:Reason 推理→Action 调用工具→接收观测循环执行,是全书所有智能体底层标准框架。
第 2 章:LLM 工作流落地 ——Text-to-SQL 检索增强生成(RAG)实战
本章搭建企业数据库自然语言转 SQL 完整 LangGraph 工作流,以 BIRD-SQL(12000+SQL 基准数据集)为实验载体,完整落地 RAG 全链路。
RAG 三大核心模块
索引器:文本向量化存入向量库;
检索器:基于余弦相似度匹配相关证据;
生成器:LLM 结合检索内容生成 SQL;
完整五步搭建流程
证据向量化入库:使用 Chroma 向量库,嵌入 BIRD 基准的数据库说明、业务证据,绑定数据库元数据;
LangGraph 状态定义:用 Pydantic 维护全局状态(用户问题、检索文档、生成 SQL、执行结果、对话历史等),所有节点共享状态;
检索节点:基于用户 query 做嵌入相似度检索,返回 Top-k 相关业务证据;
SQL 生成节点:结构化输出 + CoT 提示,固定 temperature=0 保证输出稳定;
SQL 执行节点:对接 SQLite/Postgres,执行语句并捕获报错,封装可读结果;
有状态对话扩展:引入 LangGraph interrupt、MemorySaver 实现多轮上下文记忆,支持用户追问,无需重复输入数据库信息;
核心痛点:基础 RAG 未做提示优化、检索调优,SQL 准确率存在明显天花板,第三章针对性实验优化。
第 3 章:AI 系统标准化评测与对照实验
本章建立全品类 LLM 任务量化评测体系,所有落地系统必须配套可复现实验,杜绝主观判断。
1. 任务对应评测指标体系
检索类任务(RAG 核心)
Precision@k:检索结果中有效证据占比(适合高风险业务,避免无关信息干扰);
Recall@k:全部有效证据被召回比例(复杂多步骤查询必备);
MRR@k:有效文档排名,衡量是否快速命中关键信息;实验:对比 7 款主流嵌入模型(OpenAI、Cohere、Jina、MiniLM 等),Cohere V4 综合检索指标最优;不同数据库领域适配不同嵌入模型,部分领域开源嵌入效果极差。
生成类任务(SQL、摘要)
SQL 准确率 (SQA):执行结果与标准答案数据集匹配度;
文本摘要评测:原文分块计算摘要语义余弦相似度,量化信息丢失程度;
实验变量控制方法
模型对照:多厂商 LLM 对比准确率、延迟、成本三维指标;
提示对照:0-shot/1-shot/3-shot、有无 CoT、随机样本 / 语义样本多组对照,实验证明语义少样本 + 思维链可提升 30%+ 准确率;
长文本优化实验:分块提示链摘要优于单次长摘要,但开销显著上升。
2. 工程实验规范
所有实验依托 LangGraph 搭建可复现流程,完整记录指标、参数;区分领域难度,对检索效果差的业务域,提供嵌入微调、查询改写两套优化方向。
第二部分:AI 智能体、多智能体与多模态进阶(第 4-6 章)
第 4 章:AI 单智能体与多智能体基础落地
核心对比:把第二章的 SQL RAG 工作流改造为 ReAct 智能体,量化两种架构优劣;同时落地完整 SDR 销售多智能体流水线。
1. SQL 智能体改造实验
智能体工具集:检索证据、读取库表结构、执行 SQL 三大工具;
评测维度:工具调用次数、答案准确率、延迟、成本;
实验结论:同等数据集下固定 RAG 工作流准确率接近智能体,但成本、延迟远低于智能体,智能体易无意义多次调用工具;
2. 延伸心智实验(Otto 记事本工具)
基于哲学延伸心智理论,给智能体增加 “写入业务证据” 工具,重复相似问题场景下,智能可复用历史记录,准确率大幅提升;无重复问题数据集无明显收益。
3. 多智能体案例:端到端销售 SDR 流水线
拆解 3 个分工独立 ReAct 智能体,搭配 MCP(模型上下文协议)标准化工具服务器:
线索挖掘智能体:工具(网页搜索、爬虫、CRM 创建联系人),挖掘授课 AI 领域高校讲师;
线索质检智能体:复用网页 / CRM 工具,核对讲师课程是否覆盖 LLM,标记合格 / 不合格线索;
邮件触达智能体:接入 Resend 官方 MCP 邮件服务器,自动生成个性化邮件并更新 CRM;
MCP 作用:标准化工具定义、远程工具调用,解耦工具代码与智能体,跨语言兼容;
单智能体 VS 多智能体取舍:多智能体拆分职责,可单独调优单个模块、隔离故障,适合长链路流水线;单智能体易步骤遗漏、逻辑混乱。
4. 智能体观测工具 LangSmith
全链路追踪所有 LLM 调用、工具调用、状态变更,用于调试、指标统计、线上审计,开箱即用无需复杂开发。
第 5 章:智能体增强:提示、混合工作流、多层多智能体架构
聚焦解决智能不遵守规则、工具漏调用、幻觉三大生产级痛点,提供混合架构(工作流 + 智能体)、监督多智能体方案。
案例 1:合规政策客服智能体
数据集:爬取 Airbnb 千条政策,用 GPT-4.1 生成 1000+ synthetic 用户场景问答测试集;
检索改造:放弃向量嵌入,采用传统 BM25 关键词检索,适合政策、FAQ 专有术语匹配;
提示实验:三组智能对照(无检索工具、有工具无强制提示、工具 + 强制必检索提示);
关键结论:仅增加一句 “必须调用检索工具再回答”,模型合规准确率提升近 50%;小模型更容易无视工具,大模型过度自信、拒绝检索,本质是模型校准缺陷。
案例 2:深度研究混合智能工作流(规划 + 反思双组件)
混合架构:刚性工作流框架,内部步骤由自主智能体执行,两大核心组件:
规划器:大模型生成分步调研计划,复杂任务提前拆解;
反思 / 重规划器:每步执行后复盘,更新、缩减、拓展任务计划;落地场景:行业研报、AI 资讯周刊生成,不同步骤可搭配高低成本模型平衡开销。
多智能体三大主流架构
全互联网络:智能体自由互传消息,灵活但易逻辑混乱;
基础监督架构:单一主管分发任务,智能体无跨通信;
工具式监督架构:主管将其他智能体封装为工具调用,最适配 LangGraph 开发;实操改造 SDR 流水线:新增定时主管智能体,每日自动触发线索挖掘、质检、邮件分发,实现自动化销售流程。
智能体工具选择专项实验
15 类工具、5 款大模型对照,发现模型存在位置偏见:工具列表靠前的函数更容易被选中;工具描述模糊会大幅降低调用精准度,缺失入参时模型会拒绝调用而非合理提问。
第 6 章:多模态 AI、编码智能体落地
跳出纯文本,讲解图像、音频、代码跨模态系统 5 大构建范式,配套图像检索、视觉问答、代码生成三大案例。
多模态五大核心构建方案
统一向量空间嵌入(CLIP/SigLIP):图文共用编码器,图像、文本映射至同一向量,用于以文搜图、以图搜文;
模态互映射:扩散模型(Flux、Mercury)实现文生图、文生代码;
模态转文本落地:音频转文字、OCR 图像转文本,用 LLM 做核心推理(语音机器人底层逻辑);
联合建模(LLaVA/Moondream):单模型同时处理图像 + 文本,原生视觉问答;
模态分离编排:多单模态模型通过智能体 / 工作流串联,开发成本最低、易迭代。
三大实操案例
图像检索流水线:CLIP 粗检索 + ViLT 跨编码器重排序,平衡检索速度与精准度;
Moondream 轻量视觉问答模型:轻量化开源多模态模型,支持看图描述、目标检测、坐标定位,适合边缘设备;
通用编码智能体:不依赖原生工具调用,通过标记 Python 代码块实现执行;集成图像生成、Moondream 看图工具,可读写本地文件、批量处理图文;
缺陷:代码执行存在本地安全风险,需增加沙箱防护。
前沿 Any-to-Any 通用多模态模型
统一编码器处理文本、图像、音频、输出任意模态,是行业长期研发方向,但当前工程落地成本极高。
第三部分:推理 LLM、微调、生产级模型优化(第 7-9 章)
第 7 章:推理型大模型与计算机操控智能体
1. 智能七大底层智能支柱
推理、记忆、学习、语言、感知、自我认知、价值动机,全书所有技术均围绕七大能力落地。
2. 上下文工程(Context Engineering)
统一框架:工具集成、提示工程、记忆管理、检索四大模块协同,是所有智能体系统底层设计标准。
3. 推理模型核心原理
推理模型(o4、Claude Opus、DeepSeek R1)通过 RL 训练强制输出思考过程,分两种输出模式:
推理 Token 与对话分离:节省上下文,但无法缓存;
推理嵌入对话:可复用历史思考,增加 token 开销;关键实验结论:推理不代表一定提升效果,HLE、MathQA 基准对照显示:简单任务关闭推理速度更快、准确率无下降;复杂多步骤工具调用、计算机操控场景推理模型优势显著。
4. 计算机操控两大技术路线
纯多模态视觉路线:截取屏幕截图,多模态模型识别坐标执行点击、输入;
DOM 文本接地路线:解析网页 / 程序页面元素为文本,无需图像理解,延迟更低;基于 MacPaw 屏幕数据集测试,坐标定位类任务推理模型提升明显。
第 8 章:微调实现模型校准与领域适配
聚焦微调解决两大核心问题:模型置信度校准、垂直领域知识适配,以 Qwen3 推理模型、Airbnb 政策数据集为案例。
LLM 校准:原生模型常过度自信(不懂也编造答案),微调后输出置信度匹配真实正确率;
分类 / 多选任务微调实验:对比基座模型与 LoRA 微调模型,平衡准确率、推理成本、数据隐私;
领域适配案例:基于 Airbnb 政策数据集微调 Qwen3,垂直问答幻觉大幅降低;
权衡维度:微调算力成本、训练数据隐私、推理速度、输出准确率四维取舍。
第 9 章:生产级全维度模型优化
汇总工业落地全套压缩、加速方案,配套 4 个完整工程案例。
核心优化技术
量化(Quantization):降低模型权重精度,缩小体积、提升推理速度,轻微损失精度;
模型蒸馏:大教师模型知识迁移至小型学生模型,兼顾速度与效果;
投机解码(Speculative Decoding):小模型预生成 Token,大模型校验,大幅降低生成延迟;
套娃嵌入(Matryoshka Embeddings):分层向量,按需截取维度,平衡检索速度与精度。
四大落地案例
Qwen 系列投机解码加速实验;
实时语音机器人:STT 语音转文字、TTS 语音合成模型选型优化;
套娃嵌入微调:定制分层向量适配不同检索场景;
完整迭代优化链路:从基座→微调→量化→蒸馏→线上部署全流程。
全书核心整体脉络与价值总结
1. 逻辑递进链路
基础 LLM 概念 → RAG 标准化工作流 + 评测体系 → 单 / 多 ReAct 智能体搭建 → 混合工作流架构 + 检索优化 (BM25) → 多模态图文 / 编码系统 → 推理专用大模型 → 领域微调校准 → 生产压缩、加速部署从基础文本流水线,逐步拓展自主智能、跨模态能力,最后落地线上性能优化,完整覆盖 AI 智能体系统从原型到工业上线全生命周期。
2. 核心方法论
拒绝黑盒:所有技术配套对照实验、量化指标,不空谈效果;
双架构平衡:标准化任务优先预定义工作流(低成本稳定),复杂多变任务采用智能体 / 混合架构(高灵活);
分层落地思维:小原型(SQL、客服单案例)→多业务流水线(SDR 多智能体)→多模态拓展→模型底层调优;
落地优先:全部代码、数据集、实验开源配套,基于 LangGraph、LangSmith、MCP 等主流开源栈,可直接复用至企业系统。
3. 关键性结论
提示工程成本远低于微调,一句强制提示可大幅改善智能体工具使用效果;
传统 BM25 检索在政策、专有领域不弱于嵌入模型,无需一味追求新算法;
推理模型不是万能,简单业务关闭推理可节省大量成本;
多智能体类似微服务架构,拆分职责便于迭代排障;
模型参数量不是唯一标准,上下文偏差、校准、检索质量对线上效果影响更大。