人工智能

Designing AI Interfaces

前言(Foreword)

由卡内基梅隆大学人机交互领域学者 Dan Saffer 撰写,核心观点与背景梳理如下:

  1. 破除行业误区:反驳 “AI 能力足够强就无需界面设计” 的错误认知。聊天框式极简界面看似简洁,却会放大人类拟人化心理(ELIZA 效应)、掩盖 AI 的概率性缺陷,还会延续用户使用搜索引擎的旧习惯,造成交互错位。
  2. ELIZA 效应核心解读:早期 AI 聊天程序 ELIZA 仅依靠关键词匹配和模板回复,并无真正理解能力,但用户仍会对其产生情感依赖、默认它具备人类思维。该现象至今仍是 AI 界面的核心难题 —— 语言类 AI 极易让用户误判其智能水平。
  3. 搜索习惯的遗留问题:用户拥有二十余年搜索引擎使用经验,会把 AI 输入框当作搜索框使用,而产品往往缺少引导用户建立 “AI 交互新认知” 的设计,进一步加剧体验问题。
  4. 全书核心框架价值:作者提出的输入 - 计算 - 输出三维框架,能精准定位 AI 交互故障点:是输入表意模糊、计算阶段反馈缺失,还是输出呈现不合理。同时强调 AI 设计是跨团队协作工作,设计、工程、产品团队必须统一认知。
  5. 补充痛点:高置信度百分比等指标会制造 “虚假精准感”,LLM 的附和倾向(讨好行为)会形成信息回音室;自主智能体(Agentic AI)的界面设计挑战最大,需做到流程透明、权责清晰。

序言(Preface)

  1. 创作缘起:作者借鉴 CIA “凤凰清单” 的问题拆解思路,结合自身在谷歌 TensorFlow 项目的 AI 工作经历,发现 GUI、传统人机交互(HCI)的设计经验,可迁移用于当下 AI 界面设计。
  2. 行业现状反思:如今 AI 产品竞争聚焦于模型性能、技术指标,设计师的用户视角与价值常被弱化;但设计师的核心作用,是锚定用户真实任务与需求,而非单纯追逐技术噱头。
  3. 本书受众:
    • 核心受众:深耕传统确定性系统、转型做 AI 设计的资深设计师;刚入行、缺乏 AI 设计指导的新人设计师。
    • 延伸受众:工程师、产品经理、研究员,可从设计视角补充 AI 产品落地思路。
  4. 内容定位:无需读者掌握 Transformer、模型训练等底层硬核技术,仅需建立AI 能力边界的基础认知,结合实操案例讲解设计方法,同时标注全书排版、标注、提示等使用规范。

 

第 1 章:理解大语言模型与 AI 系统(Understanding Large Language Models and Systems)

本章为全书基础,梳理 AI 技术演进、用户认知偏差、设计师必备能力、团队成熟度模型,并正式确立输入 - 计算 - 输出核心分析框架。

1. 早期消费类预测语言模型

以手机 T9 联想输入法、后续 Swype 滑行键盘为案例:

  • 原理:基于词频库对用户输入做概率预测,和 LLM 底层逻辑同源,是早期 “人机预测交互” 的雏形。
  • 差异:T9 体量极小、功能局限于文字补全;现代 LLM 依托海量数据,可完成写作、推理、创作等复杂任务,但本质仍是基于人类语言模式的预测系统,不具备真正理解能力。
  • 设计启示:AI 设计需回归人类沟通需求,而非盲目追捧 AGI(通用人工智能)概念。

2. AI 发展简史

  1. 符号主义时代:1950 年图灵提出图灵测试,判断机器是否具备类人智能,但该测试仅局限于文本模仿,无法衡量真正的推理能力。
  2. ELIZA 与规则式 AI:60 年代 MIT 的 ELIZA 通过关键词匹配、模板对话模拟心理咨询师,催生ELIZA 效应(人类自动为类语言机器赋予情感、理解能力)。当时 AI 依赖人工编写规则,无法应对语言的无限复杂性,最终引发第一次 AI 寒冬。
  3. 技术三大突破(现代 AI 基石):
    • 海量数据:互联网、维基百科、社交媒体产生海量自然语言文本;
    • GPU 算力:显卡并行计算能力大幅提升模型训练效率;
    • Transformer 架构(2017):引入注意力机制,可同时处理整段文本,打破逐字处理的限制,催生 GPT、BERT 等主流 LLM。
  4. 当代主流模型与行业隐忧:介绍 GPT、Claude、Gemini 等模型,同时指出大模型存在偏见、高能耗、幻觉(编造信息)等问题,技术热度与实际能力仍存在巨大鸿沟。

3. AI 时代的用户体验(UX)核心问题

(1)用户常见认知误区

用户受科幻、营销、搜索习惯影响,对 AI 产生多重错误假设:

  • 认为 AI 拥有人类式理解、情感;
  • 默认输出 100% 真实(忽视幻觉);
  • 认为同一提示会得到固定结果(忽视 LLM 概率性);
  • 相信 AI 全知全能、无数据偏见。

(2)商业与环境加剧问题

  • 资本推动企业仓促上线 AI 功能,重技术噱头、轻用户需求;
  • 媒体过度渲染 AI “超能力”,拔高用户预期;
  • 全球缺乏统一的 AI 透明性法规,界面难以约束模型风险。

(3)设计师三大核心必备能力

  1. 懂用户:拆解用户真实意图,预判误解点,平衡界面透明度(过度透明造成信息过载,过度隐藏引发不信任);可借助用户画像梳理不同人群的使用场景、痛点。
  2. 技术与评估能力:无需成为算法专家,但需理解 AI 能力边界、常见故障,能和工程师对话,利用 AI 原型工具快速验证设计。
  3. 跨团队沟通:设计、工程、产品需统一语言,明确 AI 功能的权责与迭代逻辑。

(4)AI 设计的伦理考量

参考 DeepMind 的研究,划分七大风险,并归为三大类:

  1. 人际与社会风险:算法偏见、有害内容、虚假信息、歧视;设计方案:增加内容举报、透明化展示机制。
  2. 安全与隐私风险:数据泄露、恶意使用、权限滥用;设计方案:精细化权限、人工审核兜底。
  3. 环境风险:模型训练 / 运行能耗、数据中心水资源消耗;设计方案:精简非必要 AI 功能,优先选用轻量化模型。

(5)组织知识共享与 AI 成熟度模型

借鉴汽车自动驾驶分级,提出AI 组织三级成熟度模型,用于评估团队协作能力:

  1. 一级:个人探索:无共享规范,模型知识、评估、伦理问题仅靠个人摸索,功能自上而下制定,协作混乱。
  2. 二级:共享认知 + 人工维护:建立文档、统一术语,专人负责模型评估与 AI 规范,有定期分享,但依赖人工沟通,流程繁琐。
  3. 三级:集成化 AI 组织:信息自动流转,用户需求驱动功能迭代,评估、伦理、权限全流程标准化,团队适配模型快速迭代的节奏。

4. 本书核心框架:输入 - 计算 - 输出(Input-Computation-Output)

这是贯穿全书的核心逻辑,定义三大阶段核心作用与设计难点:

  1. 输入(Inputs):人类意图传递给 AI 的入口,包含显式输入、隐式上下文,难点是意图模糊、解读偏差。
  2. 计算(Computation):AI 内部处理、路由、推理的黑盒阶段,是决定输出质量的核心,难点是过程不透明、延迟不可控、易出错。
  3. 输出(Outputs):AI 结果返回给用户,难点是结果不可靠、形式多样、需支持二次操作。

补充:三大阶段前后还有配置、迭代、反馈环节,形成完整交互闭环。

本章小结

梳理 AI 技术发展史与用户心理根源,明确 AI 设计师的能力、伦理、团队协作要求,正式确立输入 - 计算 - 输出分析框架,为后续章节铺垫理论基础。

 

第 2 章:能力、发现与编排(Capability, Discovery, and Orchestration)

本章聚焦输入之前的前置设计:模型能力定义、用户功能发现、系统编排三大核心,以 Google Wave 失败案例开篇,论证 “技术强大但用户无法理解、使用,产品必然失败”。

1. 模型能力(Capabilities)

(1)设计师的普遍困境

调研显示,AI 设计师最大痛点是无法清晰界定模型能做 / 不能做,进而限制创意与落地,因此必须先理解模型训练与评估逻辑。

(2)模型训练两大阶段

  1. 预训练(Pretraining):投喂全网海量文本,让模型学习通用语言规则、知识与词汇关联,目标是掌握基础语言模式。
  2. 微调(Fine-tuning):使用小范围定向数据优化模型,结合人类反馈强化学习(RLHF),让模型更贴合人类偏好、遵循指令、提升回答质量。

核心结论:LLM 只是语言模式复刻,并非真正 “懂知识”。

(3)模型评估(Evals)

行业主流评估基准,用于衡量模型实际表现:

  1. MMLU:跨 57 个学科的选择题,测试通用知识与指令遵循能力。
  2. GSM8K:小学数学应用题,测试多步骤逻辑推理能力。
  3. MT Bench:人工测评,评估回答语气、清晰度、实用性等主观体验。

设计启示:高分基准≠真实用户体验,设计师需结合评估结果设计交互边界。

2. 用户意图与功能发现(Discovery)

(1)用户意图分类

区分显式意图(用户直接提问、操作)与隐式意图(上下文、使用场景、历史行为);AI 产品分为两类:

  • AI 原生工具:意图开放、用户无明确目标,需引导探索;
  • AI 增强工具:叠加在传统软件上,用户意图明确,需贴合原有工作流。

(2)AI 功能发现二维矩阵

以用户意图高低、系统主动性高低划分四大场景,并匹配对应设计方案:

  1. 低用户意图 + 低系统主动性:靠社区、长期使用自然发现功能;
  2. 低用户意图 + 高系统主动性:增加上下文提示,避免过度打扰;
  3. 高用户意图 + 低系统主动性:简化入口、降低操作门槛;
  4. 高用户意图 + 高系统主动性:精简流程,加速用户任务。

(3)主流功能发现模式(多类结合使用)

  1. 基于输入的发现:指令触发、右键 / 选中文本等手势、空白页引导;
  2. 上下文感知发现:识别文档内容、用户重复行为、光标位置,弹出对应功能;
  3. 主动预判发现:异常提醒(日程冲突)、实时翻译等预测式辅助;
  4. 渐进式发现:分阶段解锁高级功能、场景化教程,避免信息过载。

(4)采用惯性与迭代挑战

  1. 行为惯性:用户习惯固定工作流,即便有更优 AI 功能也会视而不见,设计需打破惯性、轻量化引导。
  2. AI 功能迭代特性:模型持续更新,功能不断变化,用户需要反复适应;同时用户会把其他 AI 产品的经验迁移过来,产生预判偏差。

3. 系统编排(Orchestration)

定义:用户使用 AI 前的配置、权限、工具选择等底层设置,核心原则:目标明确、过程透明、体验统一。包含五大核心模块:

(1)模型、智能体与工具选择

三层能力架构(从基础到高阶):

  1. 基础模型:仅响应提示,被动生成内容;
  2. 模型 + 工具:联网、读文件、调用外部能力,仍由用户主导;
  3. 智能体(Agent):自主拆解任务、规划步骤、调用工具,具备高度自主性。

设计要点:模型选择优先展示用途、速度、适用场景,而非技术名称;支持自动路由 + 手动切换。

(2)用量与配额管理

AI 调用存在成本与接口限制,设计方案:

  • 可视化额度、令牌(Token)消耗;
  • 区分免费 / 付费能力,任务中断时保留进度、支持续用;
  • 用 “伏特” 等通俗单位替代专业计费术语,降低理解门槛。

(3)权限管理

采用精细化权限,拒绝 “全有 / 全无” 二元选择:区分单会话文件、项目文件、全部文件等访问范围;权限入口直观,支持一键撤回。

(4)资源库与资产管理

管理上传文件、对话记录、生成内容:支持版本回溯、内容检索、跨会话复用,贴合用户原有文件管理习惯。

本章小结

AI 产品成功的核心是模型能力与用户意图精准匹配;功能发现需结合场景分层设计,编排层则把控权限、模型、资源等底层配置,是稳定体验的基础。

 

第 3 章:AI 输入设计(Designing for AI Inputs)

本章聚焦输入阶段:从早期命令行到现代 AI 输入的演变,拆解三大意图传递渠道、输入模态,以及引导用户写出优质输入的设计方法。

1. 输入模式演变:负担的转移

  1. 早期命令行(Multics):规则严苛,语法、字符出错即失效,所有沟通负担由用户承担,门槛极高。
  2. 搜索引擎:放宽语法限制,支持自然语言、错别字,机器主动适配用户,负担开始转移。
  3. 现代 AI 输入:进一步开放,支持对话、创作、复杂指令,意图表达更自由,但用户仍未建立 “AI 输入” 的使用习惯(沿用搜索思维)。

2. 三大意图传递渠道(核心重点)

用户意图同时通过三类渠道传递,设计需让三者协同、互补:

(1)隐式上下文(Implicit Context)

系统自动抓取的环境信息:打开的文档、选中文本、历史对话、时间、设备等。

  • 优势:减少用户重复输入;
  • 风险:上下文解读偏差;
  • 设计方案:可视化展示系统正在使用的上下文,支持手动关闭 / 修改。

(2)显式提示(Explicit Prompting)

用户主动输入的文字、指令,是最核心的输入形式。

  1. CAE 框架(上下文 Context、行动 Action、结果 Result、示例 Examples):优质提示的四大组成,搭配案例讲解每部分的写法,帮助用户清晰表达需求。
  2. 提示分类:指令型、探索型、角色型、修正型、边界测试型,对应不同交互场景。
  3. 显式输入两大风险
    • 附和倾向(Sycophancy):模型习惯性认同用户观点,即便用户存在错误,形成信息茧房;
    • 长度悖论:提示过长时,模型会忽略中间内容,越堆砌细节效果越差,用户易陷入 “越改越乱” 的循环。

(3)直接操作(Direct Manipulation)

按钮、滑块、选区、手势等传统 GUI 交互,无需文字即可下达指令。

  • 优势:高效、上手快,适合高频固定操作;
  • 设计思路:混合模式最优—— 固定操作用按钮,创意 / 复杂需求用自由输入;借鉴图片编辑软件的选区逻辑,沿用用户已有操作习惯。

3. 输入模态(Input Modalities)

(1)文本输入

  1. 富文本格式:支持加粗、列表、代码块等排版,结构化文本能提升模型解读准确率;
  2. 结构化提示:表单、模板、下拉选项,降低新手使用门槛,适合垂直场景(改写、翻译、PPT 生成等);
  3. 空白页引导提示:不仅是 “趣味文案”,更是产品定位载体,结合产品核心功能设置场景化示例。

(2)图像输入

沿用图片编辑的选区、涂鸦等经典交互;支持 “图片 + 文字” 组合指令,符合用户 “看图说话” 的自然习惯。

(3)语音输入

  1. 优势:移动端输入速度远快于打字;
  2. 分类:短指令(计时、查天气)、长音频(会议录音)、连续对话,三类交互的反馈设计各有不同。

4. 引导用户优化输入

  1. 即时辅助:模板、预设、分类标签、高级选项渐进展开,无需用户掌握提示工程;
  2. 长期培养:保持输入界面一致性,让用户在使用中自然总结规律;
  3. 设计原则:辅助是 “建议” 而非 “强制修改”,不破坏自由输入的灵活性。

本章小结

AI 输入是三大渠道 + 多模态的组合体系,隐式上下文、显式提示、直接操作各司其职;设计核心是降低用户表达成本,同时规避提示附和、长度超标等问题,循序渐进培养用户使用习惯。

 

第 4 章:计算阶段设计(Computation: Designing for the Processing and Generation Phase)

本章解析 AI内部计算全流程,重点解决延迟、进度反馈、错误处理三大设计难题,以阿波罗 11 号 1202 警报案例开篇:系统正常但反馈模糊,导致用户恐慌,类比 AI 计算黑盒的体验问题。

1. 核心基础术语

统一设计与工程师的沟通语言:Tokenization(分词), Context window(上下文窗口), Latent space(潜在空间), Inference(推理), Multimodal(多模态), Routing(路由), RAG(检索增强生成), Agentic workflows(智能体工作流)。

2. 计算流水线三大步骤

(1)输入预处理

将文本 / 图像 / 音频转为模型可识别的向量数值:

  • 文本:子词分词 + 编码,借鉴 RGB 色彩空间理解高维语义空间;
  • 图像:卷积神经网络逐层提取边缘、纹理、物体特征;
  • 音视频:转为频谱、帧序列,捕捉时序特征。

(2)路由(Routing)

根据用户需求分配模型、工具、外部数据源:区分 “调用模型自有知识” 和 “联网 / 读文件检索信息”,不同路由对应不同输出时效与准确性。

(3)生成与推理

LLM 逐一生成 Token,基于概率分布选择后续内容;温度(Temperature) 参数控制随机性:低温保守、内容一致;高温创意强、错误率上升。

图像生成主流为扩散模型:从随机噪声逐步细化为清晰画面。

3. 延迟(Latency)管理设计

(1)用户等待心理

经典延迟感知阈值:0.1 秒(无感知)、1 秒(思路不中断)、10 秒(注意力临界);AI 延迟不可避免,设计核心不是消灭等待,而是管理感知。

(2)延迟可视化方案

  1. 即时确认:“正在思考” 等文字提示,告知请求已接收;
  2. 加载组件:环形加载器(时长未知)、进度条(时长可预估)、骨架屏(模拟最终布局);
  3. 异步交互:等待时允许用户继续操作,任务完成后推送通知;
  4. 流式输出:逐字 / 逐段展示内容,大幅降低等待感知;
  5. 过程解说:简要标注系统正在执行的操作。

(3)场景化延迟设计(按用户任务分类)

  1. 信息检索:渐进展示结果,保留上下文;
  2. 实时控制:零延迟,优先即时反馈;
  3. 交易 / 支付:强即时确认,防止重复操作;
  4. 对话交互:模拟自然语速,搭配打字动画;
  5. 创意生成:使用进度条,标注大致时长;
  6. 自主智能体:分层进度 + 定时状态更新。

(4)进度通知分层设计

三层视图适配不同用户需求:

  1. 概览层:极简状态,适合仅需简单监控的用户;
  2. 详情层:拆解步骤、工具调用,供想了解过程的用户查看;
  3. 完整日志层:全流程记录,用于调试、溯源、合规。

4. 错误设计(系统失效场景)

(1)传统可检测错误

  1. 错误文案:使用通俗语言,拒绝代码报错,同时给出解决方案;
  2. 中断恢复:保留已有输入、部分输出,支持重试、编辑;
  3. 检查点(Checkpoint):阶段性保存进度,出错后可回滚,避免全盘重来。

(2)AI 特有隐性错误(最大痛点)

模型自信地输出错误内容(幻觉),系统无法自检,错误完全隐藏。

设计应对:不追求彻底杜绝,而是增加 “质疑门槛”—— 展示来源、标注不确定性、引导用户核验,避免用户全盘信任。

本章小结

计算阶段是 AI 的 “黑盒核心”,设计重点是透明化过程、合理化延迟、完善错误兜底;区分显性故障与隐性幻觉,用分层反馈、检查点等方案,缓解用户焦虑与信任危机。

 

第 5 章:输出设计(Output: Designing the Delivery and Presentation of LLM Responses)

本章围绕 AI结果呈现展开,核心观点:输出不等于最终答案,而是交互的新起点。以早期临床决策系统(CDSS)为例:系统输出专业但解读偏差,引发决策风险,类比当下 AI 输出的信任问题。

1. 输出全流程

分为内部生成、后处理、最终展示三步;文本、图像、音视频的后处理(安全过滤、格式调整)各有差异。

2. 六大输出设计核心原则

(1)清晰性(Clarity)

通过结构、排版、语气优化可读性:使用标题、列表、短段落,预设输出模板;同时平衡模板刚性与模型灵活性,避免内容机械生硬。

(2)可验证性(Verifiability)

解决幻觉与过度依赖问题:

  1. 摒弃 “置信度百分比”(模型自评准确率具备误导性);
  2. 核心方案:标注来源、引用链接、溯源信息;
  3. 人机协同(Human-in-the-Loop):高风险场景强制人工审核兜底。

(3)场景锚定(Grounding)

明确输出的适用范围:标注模型版本、使用地域、场景、参考上下文;例如法律内容标注适用辖区,避免地域 / 规则错位。

补充:合规要求(欧盟 AI 法案、美国加州法规)强制 AI 内容显性标注机器生成。

(4)可执行性(Actionability)

输出需附带后续操作入口:保存、导出、跳转、收藏、二次编辑等;提出 “画布” 交互模式 —— 将输出变为可持续编辑、组合、协作的工作区,而非静态文本。

(5)可调整性(Adjustability)

支持迭代优化:提供改写、扩写、精简、换语气等快捷操作;保留历史版本,支持对比、回滚;依托原有上下文微调,无需重新输入完整提示。

(6)多轮交互适配(Multiturn Outputs)

针对连续对话、长流程任务:使用分割线、版本标记、差异对比,区分不同轮次内容,梳理交互脉络。

3. 水印与内容检测(Watermarking and Detection)

(1)生成式内容风险

虚假信息、学术作弊、伪造文书、版权侵权、深度伪造等滥用问题。

(2)水印技术分类

  1. 文本水印:利用同义词、句式、标点制造隐形统计特征;难点:文本修改后易失效。
  2. 图像 / 视频水印:显性 logo、隐形像素修改;视频需逐帧处理,各国已出台深度伪造标注法规。
  3. 主流方案:Google SynthID 等生成式水印,在模型生成阶段嵌入标识。

(3)检测工具局限

现有 AI 检测工具准确率低,易误判人类文本(如古典文献),且可被简单改写绕过;行业共识:生成时水印 > 事后检测。

4. 问题输出管理

  1. 前置防控:模型训练、红蓝对抗(红队测试边界漏洞)、安全规则约束;
  2. 界面处理:有害内容采用友好拒绝话术,附带原因,不中断对话;
  3. 风险公示:发布系统说明书,明确模型能力边界与已知缺陷。

本章小结

AI 输出设计的核心是建立信任、延伸交互,六大原则覆盖内容呈现、核验、操作全流程;水印、内容管控则聚焦伦理与合规,平衡 AI 创意与滥用风险。

 

第 6 章:智能体 AI 设计(Agentic AI: Designing for Systems That Plan, Act, and Adapt)

本章讲解自主规划、执行、自适应的 Agent 智能体,以微软 Clippy(回形针助手)为失败案例:有主动协助的理念,但无法识别用户真实需求、重复打扰,论证自主 AI 的核心设计难点 —— 自主性与可控性的平衡。

1. 五大智能体核心设计模式(技术 + 界面结合)

(1)自省模式(Reflection)

智能体完成工作后自我检查、修正错误(代码查错、内容核验、逻辑梳理)。

  • 优势:减少人工审核,提升输出质量;
  • 设计难点:自省增加延迟,需选择性展示检查过程(高风险全透明,低风险静默执行)。

(2)工具调用模式(Tool Use)

智能超越纯文本生成,调用外部工具(联网、读文件、发邮件、运行代码),从 “顾问” 变为 “执行者”。

  • 设计要点:精细化权限管理、工具调用状态可视化、调用失败的友好提示。

(3)规划模式(Planning)

将复杂任务拆解为有序子步骤,生成执行计划。

  • 设计:支持事前预览、审批;线性任务用步骤列表,分支 / 条件任务用层级视图;关键节点设置确认环节。

(4)多智能体协作(Multiagent Collaboration)

多个专业智能体分工协作(如开发智能体 + 测试智能体),由总调度统筹。

  • 设计:正常运行时隐藏内部分工;出错时标注故障模块,支持人工介入解决冲突。

(5)推理 - 行动模式(ReAct)

自适应循环:推理→执行→观察结果→再次推理,无固定计划,适合排查、探索类任务。

  • 设计:展示迭代次数、当前思路,任务陷入僵局时自动请求人工协助。

2. 智能体的用户交互触点

拆解智能体运行时的用户可见环节:

  1. 任务拆解与排序:展示任务拆分逻辑与执行顺序;
  2. 任务委派:标注调用的工具 / 其他智能体;
  3. 信息澄清:任务模糊时主动追问用户;
  4. 分层进度沟通:沿用第四章的通知 / 概览 / 详情三层结构;
  5. 可视化执行:模拟浏览器 / 桌面操作,直观展示行为(适合新手学习,但带宽要求高)。

3. 关键交互组件

  1. 检查点与回滚:阶段性保存,支持恢复历史状态;
  2. 中间结果:展示阶段性产出,供用户提前核验;
  3. 权限动态申请:调用新工具时解释用途,支持永久 / 临时授权;
  4. 来源溯源:标注参考的数据、文档、网页。

4. 智能体三大全新设计原则(全书收尾核心)

  1. 展示计划(Reveal the Plan):智能体执行前展示解读的任务与方案,让用户确认,从源头避免理解偏差;
  2. 优先核心信息(Prioritize What Matters Most):过滤冗余细节,只展示关键流程,避免信息过载;
  3. 共建控制权(Design for Shared Control):AI 负责执行,人类掌握审批、中断、修改的最终权限,平衡自主性与人为管控。

本章小结

智能体是 AI 交互的高阶形态,五大技术模式支撑其自主能力;设计核心不再是简单的问答交互,而是构建人机协作伙伴关系,通过透明化流程、分层管控、共享权限,让自主 AI 好用、可控、可信。

 

全书整体总览

  1. 核心框架:全书严格围绕输入 - 计算 - 输出主线,第 1 章立框架,2-3 章讲输入侧(前置编排 + 用户输入),第 4 章讲中间计算,第 5 章讲输出,第 6 章延伸至高阶自主智能体,逻辑层层递进。
  2. 核心主题:不止是 UI 视觉设计,而是结合 AI 技术原理、用户心理、伦理合规、跨团队协作的全链路 AI 体验设计。
  3. 核心痛点与解法:聚焦 ELIZA 效应、幻觉、概率性输出、黑盒计算、自主 AI 失控等 AI 特有问题,提供可落地的设计模式、原则与场景化方案。
  4. 适用范围:覆盖 LLM 聊天、AI 增强工具、多模态产品、自主智能体等全品类 AI 界面,兼顾新手设计师与资深从业者、跨职能团队协作需求。

 

本内容由 AI 深度解析并生成,旨在辅助深度阅读。