AI 客服 · 分享2026

C 端 AI 客服

C 端 AI 客服分享

在泥泞中基于业务指标的选择与权衡

分享人 · Austin1 / 32

开场不讲趋势不讲模型，直接下判断。

全场结构2 / 32

今天只讲五件事

1

业务背景

C端AI客服很细碎很烦

2

意图识别不如叫动作路由

识别对了不行，还得看动作

3

不同渠道必须做差异化策略

同一套策略换个渠道，用户会骂人

4

skill+CLi让业务算法原地升天

不是为了追新，是老办法已经装不下了。

5

产品经理为啥不可替代

产研最终都是一个归宿

1 · 业务现实3 / 32

AI客服业务背景

01

覆盖业务

保洁清洗、维修、搬家、洗衣洗鞋，上千个SKU

02

覆盖链路

售前、待履约、临近履约、服务中、售后，同一句话在不同阶段含义完全不同

03

覆盖渠道

IM、企微、400。输入质量、时延容忍、用户情绪和系统责任都不一样

04

真实矛盾

你说什么没那么重要，能不能解决用户的问题。

核心指标：转化率，解决率，客诉率，转人工率，满意度，成本，对整个业务的贡献。

补上为什么值得听。

第一段 · 先把问题立住4 / 32

先做一道题

用

怎么还没来，都超了半小时了。

如果你是 AI 客服系统产品经理，你怎么回？

A

查进度，告诉用户预计到达时间

B

先道歉，再催师傅加快

C

直接转人工处理

先别急着选答案，后面整场都围着这句话展开。

互动：先举手选，再往下讲。

第一幕 · 你以为你懂了5 / 32

语义对了，动作也可能错

保洁师傅迟到

用

怎么还没来，都超了半小时了。

AI

系统识别为：服务人员进度查询。

AI

您好，师傅正在赶往您的位置，请您耐心等待。

用

我都等半小时了，你还让我等？

哪里错了

语义上，识别成查进度完全正确。
业务上，已超预约 30 分钟，这是迟到风险，不该按普通查进度处理。
系统漏掉了更关键的一点：当前订单状态已经变了。

决定怎么处理的，不是句子本身，而是句子发生时的业务事实。

这页奠定全场主矛盾：语义对了，动作也可能错。

第一幕 · 你以为你懂了6 / 32

同一句师傅什么时候能来，五个阶段五个意思

售前

时效咨询

说的是供给和时效，还没下单。

待履约

普通查进度

可查状态，正常自动回复就行。

临近履约

迟到风险

已超预约时间，得解决问题了。

服务中

履约异常

说好出发了却没到，承诺没兑现。

售后

历史承诺追问

可能是返工，也可能是追之前的承诺。

先看业务阶段和已经发生的事实，再看话本身。

让听众对阶段优先有体感。

第一幕 · 你以为你懂了7 / 32

AI 客服不是聊天机器人，是业务控制层

控阶段

售前、待履约、服务中、还是售后？先把交易语境定住。

控动作

查状态、问规则、求执行、还是求升级？

控对象

哪一单、哪一笔退款、哪一次承诺？没确认对象就别动手。

控风险

超时、重复不满、物损、强投诉信号出现时，系统得知道该停。

这四件事塞进一个意图标签，分类器只会越来越臃肿，系统也越来越不透明。

第一幕总判断。

第二幕 · 从分类到路由8 / 32

一句输入进来，先答三个问题，再谈细主题

Question 1

在哪个阶段？

售前、待履约、临近履约、服务中、售后。阶段一变，同一句话后面允许的动作空间就变了。

Question 2

要推什么动作？

查状态、问规则、求执行、求升级。方向先定，再谈细分类。

Question 3

风险有多高？

高风险时不该硬猜，更不该继续普通自动化。走错了，业务代价有多大？

Then

再收细主题

订单进度、退款、返工、物损等，放在正确的动作空间里再分。

Result

从会分到会处理

系统开始像路由器，不只是文本分类器。

系统先别急着贴标签，先把动作空间和边界定住。

这是PM学员可以带走的决策框架。

第二幕 · 从分类到路由9 / 32

把用户这句怎么还没来跑一遍完整链路

状态层

有订单，预约 14:00，当前 14:32，已超时 32 分钟，状态是已分配未上门。

生命周期

当前不算普通待履约，已进临近履约的异常风险区间。

动作层

用户不只是问一下，更像在推动求执行 / 求升级。

统一化

统一后写成询问上门进度 + 已表达超时不满，风险信号不能被洗掉。

对象解析

锁定当前唯一活跃订单，不用反问订单号。

风险门控

停止普通自动化。允许催单、升级、建单；禁止继续输出请耐心等待。

执行层

触发催单升级 skill，承认超时 + 已联系服务方 + 给反馈时点。

用同一条 case 把全场串起来。紧跟架构，不再隔15页。

第二幕 · 从分类到路由10 / 32

你来判断：这两个意图，边界在哪？

查上门进度 vs 催上门

前者要信息；后者要推进履约动作。超时强不满时可能从查询升级为催单。

投诉 vs 求补救

投诉偏升级追责；补救偏问题解决（重派、返工）。常一起出现，不能混成一个意图。

最值钱的是边界，不是名字和层级。

互动：让听众先讨论1分钟再揭晓答案。

第二幕 · 从分类到路由11 / 32

意图体系不是标签表，是系统接问题的定义表

每一条意图，系统至少要定义清楚这七件事。

定义

这条意图到底在说什么，边界在哪。

示例话术

直接表达、模糊表达、容易混淆的表达。

边界

跟哪些意图容易混，什么条件下升级或降级。

承接动作

识别完之后系统该做什么，不只是回复。

兜底策略

信息不足、对象不明、工具失败时怎么办。

风险标记

哪些信号出现时要停止普通自动化。

评估口径

这条意图用什么指标衡量做得好不好。

定义不清楚，后面的识别、路由、执行全在猜。标签表只管分类，定义表管的是系统怎么接住问题。

让学员理解定义意图不是起个名字，是写一份系统契约。

第二幕 · 从分类到路由12 / 32

阶段是前置上下文，不是意图名

订单阶段不该直接当意图名，它是前置上下文状态。三根轴各管一件事，不能混。

状态轴（阶段）

用户现在在哪

售前、待履约、临近履约、服务中、售后。阶段决定动作空间，不是意图名。

意图轴（动作方向）

用户想推什么

查状态、问规则、求执行、求升级。一级按动作切，不按售前/售后切。

主题轴（对象与话题）

用户在说什么

订单进度、上门时间、人员、退款、返工、物损等。主题跟着对象走。

阶段决定语境，意图体系决定动作，主题决定对象。三根轴拆开，系统才不会把不同性质的东西混在一张表里。

开场金句可照读。

第二幕 · 从分类到路由13 / 32

一级按动作切，不按售前/售后切

4 + 1 结构

查状态

想知道现在怎么样了，覆盖订单、上门、人员、退款、工单、返工进度等。

问规则

想知道规则，覆盖范围、价格、改约、取消、退款、赔付规则等。

求执行

要推进事，如下单、改约、取消、催单、联系、申请退款或返工、补信息等。

求升级

普通处理不够时，如投诉、物损或安全、态度争议、强要人工、严重履约异常等。

兜底 / OOS

落不进体系、信息不足、语义冲突、新场景、需人工判断。

一级意图结构。

第二幕 · 从分类到路由14 / 32

二级看业务对象，三级看可执行诉求

一级定方向，二级定对象，三级定动作。

查状态（一级）拆法示例

二级：履约进度 → 三级：查上门进度、查服务人员位置
二级：售后进度 → 三级：查退款进度、查返工进度、查工单状态
二级：订单信息 → 三级：查订单详情、查预约时间

求执行（一级）拆法示例

二级：履约推进 → 三级：催上门、联系师傅、改约
二级：售后申请 → 三级：申请退款、申请返工、申请赔付
二级：订单操作 → 三级：取消订单、修改地址、补充信息

二级按业务对象聚类，三级按可执行诉求拆。拆到三级，系统才知道该调什么接口、走什么流程。

用两个一级的拆法示例，让学员理解二三级的拆分逻辑。

第二幕 · 从分类到路由15 / 32

完整定义示例：查询上门进度

定义与层级

用户希望获取当前订单对应服务人员的上门状态：是否出发、预计到达、是否迟到、位置等。

层级一级查状态 → 二级履约进度 → 三级查询上门进度

示例直接：师傅几点到、到哪了。模糊：怎么还没来、出发了吗。

边界与升降级

不等于催上门、不等于投诉迟到、不等于改约。

超时 + 强不满 → 可升级为催单 / 投诉。纯信息需求 + 无风险 → 留在查进度。

承接动作

锁单 → 取预约与当前时间 → 调履约接口 → 返回 ETA / 是否迟到 → 超时进风险门控。

兜底：信息不足引导补单；高风险转人工。定义写到这个粒度，识别和执行才有据可依。

用一个完整示例让学员理解定义不只是起个名字，是写系统契约。

第二幕 · 从分类到路由16 / 32

多重意图：怎么拆，怎么处理

真实案例拆解

师傅还没到，我要投诉，今天必须给我处理。

主意图求升级 / 投诉履约异常（诉求已从推进履约抬到升级处理）
伴随意图催上门（用户还是想让师傅来）
风险标记高风险（强不满 + 时间压力 + 投诉信号）

处理原则

先走主意图路由，决定系统进哪条处理链路。
伴随意图挂载不丢，主流程处理完后可以接着推进。
风险标记全程跟随，不因为意图切换而被洗掉。
升降级有条件，超时+强不满时查询可升级为催单/投诉。

不能只看字面，要看当前动作方向与风险层级。边界画不清，多重意图就拆不开。

多重意图是实际系统中最常出错的地方，处理原则比识别准确率更重要。

第二幕 · 三级识别落地17 / 32

第一级：关键词层——高确定性 + 风险信号

高确定性词：直接走强规则

转人工 → 直接转人工，不进分类器。
投诉 → 标记高风险，走升级路由。
退款 → 进退款流程，不走普通意图。
订单号、退款单号 → 直接绑定对象。

风险信号词：叠加风险标记

半小时了、还没来、弄坏了 → 不改意图，但叠加风险。
风险标记跟着 query 走，后面每一层都能看到。
关键词层不做分类，只做拦截和标记。

关键词层的价值不是识别准，是确定性高的不浪费算力，风险高的不漏掉。

PM在这一层的决策：定义哪些词是高确定性、哪些是风险信号。

第二幕 · 三级识别落地18 / 32

第二级：BERT 层——主分类器，扛大头

BERT 做什么

关键词没拦住的，全进 BERT。
输出：意图标签 + 置信度分数。
高置信（>阈值）→ 直接进控制层。
低置信（<阈值）→ 交给大模型兜底。

PM 在这一层定义什么

分类体系：用什么 taxonomy，几级几类。
置信度阈值：设多少才放行，设多少进大模型。
输入上下文：要不要叠加阶段、渠道、订单状态、是否超时。

BERT 是主力，但它只管分类。阶段、风险、对象这些事不该压在 BERT 上。

BERT层是线上流量的主承接者，PM要定义taxonomy和阈值。

第二幕 · 三级识别落地19 / 32

第三级：大模型层——只接边界 case

什么时候触发大模型

BERT 置信度低于阈值。
多轮对话，上下文复杂。
多意图混合，需要拆解。
OOS / 新场景，体系里没有的。

PM 在这一层定义什么

触发条件：不是所有 query 都过大模型，只有边界 case。
输出结构：必须输出主意图、伴随意图、风险、下一步动作。
红线：不能替代前面的层做总判断，不能自由发挥。

大模型不是万能兜底，是精准补位。用得越少说明前面的层越稳。

大模型层的核心是受控使用，不是什么都扔给它。

第二幕 · 三级识别落地20 / 32

六步在线管线：一条 query 怎么跑完全程

① 绑定订单

用户进线 → 关联身份 → 锁定活跃订单 → 拿到世界状态（阶段、履约状态、历史承诺）。

② 关键词扫描

高确定性词直接拦截走强规则；风险信号词叠加标记，不改意图。

③ BERT 分类

输入 = query + 阶段 + 渠道 + 订单状态。输出 = 意图标签 + 置信度。高置信放行，低置信进大模型。

④ 大模型补位

只接低置信、多意图、OOS。输出必须是结构化：主意图 + 伴随 + 风险 + 下一步。

⑤ 控制层收窄

Query 统一 → 对象解析 → 风险门控。该停的停，该升级的升级，该走 skill 的走 skill。

⑥ 执行层闭环

触发对应 skill → 调工具 → 生成受控回复 → 记录动作 → 评估闭环质量。

六步不是六个模型，是六个决策点。PM 要定义的是每一步的输入、输出和边界。

这是整个识别管线的完整视图，让学员看到一条query从进来到处理完的全过程。

第二幕 · 从分类到路由21 / 32

五句话收成

意图体系不是标签表，是系统接问题的定义表。

阶段不是意图名，是意图识别的前置条件。

关键词拦截、BERT 扛大头、大模型补边界，分工不是抢活。

六步管线每一步都是 PM 的决策点。

线上跑得稳，靠识别·控制·执行接得顺。

第二幕收束。五句话对应五个核心认知。

第三幕 · 渠道·Skills·评估22 / 32

同一套策略换个渠道，用户会骂人

输入质量

IM 文本相对完整，企微上下文连续，400 有 ASR 噪声和口语跳跃。原始信息差别很大。

时延容忍

IM 能追问一两轮，企微能持续推进，400 容不得系统长时间澄清。

系统责任

IM 适合自动化承接，企微像推进状态机，400 更像高风险分流。

最危险的是拿 IM 的成功标准去做 400。表面自动化更深了，实际是把高风险问题压在系统里更久。

第三幕开始。

第三幕 · 渠道·Skills·评估23 / 32

怎么还没来放到三个渠道，处理方式就该不一样

渠道

系统先看什么

允许做什么

最怕怎么错

IM文本清晰，能补一两轮信息。

先读订单状态与时间窗，再决定是查进度还是进风险路由。

可自动锁单、澄清、查单、调用 skill，自动化可以做得更深。

该自动闭环的没吃到，白白堆给人工。

企微很多时候是在追上次那件事。

优先看会话推进到了哪一步、上次承诺是什么。

重点是接住历史上下文，把处理往前推。

推进断档，用户反复从头讲，系统显得很笨。

400口语噪声更大，情绪更强，容错更低。

先做身份与订单关联，再做风险分流，少问多判。

宁可保守转升级，也不要让高风险问题继续停留在普通自动化里。

该退出时没退出，系统只会把矛盾越推越大。

这是第三幕最该被记住的一页。

第三幕 · 渠道·Skills·评估24 / 32

旧系统装不下了，所以走向 skills

旧做法怎么崩

规则越来越多，prompt 越来越长，状态越来越散。
经验分散在不同人脑子里，新人接手极慢。
出了问题，说不清是识别错、路由错、还是执行错。

skills 带来的变化

经验从口头传承变成模块化能力。
执行边界可写清、可复用、可评估。
识别、控制、执行的责任终于分开了。

skills 不是追新，是旧系统装不下复杂度的自然结果。

去掉底座宣讲感，只讲为什么必须这样做。

第三幕 · 渠道·Skills·评估25 / 32

拿催单升级 skill 举例：好 skill 接住的是已经收窄过的问题

触发条件

已锁定订单；临近履约或已超预约；用户表达催促/不满；风险门控允许走催单路径。

输入契约

订单对象、预约时间、履约状态、联系能力、历史承诺、当前渠道。缺字段先补，不带缺口硬执行。

执行步骤

确认风险级别 → 调联系/催单工具 → 记录动作 → 生成受控回复 → 必要时转人工或建单。

输出契约

回复至少三件事：承认当前异常、说明已采取动作、给出反馈时点。不能只安抚不给下一步。

失败兜底

对象不明、工具失败、多次不满、触达失败时，直接升级或人工分流，不允许继续安抚。

评估指标

误触发率、执行成功率、风险拦截率、工具成功率、升级及时率、用户后续追问率。

Skill 的职责是把已判定的问题闭环掉，不要再充当总大脑，不然只会越来越胖。

用一个真实 skill 替代抽象框架说明。

第三幕 · 渠道·Skills·评估26 / 32

Skills·评估

更值得盯的口径

动作正确率，系统后续动作对不对。
对象正确率，有没有拿对订单、工单、退款对象。
风险拦截率，该停的时候有没有停。
闭环质量，问题有没有真的往前推进。
渠道适配度，不同渠道有没有用对成功标准。

评估单位不该只剩标签对不对，还得看结局对不对。

把系统评价从 NLP 拉回业务。

第三幕 · 渠道·Skills·评估27 / 32

做对了是什么样

第一幕的错误处理

用

怎么还没来，都超了半小时了。

AI

您好，师傅正在赶往您的位置，请您耐心等待。

正确的处理方式

用

怎么还没来，都超了半小时了。

AI

非常抱歉让您久等了，您的订单已超过预约时间 32 分钟，我已经联系服务方加急处理，预计 15 分钟内给您反馈进展。如果届时仍未解决，我会直接为您升级处理。

从能回答到能解决，差的不是模型能力，是系统知道什么时候该做什么。

首尾呼应，让听众看到完整的对比。

第三幕 · 渠道·Skills·评估28 / 32

你的系统，哪一层在替别的层扛结局？

问题一

世界状态是不是还在让模型猜？

问题二

风险边界是不是还挂在意图优先级上？

问题三

Skill 是不是胖到在吃前置层的不确定性？

问题四

其他意图到底是垃圾桶，还是新能力入口？

互动：让听众对照自己了解的系统思考1分钟。这是第三幕到第四幕的过渡。

第四幕 · 这是你的活29 / 32

AI PM 最值钱的地方：定义边界和结构

不必在这些地方跟算法硬碰

模型结构怎么改更优。
训练细节怎么调更强。
某个 benchmark 的分数高低。
参数如何取到最优点。

更该拿住的定义权

系统必须知道哪些世界状态。
语义坐标系怎么分层——阶段、动作、主题、状态、风险各放哪。
自动化边界画在哪，什么时候该停。
对象解析、risk gate、skill 契约怎么统一。
系统以什么业务口径被评估。

最后交付的不该只是一句 prompt，而应该是一整套能照着落地的材料：意图怎么分、各场景边界怎么划、风险信号怎么判、订单对象怎么锁定、每个 skill 接什么与怎么接、以及业务上用什么指标验收。

从角色价值落到具体交付物。

第四幕 · 这是你的活30 / 32

落地分三回合，别一口气全上

1

第一回合 · 先做底盘

先把系统看世界的方式定下来

先把这几件事定清楚：

系统怎么判断现在在哪个阶段
系统先看哪些业务事实
主要意图怎么分

一句话理解先让系统知道自己面对的是什么问题。

2

第二回合 · 补控制层

再把容易走错的地方拦住

把这几件事补上：

用户说的是哪一单
这句话到底要往哪条路走
什么情况下不能再自动处理

一句话理解先别急着把能力做多，先把错路堵住。

3

第三回合 · skill 与闭环

最后再把处理能力一个个做起来

等前面都稳了，再去做：

查单
催单
改约
退款
升级
评估和迭代

一句话理解前面都看清楚了、路也走对了，这时候再把事办深。

能不能进下一回合，不看模块上没上线，看当前主错误有没有从结构性问题降到局部边界问题。

最后给的是推进顺序，不只是方法论。

第四幕 · 这是你的活31 / 32

最后只留三句话

第一句

所有 AI 客服的失败，最后复盘都不是模型的问题。

第二句

意图识别的尽头不是更准，是系统学会在不确定时不动手。

第三句

PM 最难的不是定义系统该做什么，是定义系统不该做什么。

三句话收全场。

AI 客服 · 业务分享2026

感谢各位的时间

欢迎会后继续交流

分享人 · Austin32 / 32