AI 客服 · 分享2026
C 端 AI 客服

C 端 AI 客服分享

在泥泞中基于业务指标的选择与权衡

分享人 · Austin1 / 32
开场不讲趋势不讲模型,直接下判断。
全场结构2 / 32

今天只讲五件事

1

业务背景

C端AI客服很细碎很烦

2

意图识别不如叫动作路由

识别对了不行,还得看动作

3

不同渠道必须做差异化策略

同一套策略换个渠道,用户会骂人

4

skill+CLi让业务算法原地升天

不是为了追新,是老办法已经装不下了。

5

产品经理为啥不可替代

产研最终都是一个归宿

1 · 业务现实3 / 32

AI客服业务背景

01
覆盖业务

保洁清洗、维修、搬家、洗衣洗鞋,上千个SKU

02
覆盖链路

售前、待履约、临近履约、服务中、售后,同一句话在不同阶段含义完全不同

03
覆盖渠道

IM、企微、400。输入质量、时延容忍、用户情绪和系统责任都不一样

04
真实矛盾

你说什么没那么重要,能不能解决用户的问题。

核心指标:转化率,解决率,客诉率,转人工率,满意度,成本,对整个业务的贡献。

补上为什么值得听。
第一段 · 先把问题立住4 / 32

先做一道题

怎么还没来,都超了半小时了。

如果你是 AI 客服系统产品经理,你怎么回?

A
查进度,告诉用户预计到达时间
B
先道歉,再催师傅加快
C
直接转人工处理

先别急着选答案,后面整场都围着这句话展开。

互动:先举手选,再往下讲。
第一幕 · 你以为你懂了5 / 32

语义对了,动作也可能错

保洁师傅迟到

怎么还没来,都超了半小时了。
AI
系统识别为:服务人员进度查询。
AI
您好,师傅正在赶往您的位置,请您耐心等待。
我都等半小时了,你还让我等?

哪里错了

  • 语义上,识别成查进度完全正确。
  • 业务上,已超预约 30 分钟,这是迟到风险,不该按普通查进度处理。
  • 系统漏掉了更关键的一点:当前订单状态已经变了

决定怎么处理的,不是句子本身,而是句子发生时的业务事实。

这页奠定全场主矛盾:语义对了,动作也可能错。
第一幕 · 你以为你懂了6 / 32

同一句师傅什么时候能来,五个阶段五个意思

售前
时效咨询
说的是供给和时效,还没下单。
待履约
普通查进度
可查状态,正常自动回复就行。
临近履约
迟到风险
已超预约时间,得解决问题了。
服务中
履约异常
说好出发了却没到,承诺没兑现。
售后
历史承诺追问
可能是返工,也可能是追之前的承诺。

先看业务阶段和已经发生的事实,再看话本身。

让听众对阶段优先有体感。
第一幕 · 你以为你懂了7 / 32

AI 客服不是聊天机器人,是业务控制层

控阶段

售前、待履约、服务中、还是售后?先把交易语境定住。

控动作

查状态、问规则、求执行、还是求升级?

控对象

哪一单、哪一笔退款、哪一次承诺?没确认对象就别动手。

控风险

超时、重复不满、物损、强投诉信号出现时,系统得知道该停。

这四件事塞进一个意图标签,分类器只会越来越臃肿,系统也越来越不透明。

第一幕总判断。
第二幕 · 从分类到路由8 / 32

一句输入进来,先答三个问题,再谈细主题

Question 1
在哪个阶段?

售前、待履约、临近履约、服务中、售后。阶段一变,同一句话后面允许的动作空间就变了。

Question 2
要推什么动作?

查状态、问规则、求执行、求升级。方向先定,再谈细分类。

Question 3
风险有多高?

高风险时不该硬猜,更不该继续普通自动化。走错了,业务代价有多大?

Then
再收细主题

订单进度、退款、返工、物损等,放在正确的动作空间里再分。

Result
从会分到会处理

系统开始像路由器,不只是文本分类器。

系统先别急着贴标签,先把动作空间和边界定住。

这是PM学员可以带走的决策框架。
第二幕 · 从分类到路由9 / 32

把用户这句怎么还没来跑一遍完整链路

状态层
有订单,预约 14:00,当前 14:32,已超时 32 分钟,状态是已分配未上门。
生命周期
当前不算普通待履约,已进临近履约的异常风险区间
动作层
用户不只是问一下,更像在推动 求执行 / 求升级
统一化
统一后写成 询问上门进度 + 已表达超时不满,风险信号不能被洗掉。
对象解析
锁定 当前唯一活跃订单,不用反问订单号。
风险门控
停止普通自动化。允许催单、升级、建单;禁止继续输出请耐心等待。
执行层
触发催单升级 skill,承认超时 + 已联系服务方 + 给反馈时点
用同一条 case 把全场串起来。紧跟架构,不再隔15页。
第二幕 · 从分类到路由10 / 32

你来判断:这两个意图,边界在哪?

查上门进度 vs 催上门

前者要信息;后者要推进履约动作。超时强不满时可能从查询升级为催单。

投诉 vs 求补救

投诉偏升级追责;补救偏问题解决(重派、返工)。常一起出现,不能混成一个意图。

最值钱的是边界,不是名字和层级。

互动:让听众先讨论1分钟再揭晓答案。
第二幕 · 从分类到路由11 / 32

意图体系不是标签表,是系统接问题的定义表

每一条意图,系统至少要定义清楚这七件事。

定义

这条意图到底在说什么,边界在哪。

示例话术

直接表达、模糊表达、容易混淆的表达。

边界

跟哪些意图容易混,什么条件下升级或降级。

承接动作

识别完之后系统该做什么,不只是回复。

兜底策略

信息不足、对象不明、工具失败时怎么办。

风险标记

哪些信号出现时要停止普通自动化。

评估口径

这条意图用什么指标衡量做得好不好。

定义不清楚,后面的识别、路由、执行全在猜。标签表只管分类,定义表管的是系统怎么接住问题。

让学员理解定义意图不是起个名字,是写一份系统契约。
第二幕 · 从分类到路由12 / 32

阶段是前置上下文,不是意图名

订单阶段不该直接当意图名,它是前置上下文状态。三根轴各管一件事,不能混。

状态轴(阶段)
用户现在在哪

售前、待履约、临近履约、服务中、售后。阶段决定动作空间,不是意图名。

意图轴(动作方向)
用户想推什么

查状态、问规则、求执行、求升级。一级按动作切,不按售前/售后切。

主题轴(对象与话题)
用户在说什么

订单进度、上门时间、人员、退款、返工、物损等。主题跟着对象走。

阶段决定语境,意图体系决定动作,主题决定对象。三根轴拆开,系统才不会把不同性质的东西混在一张表里。

开场金句可照读。
第二幕 · 从分类到路由13 / 32

一级按动作切,不按售前/售后切

4 + 1 结构

查状态

想知道现在怎么样了,覆盖订单、上门、人员、退款、工单、返工进度等。

问规则

想知道规则,覆盖范围、价格、改约、取消、退款、赔付规则等。

求执行

要推进事,如下单、改约、取消、催单、联系、申请退款或返工、补信息等。

求升级

普通处理不够时,如投诉、物损或安全、态度争议、强要人工、严重履约异常等。

兜底 / OOS

落不进体系、信息不足、语义冲突、新场景、需人工判断。

一级意图结构。
第二幕 · 从分类到路由14 / 32

二级看业务对象,三级看可执行诉求

一级定方向,二级定对象,三级定动作。

查状态(一级)拆法示例

  • 二级:履约进度 → 三级:查上门进度、查服务人员位置
  • 二级:售后进度 → 三级:查退款进度、查返工进度、查工单状态
  • 二级:订单信息 → 三级:查订单详情、查预约时间

求执行(一级)拆法示例

  • 二级:履约推进 → 三级:催上门、联系师傅、改约
  • 二级:售后申请 → 三级:申请退款、申请返工、申请赔付
  • 二级:订单操作 → 三级:取消订单、修改地址、补充信息

二级按业务对象聚类,三级按可执行诉求拆。拆到三级,系统才知道该调什么接口、走什么流程。

用两个一级的拆法示例,让学员理解二三级的拆分逻辑。
第二幕 · 从分类到路由15 / 32

完整定义示例:查询上门进度

定义与层级

用户希望获取当前订单对应服务人员的上门状态:是否出发、预计到达、是否迟到、位置等。

层级 一级查状态 → 二级履约进度 → 三级查询上门进度

示例 直接:师傅几点到、到哪了。模糊:怎么还没来、出发了吗。

边界与升降级

不等于催上门、不等于投诉迟到、不等于改约。

超时 + 强不满 → 可升级为催单 / 投诉。纯信息需求 + 无风险 → 留在查进度。

承接动作

锁单 → 取预约与当前时间 → 调履约接口 → 返回 ETA / 是否迟到 → 超时进风险门控。

兜底:信息不足引导补单;高风险转人工。定义写到这个粒度,识别和执行才有据可依。

用一个完整示例让学员理解定义不只是起个名字,是写系统契约。
第二幕 · 从分类到路由16 / 32

多重意图:怎么拆,怎么处理

真实案例拆解

师傅还没到,我要投诉,今天必须给我处理。

  • 主意图 求升级 / 投诉履约异常(诉求已从推进履约抬到升级处理)
  • 伴随意图 催上门(用户还是想让师傅来)
  • 风险标记 高风险(强不满 + 时间压力 + 投诉信号)

处理原则

  • 先走主意图路由,决定系统进哪条处理链路。
  • 伴随意图挂载不丢,主流程处理完后可以接着推进。
  • 风险标记全程跟随,不因为意图切换而被洗掉。
  • 升降级有条件,超时+强不满时查询可升级为催单/投诉。

不能只看字面,要看当前动作方向与风险层级。边界画不清,多重意图就拆不开。

多重意图是实际系统中最常出错的地方,处理原则比识别准确率更重要。
第二幕 · 三级识别落地17 / 32

第一级:关键词层——高确定性 + 风险信号

高确定性词:直接走强规则

  • 转人工 → 直接转人工,不进分类器。
  • 投诉 → 标记高风险,走升级路由。
  • 退款 → 进退款流程,不走普通意图。
  • 订单号、退款单号 → 直接绑定对象。

风险信号词:叠加风险标记

  • 半小时了、还没来、弄坏了 → 不改意图,但叠加风险。
  • 风险标记跟着 query 走,后面每一层都能看到。
  • 关键词层不做分类,只做拦截标记

关键词层的价值不是识别准,是确定性高的不浪费算力,风险高的不漏掉。

PM在这一层的决策:定义哪些词是高确定性、哪些是风险信号。
第二幕 · 三级识别落地18 / 32

第二级:BERT 层——主分类器,扛大头

BERT 做什么

  • 关键词没拦住的,全进 BERT。
  • 输出:意图标签 + 置信度分数。
  • 高置信(>阈值)→ 直接进控制层。
  • 低置信(<阈值)→ 交给大模型兜底。

PM 在这一层定义什么

  • 分类体系:用什么 taxonomy,几级几类。
  • 置信度阈值:设多少才放行,设多少进大模型。
  • 输入上下文:要不要叠加阶段、渠道、订单状态、是否超时。

BERT 是主力,但它只管分类。阶段、风险、对象这些事不该压在 BERT 上。

BERT层是线上流量的主承接者,PM要定义taxonomy和阈值。
第二幕 · 三级识别落地19 / 32

第三级:大模型层——只接边界 case

什么时候触发大模型

  • BERT 置信度低于阈值。
  • 多轮对话,上下文复杂。
  • 多意图混合,需要拆解。
  • OOS / 新场景,体系里没有的。

PM 在这一层定义什么

  • 触发条件:不是所有 query 都过大模型,只有边界 case。
  • 输出结构:必须输出主意图、伴随意图、风险、下一步动作。
  • 红线:不能替代前面的层做总判断,不能自由发挥。

大模型不是万能兜底,是精准补位。用得越少说明前面的层越稳。

大模型层的核心是受控使用,不是什么都扔给它。
第二幕 · 三级识别落地20 / 32

六步在线管线:一条 query 怎么跑完全程

① 绑定订单
用户进线 → 关联身份 → 锁定活跃订单 → 拿到世界状态(阶段、履约状态、历史承诺)。
② 关键词扫描
高确定性词直接拦截走强规则;风险信号词叠加标记,不改意图。
③ BERT 分类
输入 = query + 阶段 + 渠道 + 订单状态。输出 = 意图标签 + 置信度。高置信放行,低置信进大模型。
④ 大模型补位
只接低置信、多意图、OOS。输出必须是结构化:主意图 + 伴随 + 风险 + 下一步。
⑤ 控制层收窄
Query 统一 → 对象解析 → 风险门控。该停的停,该升级的升级,该走 skill 的走 skill。
⑥ 执行层闭环
触发对应 skill → 调工具 → 生成受控回复 → 记录动作 → 评估闭环质量。

六步不是六个模型,是六个决策点。PM 要定义的是每一步的输入、输出和边界。

这是整个识别管线的完整视图,让学员看到一条query从进来到处理完的全过程。
第二幕 · 从分类到路由21 / 32

五句话收成

意图体系不是标签表,是系统接问题的定义表。

阶段不是意图名,是意图识别的前置条件。

关键词拦截、BERT 扛大头、大模型补边界,分工不是抢活。

六步管线每一步都是 PM 的决策点。

线上跑得稳,靠识别·控制·执行接得顺。

第二幕收束。五句话对应五个核心认知。
第三幕 · 渠道·Skills·评估22 / 32

同一套策略换个渠道,用户会骂人

输入质量

IM 文本相对完整,企微上下文连续,400 有 ASR 噪声和口语跳跃。原始信息差别很大。

时延容忍

IM 能追问一两轮,企微能持续推进,400 容不得系统长时间澄清。

系统责任

IM 适合自动化承接,企微像推进状态机,400 更像高风险分流。

最危险的是拿 IM 的成功标准去做 400。表面自动化更深了,实际是把高风险问题压在系统里更久。

第三幕开始。
第三幕 · 渠道·Skills·评估23 / 32

怎么还没来放到三个渠道,处理方式就该不一样

渠道
系统先看什么
允许做什么
最怕怎么错
IM文本清晰,能补一两轮信息。
先读订单状态与时间窗,再决定是查进度还是进风险路由。
可自动锁单、澄清、查单、调用 skill,自动化可以做得更深。
该自动闭环的没吃到,白白堆给人工。
企微很多时候是在追上次那件事。
优先看会话推进到了哪一步、上次承诺是什么。
重点是接住历史上下文,把处理往前推。
推进断档,用户反复从头讲,系统显得很笨。
400口语噪声更大,情绪更强,容错更低。
先做身份与订单关联,再做风险分流,少问多判。
宁可保守转升级,也不要让高风险问题继续停留在普通自动化里。
该退出时没退出,系统只会把矛盾越推越大。
这是第三幕最该被记住的一页。
第三幕 · 渠道·Skills·评估24 / 32

旧系统装不下了,所以走向 skills

旧做法怎么崩

  • 规则越来越多,prompt 越来越长,状态越来越散。
  • 经验分散在不同人脑子里,新人接手极慢。
  • 出了问题,说不清是识别错、路由错、还是执行错。

skills 带来的变化

  • 经验从口头传承变成模块化能力。
  • 执行边界可写清、可复用、可评估。
  • 识别、控制、执行的责任终于分开了。

skills 不是追新,是旧系统装不下复杂度的自然结果。

去掉底座宣讲感,只讲为什么必须这样做。
第三幕 · 渠道·Skills·评估25 / 32

拿催单升级 skill 举例:好 skill 接住的是已经收窄过的问题

触发条件
已锁定订单;临近履约或已超预约;用户表达催促/不满;风险门控允许走催单路径。
输入契约
订单对象、预约时间、履约状态、联系能力、历史承诺、当前渠道。缺字段先补,不带缺口硬执行。
执行步骤
确认风险级别 → 调联系/催单工具 → 记录动作 → 生成受控回复 → 必要时转人工或建单。
输出契约
回复至少三件事:承认当前异常、说明已采取动作、给出反馈时点。不能只安抚不给下一步。
失败兜底
对象不明、工具失败、多次不满、触达失败时,直接升级或人工分流,不允许继续安抚。
评估指标
误触发率、执行成功率、风险拦截率、工具成功率、升级及时率、用户后续追问率。

Skill 的职责是把已判定的问题闭环掉,不要再充当总大脑,不然只会越来越胖。

用一个真实 skill 替代抽象框架说明。
第三幕 · 渠道·Skills·评估26 / 32

Skills·评估

更值得盯的口径
  • 动作正确率,系统后续动作对不对。
  • 对象正确率,有没有拿对订单、工单、退款对象。
  • 风险拦截率,该停的时候有没有停。
  • 闭环质量,问题有没有真的往前推进。
  • 渠道适配度,不同渠道有没有用对成功标准。

评估单位不该只剩标签对不对,还得看结局对不对。

把系统评价从 NLP 拉回业务。
第三幕 · 渠道·Skills·评估27 / 32

做对了是什么样

第一幕的错误处理

怎么还没来,都超了半小时了。
AI
您好,师傅正在赶往您的位置,请您耐心等待。

正确的处理方式

怎么还没来,都超了半小时了。
AI
非常抱歉让您久等了,您的订单已超过预约时间 32 分钟,我已经联系服务方加急处理,预计 15 分钟内给您反馈进展。如果届时仍未解决,我会直接为您升级处理。

从能回答到能解决,差的不是模型能力,是系统知道什么时候该做什么。

首尾呼应,让听众看到完整的对比。
第三幕 · 渠道·Skills·评估28 / 32

你的系统,哪一层在替别的层扛结局?

问题一

世界状态是不是还在让模型猜?

问题二

风险边界是不是还挂在意图优先级上?

问题三

Skill 是不是胖到在吃前置层的不确定性?

问题四

其他意图到底是垃圾桶,还是新能力入口?

互动:让听众对照自己了解的系统思考1分钟。这是第三幕到第四幕的过渡。
第四幕 · 这是你的活29 / 32

AI PM 最值钱的地方:定义边界和结构

不必在这些地方跟算法硬碰

  • 模型结构怎么改更优。
  • 训练细节怎么调更强。
  • 某个 benchmark 的分数高低。
  • 参数如何取到最优点。

更该拿住的定义权

  • 系统必须知道哪些世界状态。
  • 语义坐标系怎么分层——阶段、动作、主题、状态、风险各放哪。
  • 自动化边界画在哪,什么时候该停。
  • 对象解析、risk gate、skill 契约怎么统一。
  • 系统以什么业务口径被评估。

最后交付的不该只是一句 prompt,而应该是一整套能照着落地的材料:意图怎么分、各场景边界怎么划、风险信号怎么判、订单对象怎么锁定、每个 skill 接什么与怎么接、以及业务上用什么指标验收。

从角色价值落到具体交付物。
第四幕 · 这是你的活30 / 32

落地分三回合,别一口气全上

1
第一回合 · 先做底盘

先把系统看世界的方式定下来

先把这几件事定清楚:

  • 系统怎么判断现在在哪个阶段
  • 系统先看哪些业务事实
  • 主要意图怎么分
一句话理解先让系统知道自己面对的是什么问题。
2
第二回合 · 补控制层

再把容易走错的地方拦住

把这几件事补上:

  • 用户说的是哪一单
  • 这句话到底要往哪条路走
  • 什么情况下不能再自动处理
一句话理解先别急着把能力做多,先把错路堵住。
3
第三回合 · skill 与闭环

最后再把处理能力一个个做起来

等前面都稳了,再去做:

  • 查单
  • 催单
  • 改约
  • 退款
  • 升级
  • 评估和迭代
一句话理解前面都看清楚了、路也走对了,这时候再把事办深。

能不能进下一回合,不看模块上没上线,看当前主错误有没有从结构性问题降到局部边界问题。

最后给的是推进顺序,不只是方法论。
第四幕 · 这是你的活31 / 32

最后只留三句话

第一句

所有 AI 客服的失败,最后复盘都不是模型的问题。

第二句

意图识别的尽头不是更准,是系统学会在不确定时不动手。

第三句

PM 最难的不是定义系统该做什么,是定义系统不该做什么。

三句话收全场。
AI 客服 · 业务分享2026

感谢各位的时间

欢迎会后继续交流

分享人 · Austin32 / 32