蚂蚁集团的保险 AI 秘密武器丨万字长文

2021-01-01 12:30:01

相关推荐

保险科技的技术含量和应用规模，或许已经与你的想象大不同。从获客和咨询开始，到核保，理赔，复购，甚至到用户退保这最后一步，每一环各有其解决之道。

近日，在上海举行的外滩大会上，蚂蚁集团就披露了自己在保险科技领域部署的多项「秘密武器」。

其中，蚂蚁集团保险智能产品部总经理方勇以《AI将成为保险降本增效的第一生产力》为主题带来演讲，展示了蚂蚁「理赔大脑」的技术应用细节，详细分享如何在底层数据、算法、知识图谱三大基础上针对咨询、理赔、调查等环节进行优化和效率提升。

在方勇看来，知识图谱将在保险问答等多个场景发挥更大的承载能力，机器人更多地采用选择性半开放式的交互。他透露，通过运用视频面访小程序，案件时效比较以往提升了35%；在OCR+NLP的加持下，理赔的智能审核使人效比提升了70%以上。

随后，蚂蚁集团保险事业群CTO陈当阳也上台演讲，带来《智能化用户增长在蚂蚁保险的实践》的分享，讲述在拉活促新、退保挽留等多个细分获客场景下的技术方法论。

陈当阳表示，拉新促活包括了潜客挖掘、新客获取、二次复购，涵盖用户整个成长进阶的路径，以及整体用户活跃度的提升。退保挽留则要识别用户心智，去发现退保原因，给予相应权益，以及尝试召回已流失用户。

为此，蚂蚁保险在前端构建了非常完整的一套智能化的投放系统，这个投放系统可以从渠道联动、权益优选、择时投放等一系列环节解放一线运营的生产力。

以下为方勇和陈当阳的全场演讲，AI金融评论做了不改变原意的编辑如下：

方勇：AI将成为保险降本增效的第一生产力

我分享的基本分两个阶段：降本增效有哪几个方面，降低成本可以从哪几方面做，再分享一下我们蚂蚁的做法。

获客成本：从成本角度来说，第一方面，各大保险公司来跟蚂蚁交流的时候，都表达获客很难。大家知道从抖音或其他渠道获得一个成交用户，都已经要一两百块的成本。怎么降低获客成本，这部分将由蚂蚁集团保险事业群的首席技术总监当阳同学稍后来跟大家分享。

用户咨询：有些内容是代理人可以直接解释的，但有些比较专业。

比如核保，相关内容很细节。像是甲状腺结节、肝功能指标在什么情况下可以保？肺部阴影的情况又怎么处理，这样的内容普通代理人并不一定能够直接解释，需要打电话给各个保险公司的核保人确认。因此，内部需要不少高等级的用户咨询人员。

理赔材料：传统方式，如果比较复杂的重大疾病保险，是需要用户到保险公司的柜台，把相关的材料交给柜员。因为材料比较复杂，有些疾病像恶性肿瘤，可能需要提交术中的病理报告才能确诊是不是恶性肿瘤。

但是有些症状类的疾病，比如说双耳失聪，是损害等级类的，需要事后几个月的损害鉴定报告才能确定理赔程度。

这样不同的内容，普通用户不一定搞得清楚。我们系统中识别的凭证数量是107类，这么多凭证数量对于单一没有受过培训的用户来讲，非常难分清楚，这就有可能出现用户需要反复几次往返医院和自己家，再到保险公司，然后才能搞明白，我为了这次理赔，到底需要提交多少材料。

这是材料收集的环节，不同保险公司对于不同的种类，比如车险、寿险、重疾险也要设立不同的前台部门承接用户的咨询和反馈。

现场调查：占成本很大一部分的，还有重大疾病保险的现场调查。如果各位有做过现场调查就会知道，线下调一个案子成本有多少，基本上两三千是平均价格。如果是边远一点的省份，很可能是四五千、五六千起，因为在那边没有驻点。

厘算核赔：这个工作很贵的原因是因为它既需要懂医学常识的人，又需要懂保险领域专业的人，这样的人其实在我们整个社会当中，是没有这么多的，刚毕业的小朋友还没有这么多经验去承担这样的角色。

何为「理赔大脑」？

接下来分享一下我们蚂蚁在后面这四个阶段有些什么样的做法。这是我们第一次在公开的场合去传播理赔大脑这样一个概念，这个概念为什么我们现在才讲呢？

因为大家知道，如果从理赔的用户体验来讲，原有的退换货运费险体验已经很好，因为所有链路数据都在线上，链路后端通过智能理赔审核系统，就能够决定赔和不赔，只有极少量需要提交一下线下拍照的凭证，这是我们最早做理赔的情况。

再后来我们做了赠险的对于C端用户的多付多保，然后做了B端商家的多收多保，门诊险这方面的应用也已经做了一些积累。

但对于传统保险来说，如果最最复杂的重疾险的整个流程没有走通，我们其实不敢说我们整个理赔的流程都懂。在今天这个时候，我们第一次给大家展示一个全链路的理赔大脑，主要包含了三大系统：

第一方面是智能材料收集系统；

第二是智能调查系统，主要管的就是对外部的公估公司对应的管理，以及对于作业回来材料要求的管理；

第三是智能审核系统，支撑这三大系统的是底层数据、算法、知识图谱。

讲到知识图谱，中间再插一个用户咨询。我本人10年前就开始做自动机器人的相关产品，我是我们阿里系内第一个智能产品的产品经理，这个产品现在叫阿里小蜜，现在已经越来越发展成在淘宝上对C端进行服务的机器人。对于保险，它更偏专业性。

有三大技术趋势可以分享：

趋势一：保险知识问答，会从传统的Q&A转向通过知识图谱来承载最开始第一代就是用的Q&A，不同的知识点可以用同义词、语义矢量算法，去计算两个问题之间的相似度，寻找答案。

但是因为同一个知识点可能确实对应于多种不同的用途，问法都不一样，所以会扩充好多种问法。做完以后发现它的维护量和维护成本非常大，因为你要不断地搜集客户想问的不同问题。

还有很大的问题在于，上下文场景关联比较强的时候，考验机器人的语义理解能力强不强，多轮对话是个很重要的指标。而恰恰在保险业，你在一个健康告知或病程咨询的过程中，多轮对话是必不可少的。多轮对话这种能力的语义扩展性在原有的Q&A上是很难实现的。

所以蚂蚁保险在两年前开始，整个知识体系已经全部迁移到知识图谱上了，它的好处是所有在知识图谱里存储的内容，都是结构化的数据。

第二个好处是，这个图谱是人可以检查的，然后机器又容易处理的，（即AI的可解释性）。

为什么要强调这一点？因为在这个领域，很多创业公司，会跟大家讲AI的神经算法。但如果仔细研究一下，其实你根本都不知道它最后得出这个结论是怎么得出来的，就和人脑做判断的时候一样，其实叫意识快于你的逻辑，是凭第一感觉出来的印象。

AI神经做法在这种情况下，是黑盒的算法，这对于保险理赔中动辄十几万几十万的赔付，人不可验证规则的方式，是极其危险的。但是知识图谱有一个很大的好处是机器能理解，但是人又能非常容易看懂个中逻辑。

第三个好处是，整个语义的扩展非常容易。

就像刚才问的甲状腺能不能保，一年内有没有做过B超？有没有对应的检测报告？是良性还是不良？如果没有，它怎么描述这个病症？这个病症有什么其他描述？……是根据这样多轮的扩展，就可以得到很明确的答复。中间的逻辑，普通的业务人员就能检查。

趋势二：选择性半开放式的机器人交互这在四五年以前，所有机器人的交互形式都是很开放式的。几年来做得好一点的公司，其实做的对话机器人都是半开放式的，为什么？对于一个非专业领域的人，阐述问题的时候，如果没有给予一定的引导，其实是说不清楚的。

而在这种情况下，你会观察到国外今年年初推出的产品，跟两年前推出的完全不一样，仔细看它的理念也有很多应用半交互模式，一开始是全开放的，先定位到一个险种，然后是用选择性半开放式的方式，这种方式非常高效。

趋势三：人工客服的兜底一定要有对应的人工来做客服，恰如其分地介入，整个客户流程才相对完整。

讲到这里，我先给大家演示一下我们线上智能相机到底能做些什么。我刚才讲了，我们没有前端的受理人员，全部是APP。我们是第一个把很多模型算法前置到了APP端，让APP在用户手中就能够实时做一些提示和拦截，提高用户应用性的解决方案。我在市面上好像没有看过，国际上也没有对应的解决方案，我们是第一个大规模使用的。

系统已经识别到这张是住院单的首页；第二张是一个模糊材料的鉴别，我们发现互联网的报案应用性，会大大激发用户来使用这个服务。会使得我们整个报案材料里面，原有报案材料的模糊、翻拍、缺失关键性凭证，这里面的占比非常大。也给后端的整个理赔审核服务带来极大的压力。

第三段检测的是翻拍电脑屏幕的画面，就看到系统提示了是翻拍画面，请使用真实文档来做拍摄。

第四个因为我们的前端相机能够实时识别107类凭证，所以我刚才讲到的，你去报案报的是什么样的疾病，就需要对应提供什么样的材料。

如果没有提供，前端报案的时候就会提示你缺少什么东西，包括有些像出院小结，缺少医生的签字，缺少医院的盖章，都要提示他补充上来。这样一来，留到后端审核链路上的文档质量就会比较好。

智能调查我们主要讲两个东西，一个是作业小程序，所有的外部调查员都必须要使用调查小程序来作业。最主要的工作是，把原来脱离保司管控的线下调查的黑盒，变成一个白盒。

首先需要身份认证，意思是他要作业，要取这个案子调查，要刷脸核实他是本人，取到这个案子。

然后我们还会对他的培训级别做一定的认证，假如我们更新了一些产品的案例，他没有去通过对应的培训和考试，就没有办法从业接这个案子。

还有位置信息，我们可以知道他本人有没有去医院真正的取对应凭证。

为了安全取证，所有端内拍下来的图片都是被加密过的。在调查员的手机端，用他的图库是看不到所有拍照的照片的，可以保证这些图片在上传到我们服务器端以后，在他的图库也不存在，离线的情况下也没有办法调出来再次查看。

还有结构化回复，关键是把理赔作业的线下作业每一个环节都数据化，这样理赔人员就知道在不同的任务里，要取回来什么材料，填写什么内容。后端的任何人员也会看到结构化的回复，比较容易做回复筛选和判断。

第二块是视频面访。原来跟调查员在线下跟用户的面访过程当中，怎么确保他们之间没有讲其他的话，或者他的整个过程，有没有说了不该说的话，有没有尽到他的调查职责？另外有个很大的问题，被访人到底是不是被保人。

视频面访，首先是身份的核实，通过刷脸核实被保险人，然后再来进行远程面访，整个过程会被保留在服务器后台，在这中间双方说的话都会被系统自动提取成文字，形成一些智能的风险识别。

如果有讲到一些疾病，或者是有讲到一些以往的病史，就会被系统提示出来。提示出来以后，会提示面访员，进行进一步的风险挖掘问题。

通过这样的视频面访小程序，我们已经把线下的每一个工作环节都在掌控之中，整个案件的时效比以前提升了35%，是个很大的比例。

智能审核在我们的展示区，有理赔大脑整个链路的展示，但是我到了以后突然发现这个好像有点像买家秀和卖家秀，什么意思呢？理赔区展示的视频形式，其实可能只有我们线上真正能力的一半，所以大家如果去那里看，在走廊上看过，就当作是一个示意就行了，我们实际上的能力比那边展示的要强得多。

我们通过用户上传的案件材料，包括调查回来的材料，再加上用户买的保险，或者是参与签的健康告知的版本，从原始材料中提取关键的信息。

大家想想看，传统的理赔人员，怎么做这个核赔？无非是先鉴定用户提交的材料，是不是得了这个病，确定真实性以后，然后再去看他得的这个病，以前有没有既往史，然后再加上他得病确诊的时间，是不是在保障的范围内。

我们通过内置的知识图谱里面的疾病库、健告库、诊疗库，还有医院库，再加上原始材料，包括用户提交的，公估公司这边采回来的。

大家可能对公估公司采回来的案件材料没有概念，我这边可以讲一个数字：如果是重大疾病的病患，一般住院周期7天左右的病患，公估公司取回来的材料，再加上走访以前的一些有历史医疗记录的材料，总的页数平均在165页，我这里讲的是调查员线下调回来的。

但实际上用户提回来的只有10来页不到一点，存在这样一个级别的差异。

165页的材料，让审核人员怎么看？后面查找对应到图片，再上下翻对应的证据，再找到对应的时间，筛选和审核的时间非常长。

我们会把材料全部按照时间顺序——因为每份材料都有时间，按照用户的整个就诊事件的维度，就一次一次住院的时间维度整理起来，去提示审核人员看看哪些地方会有风险，这样几步工作后，整个人效比传统提升70%以上。

我们做了很多实验，会发现医生们写这些住院病历的时候，有很多的习惯会写病人家族史有什么，有些说疑似什么东西，后面会打个问号，这种不算确诊。

还有一些情况，实际过程中，机器看这段大文本的时候，需要向一定专业的理赔人员一样，有一定的语义理解能力，能够看出来。

有些体检报告，我们看到上面都是打勾的，会出现很多疾病的名称。如果你把这些东西都圈出来，明显不是审核人员要看的东西。像这样的凭据和内容，都是需要机器有识别能力才能够处理。

陈当阳：智能化用户增长在蚂蚁保险的实践

今天非常荣幸给大家分享蚂蚁保险在用户增长方面的实践。

对保险行业而言，我们是四轮驱动，用户增长、风控、服务和投资。那前面我的同事已经在服务和风控方面给大家做了一些分享，今天我主要想分享的是用户增长。

在互联网上，在买保险的时候由于缺少线下代理人这种非常重要的触达用户的渠道，因此在互联网上如何进行可持续的保险用户增长这很重要。

在互联网上，目前在用户增长领域碰到几个问题。

退保率和转化率问题：退保率之所以高、转化率之所以低，其实核心是两个问题引起的：首先对于保险行业而言，C端用户对产品的理解成本远远高于其他金融行业的产品。其次，在中国的保险市场当中，C端用户的风险保障意识相对于西方市场而言有一定差距。

举个问题，在线上保险当中，很大一部分客户没有办法区分报销型的医疗保险和给付型的重型保险。甚至更大比例的人会认为，我只要买了社保其实我就不需要商业保险。

低效运营问题：随着整体产品结构越来越复杂，随着用户分群越来越细化，随着运营活动的设计越来越精巧，如何解放运营人员的生产力也是非常重要的问题。

在此之上和用户增长紧密相关的两个主题，一个是拉新和促活，还有一个退保挽留。

所谓拉新和促活，包括潜客的挖掘、新客的获取，对用户的二次复购，用户的整个成长进阶的路径，以及整体用户活跃度的提升。

退保挽留，包括我们要去识别用户的心智，去发现退保的原因，基于退保的原因给予它相应的权益，最终还要对已经流失的用户进行召回。

为了达成整个拉新促活和退保挽留这个事情，我们在前端构建了非常完整的一套智能化的投放系统，这个投放系统可以从渠道联动、权益优选、择时投放等一系列环节解放一线运营的生产力。

同时，为了更好的和行业融合，蚂蚁作为一个开放平台，我们还有线上线下相融合的体系，会把一部分线上的流量往线下导。

在整个用户增长过程中，保守用户隐私是我们蚂蚁一条红线，在这个过程中我们严格遵守用户的授权，以及在监管合规的框架下去推动相关的工作。

用户增长，首先的事情是用户洞察，我们要知道谁是我们的用户，我们的用户有什么样的特征，以及基于特征他是如何进阶的，还要知道他为什么购买我们的产品。

因此，我们除了去分析用户的基本属性，还会分析用户相关的行为序列，基于用户属性和行为序列构建完整的机器学习模型，基于机器学习模型更好洞察用户想要什么，我们应该给用户推荐什么。

当然在用户洞察过程中，有两个最关键的问题，一个所谓新客的获取，另一个潜客的挖掘。

中国的保险市场很广阔，很多用户还没有成为真正的商业保险用户，如何让这些潜客也购买相应的保险产品，核心两个问题：1.我们需要降低我们的保险产品对C端用户理解的成本。2.我们需要去提升潜在保险客户的风险保障意识。

然后在这个过程中技术如何去赋能业务，去达成我刚才说的这两个目标，这是任重而道远的问题，这个问题由于时间有限不展开讲。

新客获取实践：色阶网格这是蚂蚁在用的非常有用的工具，我们叫为色阶网格。

在互联网上卖保险的时候有三个动作，首先是曝光，其次点击，第三是转化。那如何去看到这三者是否匹配，这可能是一个非常重要的命题。特别是在中国互联网流量已经逐步见顶的情况下，对流量的精细化运营很重要。

我们在每个网格中有三个数字，第一个数字表示曝光的量，第二个数字表示点击的量，第三个数字表示转化的量，在整个网格中分为三种情况。

冷色系表示的网格会存在一种现象，所谓的曝光不足，但点击和转化是OK的，对这一类用户的人群，我们需要做提升他的流量供给。

暖色系的网格曝光是OK，点击和转化从某种程度上说是不够的，对这样的人群，我们需要辅以相应的拉新促活手段提高他的转化。

黑白系网格从某种程度上曝光、点击、转化是比较匹配的，有了这个东西，我们可以按人群精准调整流量投放的情况。

拉新从某种程度上来说，是整个用户增长领域最核心的命题。它本质上就是通过对用户行为和用户心理的分析，把最合适的产品和服务推广给我们的用户，或者推荐给我们的用户。

从技术层面来说，拉新本质上是一个推荐问题，真正在落地的时候，我们最关注用户行为序的建模和行为心理的分析，后续动作包括内容投放、智能客单和复购，内容投放核心围绕让用户更容易理解保险产品，提升用户的风险保障意识来推进。

智能客单更多在用户购买保险产品过程当中，我如何让用户去选择更适合他的产品？购买过程中的一些要素，包括像我们的保额、保期、缴费年期，包括是否需要附加额外的险种？在这个过程中，如何进行千人千面的推荐？

还有复购，所谓复购是二次来购买的用户，对二次购买的用户而言，如何预测他想购买的险种，包括他可能在哪个时间点购买，包括哪个渠道购买。

行为序列建模重点讲下这个事情，这是很有技术含量的。大致可以分为这几步：首先是行为向量化，其次是基于行为向量进行文本挖掘和意图识别，并形成行为模式，最后从行为模式最终向泛化为行为推理能力。

真正在落地的时候，技术方案上是前向反馈深度神经网络，得出初步结论后，后续还有多层重构的神经网络进行维度降阶。行为序列建模在应用上最常见的场景，就是基于行为序列的建模如何进行产品推荐。

从产品推荐的角度看，核心包括行为特征描述，描述内容除了行为序列，还包括客户基本画像，以及当时所处的一些环境信息，对这些信息会进行统一的embedding降维，然后匹配产品的特征，最终得出用户的产品跃迁路径，整体上是一个复杂的多层卷积神经网络。

用户的产品跃迁路径这就是用户的兴趣点迁移，本质上是前面提的从行为模式到行为推理的一个非常好的应用点。所谓的兴趣点迁移，对我们用户而言，他购买保险产品的时候，不同用户在不同时间点购买不同的产品，他的需求肯定不一样。

在实际场景中，这种改变往往是从事件出发，用户不会告诉你，你只知道用户的行为，基于用户行为进行推理，反推出有可能发生什么事件，再基于事件推荐相应的产品和服务给用户，这就是所谓兴趣点迁移。

退保挽留这在整个互联网保险的用户增长中是非常重要的一部分内容。

首先要识别谁想退保，第二要识别退保的原因是什么，第三识别出退保的概率多大，第四基于退保的分析采取相应的行动。

最关键的步骤，是退保的归因分析和概率预测。

归因分析是比较老的学科，从1958年已经有第一本归因分析相关的专著。从整个退保归因分析来看，站在蚂蚁实践角度，我们综合利用首次点击归因，末次点击归因、基于位置的归因、基于时间的归因、线性归因等一系列归因分析的方法，最终寻找用户真正退保的原因。

现在很多同业的保险实践当中，退保归因往往在最后的退保页面会出来一些选项，让用户选择退保原因是什么。

这会有两个问题：其一，没有办法真正罗列所有的退保原因，由于页面展示限制，只能把最主要的退保原因放上去；其二，用户很可能没有告诉你真实的退保原因——基于用户的行为真正找到他退保的原因到底是什么，这很重要，这是退保挽留最核心的一步。

概率预测，是说我知道了用户的退保原因之后，需要基于用户的行为数据以及退保归因分析的结果，做一个概率预测。

这是一个全连接的深度神经网络，分为三部分：

把用户行为序列和退保原因进行降维。在降维的基础之上进一步抽取关键特征。把抽取之后关键特征映射到有退保属性的语义空间中，基于这个语义空间，在后面通过几层重构的神经网络进行降维处理，最终可以得到这个用户退保的意愿和时机预测。得到用户的退保概率后，如何去做退保挽留这件事，本质上是一个运筹优化的问题。

它的目标函数很简单，就退报挽留的成本最小化，他有两个非常重要的条件：第一，单人的退保挽留成本必须低于某个阈值，第二，我的整体退保挽留的人数必须高于某一个阈值。

自动化投保系统然后前面这些拉新促活，包括退保挽留，最终需要有一套自动化投保系统来承载。

首先是场景挖掘和网格化的洞察，基于这个基础之上我们自动化生成相应的投放策略，包括做投放，包括自动化做效果分析。最终能够来实现运营同学解放生产力的目的。

其实从智能化用户增长这个角度看，对蚂蚁而言也只是万里长征走出第一步，将来随着大数据分析和人工智能技术的进一步应用，可以更准确给我们用户推荐他想要的产品和服务，同时会把相关技术能力逐步开放出来，给行业去提供相关的赋能。（雷锋网）

雷锋网雷锋网雷锋网

阅读剩余内容

AI 蚂蚁保险秘密武器字长

蚂蚁集团的保险 AI 秘密武器丨万字长文

秘密造句

谷歌开发者大会焦点；要啥给啥的写作AI；蚂蚁金服开源ElasticDL

秘密武器

我的秘密武器

螳螂的“秘密武器”作文