首次独家披露!机器写作在医药公司的应用场景和产品形态
机器写作是什么?
机器写作的英文叫Machine Writing,写作一般来说可以归纳为创造性的写作,描述性的写作,综述性的写作。创作型的写作比如科幻小说,综述性的写作比如医学内部的写作,把各种事实和知识总结成文章。如果人类写作方式加上语言智能或者是自然语言处理会发生什么效果呢?首先看语言智能具体做什么样的事情,自然语言处理技术,包括机器翻译、问答、信息的检索、信息的抽取,语言的生成推荐系统等等。
在这些语言智能核心技术的辅助下,人类的写作就会发生一个新的变化,就会产生机器辅助写作的概念,就是综合运用语言智能技术对输入和搜集的数据自动进行加工处理,从而自动生成文章,或者辅助人类进行写作的一整套计算机程序,这是我们定义的机器写作。
机器写作在新闻领域的应用场景已经非常广泛,应用多年了。上面这家 Automated Insights 公司是在机器写作这个领域早年的先行者,它主要是在新闻领域的机器辅助写作工具上做了很多尝试和探索,它的产品已经帮助英语世界的用户在2016年生成了15亿篇新闻文章。在国内,今日头条、百度还有腾讯都已经在提供海量的机器写作结果,包括比赛的结果,天气预报,财经新闻。
在医学领域尚未出现一个真正完善的医学写作产品,这是为什么?因为医学的专业度和机器写作的专业度的结合,还是需要非常多的专业知识和团队才能做出来。我们 Atman 在这方面做了很多的探索。在这个过程中,我们整体分析了医学写作在医药研发中的场景。
这张图是医药研发的基本流程,从发现到临床前,临床实验到审批和上市,各个领域各个阶段都会有很多写作的需求。这样的写作需求现在都是通过人工来完成的。
这是我们总结的医学写作的一些场景,跟大家分享一下,这都是真实的案例,比如说在一个跨国药企部门,需要在上市后为医生提供精神类疾病的药物的相关知识,回答一些医生的专业问题。在这里要生成的药品数据报告需要在 Pubmed 上做大量的检索,然后人工阅读,分类,最后导出到标准模板,过程看似比较简单,但是真正实现的过程还是比较痛苦,因为需要大量的引导阅读搜索工作。
另外一个比如说在 CFDA 和 FDA 报批的流程中,涉及到把早期的临床实验的步骤以及对应各阶段的数据总结成对应的报告或者伦理报告。
最近两年比较火的 BE 项目也是非常多的,主要集中在CRO公司里面。在BE方案里面有大量编写这种等效性研究方案的需求,整个过程是在医学临床文献或者网站上收集大量数据,再结合自己项目的特点,生成一个方案,中间有大量重复和繁琐劳动。
在中药研发过程中,也看到了一种写作的场景,比如说大量从仪器中获取的数据,需要结合网络检索的数据,生成对应的项目总结报告。
这些只是我们发掘出的医学写作场景的一部分,我们真正看到的医学写作场景有十几个之多。
我们总结医学写作核心流程分成几步:
第一步:获取数据。需要从医学临床文献、网站,或者是通过公司内部私有数据(比如实验得出的结果,内部积累的历史数据)中通过关键词的检索和和过滤获取数据,作为机器写作的基础。
第二步:分析数据。需要对获取的数据进行一定的分析,通常会提取文献的标题,摘要的信息,对各种数据解析和内在关联的勾勒是对内容的解读,就是要去理解这个数据是干什么。
第三步:提炼观点。对内容有了理解,我们就要把它再度升华,就是提炼观点的过程。通过对各种数据所呈现的模式和趋势的揭示,并使用医学知识和经验来解读其意义,得出一些具有可操作性的意见和建议,这是比较接近我们最后报告里看到的一些结论和内容。
第四步,结构和格式。要把这些原材料变成最终报告或者是各种文案的格式,这中间涉及到很多繁琐的格式表达,把提炼的观点按照预设的模板填入到对应的文本格式。很多医学报告最后都有固定的模板,模板可能要依据国家的法规或者国际的法规、惯例,也有公司内部定义的一些规章和模板的规范。
这个过程中的痛点是有非常多的重复工作,比如说要从PubMed, FDA,万方之类的网站上,每天做重复的检索工作,然后对检索的结果做大量筛选,筛选之后还要做海量阅读,因为只是看到了一个摘要,或者作者标题还不足以帮助写作者形成一个观点和认知,所以他可能需要阅读全文,比如搜索出了十篇,一百篇文章,整个阅读下来的时间周期是非常长的,往往都是英语类的文章,中国人读这样文章的速度会慢一些,在内容的整理和格式的编排上有大量的重复劳动存在。
什么样的人能做这样的事情?需要医学的博士或者硕士,还需要多年的工作经验。这样的人是不太好去招的,因为他愿意去做更有意义的一些事情,而不愿意做重复和繁琐的劳动。
我们 Atman 就在思考,用我们所掌握的语言智能技术帮助大家,从繁琐和重复的劳动中解脱出来,能够提速整个医学写作过程,能够让大家更快更好的得到最后想要的结果。
我们的技术总结下来有搜索、聚类、过滤、综述和导出等核心的自然语言处理和语言智能技术,比如说自动摘要的生成,多篇文档我们可以通过机器学习的方法把摘要自动生成。然后在不同文档中,我们可以把他的知识和实体提取出来,可以快速的去定位文档核心的内容和关键词。另外这些不同的文档通过主题的识别和分类,可以进行聚类和过滤。例如这一类文章说的都是临床实验,然后可能都是对某一类药物临床实验一个正向的结果,这样的实验报告,可以聚集在一起。
底层的技术,类似于大数据的技术,我们知道在互联网上医学文档的数量可能都是几千万篇的,然后还有不断生成的新的医学的信息和数据,我们有很多的爬虫,在搜索引擎的帮助下,可以快速的检索海量医学文档中的关键信息。我们也广泛的应用 OCR 光学文字识别技术,因为有大量的数据都是扫描版的数据,可能来自于真实的书籍,或者是真实的纸质材料,要把这种材料变成电子化的材料,才能够转化成机器可以理解处理的基础的数据。
这里给大家展示一个比较实际的案例,是我们正在做,也看到了实际效果的例子。一个精神类药物的药品上市之后,需要总结某一类药物的相关信息,提供给医生回答问题,这些问题可能不是一个简单的说明书能够解决,它包括非常深层次的专业问题,药厂会有一个专业的团队来做这样的事情。这样的报告叫做药物的动力学报告,报告的篇幅不长,3到5页左右,需要一个有三年工作经验的医学硕士来写。写这样3页纸报告需要7个小时,基本上一天只能写一个报告。
写报告的流程分解下来是这么几步:
第一步,要去在这种不同的网站上搜索各种paper,或者journal,不仅仅是在PubMed,还有别的网站。
第二步,写作者需要去读去分析,去选择对应药物相关的paper,有时要阅读上百篇的paper,花费的时间非常巨大。
第三步,需要把paper中很多关键信息提取出来,定位关键信息在不同paper的位置,把这些关键信息组合成或者聚集成不同的属性和分类,然后在分类的基础上做总结。
第四步,所有这些内容准备好后,还要把它填入预先设置好的一些模板里面,包括结构,最后的reference,前面内容的引用都需要有一个对应关系,
以上这些工作,都是人工做的,看似是很简单的事情,但是是一个非常繁琐重复的劳动。
Atman的机器写作是已经接近完成的医学写作产品,产品的界面比较友好,通过简单的搜索,可以完成智能搜索,我们可以同时搜索多个数据源,比如PubMed和其他的医学网站。因为我们也提供医学领域机器翻译,所以我们提供跨语言的搜索能力,甚至可以把搜索结果统一以英文或者中文的语言来给大家展示,比如说你不太懂英文,你可以直接用中文来搜索PubMed,可以直接把它翻译成中文展示出来,所以从搜索的关键字到最后结果,还都是中文。
所有的这些不涉及知识产权问题的完整文章,我们都可以把它抓下来,一站式的提供给大家,同时我们还能对文章做分析和打标签,标签可以根据用户的需要来定义。最后还可以对已选中的结论和片段进行总结,生成更短篇幅的描述文字,在此基础上做推导工作,辅助用户得出相关的场景和数据的结论。我们的医学写作产品可以给医学写作者减轻50%的工作负担。
把刚才那个场景具体分解一下:
第一步,有一个advance search界面,看上去比较简洁,背后我们需要搜索的数据源,是来自于多个数据源的聚合,但整个界面是比较简单的。比如说搜索下面这个关键字之后,同时会在PubMed、谷歌patent或者谷歌学术上做各种搜索,把搜索都聚合起来。如果用户本地有自有数据,搜索也可以包括用户本地数据。
第二步,对搜索结果做完整展示,展示界面和PubMed界面比较像,这是考虑到大家的使用习惯。对结果做分类,因为我们聚合了多个数据源,各个数据库的分类标准不一样,我们把它进行标准化的分类,这样用户可以同时查看多个数据源的分类结果,这就是人工智能的聚类和文档的理解工作。
第三步,打标签,就是写作者在阅读paper的时候,对paper的理解聚集到不同的评价维度上,比如说这篇clinical trials说的是临床实验的结果针对什么样的人群,对不同人群的效果是正向还是负向,这个研究是前瞻性的研究,还是回顾性的研究,在很多数据库里不提供这样的信息。Atman通过自然语言处理技术,直接去理解文章的内容,给出结论和标签,为用户节省了阅读时间和对这些文章理解的时间。
最后,基于新的数据维度分析,Atman提供了更强大的数据过滤工具,所以在不同的过滤条件下,我们可以多维度对数据结果进行挑选和过滤。
总结下来,Atman准备了很多这样的数据,给writer提供了大量的辅助信息,写作者通过人机交互的方式,取得了这样的信息导出成最后的文案,对这些文案可以做校正和修改。Atman帮助用户把这个过程自动化完成。
在这个intelligent writing的button帮助下,会自动导出成一个按绿色模板生成的word的文档,模板也可以自己去编辑和定义,也可以上传模板,系统会自动去识别模板的形态。然后比如说刚才那个case里面最终这个模板里头是什么样子呢,其实可以看到通过机器辅助的手段生成一些summary,这些summary也就是根据刚才所展现的这些数据的基础,把多篇文章对应维度的数据进行一个总结。在这种总结的过程中,我们可能是引用了不同的文章,这时候对应的reference也会很明确的把它标记出来,比如说这段话或者这个总结来自于哪几篇文章,在文档最后都会有一个对应关系,然后也很清楚的知道这个文档来自哪儿,如果觉得总结的不是特别好,或者需要修改的话,也可以很快地到原文上去做修改。这就是最后这一步,拿到文章导出的结果之后,可以轻松的下载成一个word文档,这就基本上完成了一个基础的写作任务,所以整个流程就是这样几步。
医学机器写作没有前人的产品或者定义作为参照,我们希望和医学领域的朋友一起合作,一起定义医学机器写作这款产品,究竟在您的场景和工作中怎样成为最好的写作助手。我的演讲就到这里,谢谢大家。