趣文网 > 作文大全

先草稿可生成高质量文本 Percy Liang新论文广受赞誉

2020-12-06 05:10:01
相关推荐

文本生成是自然语言处理NLP领域的重要问题,许多知名学者都提出了自己的方法,改善现阶段文本生成中丰富性不足、句法语意不自然、长句生成困难等问题,比如不久之前我们做过报道的上海交通大学俞勇、张伟楠联合UCL汪军发表的“ LeakGAN ”、Percy Liang的ICML2017最佳论文「 Understanding Black-box Predictions via Influence Functions 」。

Percy Liang是NLP领域的著名研究者,师从Michael I. Jordan,现为斯坦福大学教授;除了论文得到广泛认可之外,Percy Liang还拿下了 IJCAI 2016 计算机和思想奖(Computers and Thought Award)。

近期,Percy Liang团队的一篇新论文提出了一种新的文本生成新方法,「Generating Sentences by Editing Prototypes」(用修改草稿的方式生成句子),这个方法不仅符合直觉,生成的效果也非常好,引起了很多研究者的注意和赞誉。以下编者对这篇论文做简单介绍。

论文内容

这篇论文中提出了一种新的句子生成模型。它首先从样本语料库中随机采样一个句子作为“草稿”(论文中prototype),然后再把这个草稿编辑为一个新的句子(如下图)

此前表现较好的系统大多数都是基于循环神经语言模型(NLM)的,它们“从零开始”生成句子,顺序往往从左到右。这类模型中很容易观察到生成通用化应答的问题,比如“我不知道”这样。为了提高生成文本的丰富性,目前采用的比较直白的策略都会导致语法准确性的降低,表明目前的NLM模型可能并不具备对复杂应答的各种可能性做完全表征的能力。

论文作者们由此想到了人类写作时常常有先打草稿、再逐渐把它修改为一篇精美文章的做法,由此提出了文中的模型。模型首先会从训练语料库中随机采样一个草稿句子,然后激活一个神经网络编辑器;这个编辑器会生成随机的“编辑向量”,然后根据编辑向量对草稿句子做条件编辑,从而生成新的句子。

这个思路的出发点在于,语料库中的句子提供了一个高质量的起点:它们语法正确,天然地具有复杂性,而且不会对长短和模糊性有任何偏好。编辑器中的注意力机制就会从草稿中提取出丰富的文本信息,然后把它泛化为新的句子。

模型的训练方式是最大化估计生成模型的对数最大似然。这个目标函数是训练集中具有相似词法的句子对的和,从而可以用局部敏感哈希(Locality Sensitive Hashing)做量化估计。论文中同时用实证方法表明,多数词法相同的句子同时在语义上也是相似的,这样给神经编辑器的语义结构方面带来了额外的益处。比如,作者们可以让一个神经编辑器从一个种子句子出发,探索很大一片语义空间。

作者们从两个方面对比了这个“先打草稿再优化”的模型和以往从零生成的模型:语言生成质量以及语义属性。对于语言生成质量,人类评价者给论文中的模型打了更好的分数,在Yelp语料库上把复杂度(perplexity)提升了13分,在One Billion Word Benchmark中提升了7分。对于语义属性,论文中表明隐编辑向量在语义相似性、局部控制文本生成和句子模拟任务中优于标准的句子可变编码器。

下图是一组草稿句子和修改后句子的对比,有显著的不同,并且保持了高质量

社交网络上的评价

论文公布并经过转推扩散开来后,许多研究者都在推特上表示了对这篇论文的认可

(Percy Liang实验室带来的聪明的句子生成方法:从语料库中的例子开始,学习加上有模有样的变化)

(下面网友说:“这看起来很像我学英语的方法”)

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

作文题目亲情 暗恋的作文 这一天作文 作文 我的名字 小学的老师作文 秋天的作文怎么写 小松鼠作文 我和爸爸作文 春天300字作文 家乡作文800字 母亲600字作文 感动600字作文 生日快乐作文 写感动的作文 感动中国作文 见闻的作文 与众不同作文 三年级上作文 变化作文素材 善意作文 春天里的作文 关于爱国作文 作文学习 泰山的作文 青春期作文 家乡的特产作文 小狗作文300字 重拾 作文 梦想作文500 写端午作文