今日 Paper｜随机微分方程；流式自动语音识别；图像分类等

2020-12-03 20:05:01

相关推荐

为了帮助各位学术青年更好地学习前沿研究成果和技术，AI科技评论联合Paper 研习社（paper.yanxishe.com），重磅推出【今日 Paper】栏目，每天都为你精选关于人工智能的前沿学术论文供你学习参考。以下是今日的精选内容——

Reinforcement Learning via Fenchel-Rockafellar DualityScalable Gradients for Stochastic Differential EquationsStreaming automatic speech recognition with the transformer modelThe importance of phase in complex compressive sensingDo As I Do: Transferring Human Motion and Appearance between Monocular Videos with Spatial and Temporal ConstraintsGenerating Object StampsRoboFly: An insect-sized robot with simplified fabrication that is capable of flight, ground, and water surface locomotionFrequentNet : A New Deep Learning Baseline for Image ClassificationConvolutional Networks with Dense ConnectivityImplementing version control with Git as a learning objective in statistics courses

通过Fenchel-Rockafellar对偶进行强化学习

论文名称：Reinforcement Learning via Fenchel-Rockafellar Duality

作者：Nachum Ofir /Dai Bo

发表时间：2020/1/7

论文链接：https://paper.yanxishe.com/review/8517?from=leiphonecolumn_papereview0110

推荐理由：作者回顾凸对偶性的基本概念，重点是非常普遍且极为有用的Fenchel-Rockafellar对偶性。

作者总结了如何将这种对偶性应用于各种强化学习（RL）设置，包括策略评估或优化，在线或离线学习以及打折或未打折的奖励。这些推导产生了许多有趣的结果，包括使用行为不可知的离线数据执行策略评估和基于策略的策略梯度的能力，以及通过最大似然优化来学习策略的方法。尽管许多结果以前都以各种形式出现过，但是作者对这些结果提供了统一的处理方法和观点，作者希望它们能够使研究人员更好地使用和应用凸对偶工具，从而在RL中取得更大的进步。

随机微分方程的可扩展梯度

论文名称：Scalable Gradients for Stochastic Differential Equations

作者：Li Xuechen /Wong Ting-Kam Leonard /Chen Ricky T. Q. /Duvenaud David

发表时间：2020/1/5

论文链接：https://paper.yanxishe.com/review/8518?from=leiphonecolumn_papereview0110

推荐理由：伴随灵敏度方法可缩放地计算常微分方程解的梯度。作者将这种方法推广到随机微分方程，从而利用高阶自适应求解器实现梯度的时效性和恒定内存计算。具体来说，作者推导了一个随机微分方程，其解为梯度，一种用于记忆噪声的内存有效算法以及数值解收敛的条件。此外，作者将其方法与基于梯度的随机变分推断相结合，以解决潜在的随机微分方程。作者使用这种方法来拟合由神经网络定义的随机动力学，从而在50维运动捕获数据集上实现竞争性能。

使用转换器模型进行流式自动语音识别

论文名称：Streaming automatic speech recognition with the transformer model

作者：Moritz Niko /Hori Takaaki /Roux Jonathan Le

发表时间：2020/1/8

论文链接：https://paper.yanxishe.com/review/8514?from=leiphonecolumn_papereview0110

推荐理由：基于编码器-解码器的序列到序列模型已经证明了端到端自动语音识别（ASR）的最新结果。最近，与基于递归神经网络（RNN）的系统体系结构相比，使用自我注意力对时间上下文信息进行建模的转换器体系结构已显示出显着更低的字错误率（WER）。尽管获得了成功，但实际使用仅限于脱机ASR任务，因为编码器/解码器体系结构通常需要整个语音发音作为输入。

在这项工作中，作者提出了一种基于变压器的端到端ASR系统，用于流式传输ASR，在该系统中，每个口语单词后必须立即生成输出。为此，我们对编码器应用了有时间限制的自注意力，并为编码器-解码器注意机制触发了注意。对于LibriSpeech的“干净”和“其他”测试数据，作者提出的流媒体转换器体系结构实现了2.7％和7.0％的WER，据所知，这是针对此任务发布的最佳流媒体端到端ASR结果。

相位在复杂压缩感测中的重要性

论文名称：The importance of phase in complex compressive sensing

作者：Jacques Laurent /Feuillen Thomas

发表时间：2020/1/8

论文链接：https://paper.yanxishe.com/review/8513?from=leiphonecolumn_papereview0110

推荐理由：作者考虑从复杂随机测量的相位（即在仅相位压缩感测（PO-CS）场景中）估计实际的低复杂度信号（例如稀疏矢量或低秩矩阵）的问题。

作者表明，如果感测矩阵是一个复杂的高斯随机矩阵，并且与信号空间的复杂度级别相比测量次数较大，则可以以高概率且高达全局未知信号幅度，来完美地恢复此类信号。。此外，如果每个测量值都乘以未知符号，则仍可以恢复。作者的方法是通过将（非线性）PO-CS方案重铸为根据信号归一化约束和相位一致性约束（施加任何信号估计以匹配测量域中的观测相位）构建的线性压缩感测模型而进行的。实际上，可以从压缩感测文献的任何实例最优算法（例如，基本追踪去噪）中获得稳定且鲁棒的信号方向估计。通过证明与该等效线性模型关联的矩阵，可以在上述条件下以测量次数高概率满足受限等轴测特性，从而确保这一点。作者最终通过实验观察到，稳健的信号方向恢复大约是压缩感测中信号恢复所需的测量次数的两倍。

像我一样做：在具有时空限制的单眼视频之间转移人类的运动和外观

论文名称：Do As I Do: Transferring Human Motion and Appearance between Monocular Videos with Spatial and Temporal Constraints

作者：Gomes Thiago L. /Martins Renato /Ferreira Joo /Nascimento Erickson R.

发表时间：2020/1/8

论文链接：https://paper.yanxishe.com/review/8515?from=leiphonecolumn_papereview0110

推荐理由：

从真实演员的图像创建合理的虚拟演员仍然是计算机视觉和计算机图形学的主要挑战之一。无标记的人类运动估计和来自野外图像的形状建模使这一挑战脱颖而出。尽管最近在视图合成和图像到图像的翻译方面取得了进步，但是当前可用的配方仅限于仅转移样式，并且不考虑角色的运动和形状，而角色的运动和形状天生就混杂在一起以产生合理的人类形式。

在本文中，作者提出了一种统一的公式，用于从涉及所有这些方面的单眼视频中转移外观并重新定向人类运动。作者的方法由四个主要部分组成，并在最初录制他们的不同上下文中合成了新的人们视频。与最近的外观转移方法不同，作者考虑了身体形状，外观和运动约束。评估是使用包含严酷条件的可公开获得的真实视频通过几次实验进行的。其方法能够以超越最新技术的方式传递人类动作和外观，同时保留必须保持的动作的特定特征（例如，脚触摸地板，手触摸特定对象）并保持最佳状态视觉质量和外观指标，例如结构相似度（SSIM）和学习的感知图像补丁相似度（LPIPS）。

生成对象图章

论文名称：Generating Object Stamps

作者：Mejjati Youssef Alami /Shen Zejiang /Snower Michael /Gokaslan Aaron /Wang Oliver /Tompkin James /Kim Kwang In

发表时间：2020/1/1

论文链接：https://paper.yanxishe.com/review/8516?from=leiphonecolumn_papereview0110

推荐理由：作者提出一种算法来生成各种前景对象，并使用GAN架构将它们合成为背景图像。给定对象类，用户提供的边界框和背景图像，作者首先使用遮罩生成器创建对象形状，然后使用纹理生成器填充遮罩，以使纹理与背景整合。通过将对象插入的问题分为两个阶段，作者证明了其模型可以改善各种对象生成的真实感，而这种现实感也与所提供的背景图像一致。与最新的对象插入方法相比，作者在具有挑战性的COCO数据集上的结果显示出更高的整体质量和多样性。

RoboFly：昆虫大小的机器人，具有简化的制造工艺，能够飞行，地面和水面移动

论文名称：RoboFly: An insect-sized robot with simplified fabrication that is capable of flight, ground, and water surface locomotion

作者：Chukewad Yogesh M /James Johannes /Singh Avinash /Fuller Sawyer

发表时间：2020/1/8

论文链接：https://paper.yanxishe.com/review/8512?from=leiphonecolumn_papereview0110

推荐理由：像蜜蜂一样大小的空中机器人（约100 mg）具有体积小，重量轻和材料成本低等优点，优于大型机器人。先前的迭代已经证明了飞行受控，但是由于它们由组装在一起的许多独立零件组成，因此很难制造。除了飞行之外，他们还无法执行运动模式。

本文介绍了一种74 mg拍打翼机器人的新设计，该机器人可大大减少零件数量并简化制造过程。它还具有较低的质心，即使在不稳定的飞行情况下，也无需长腿即可使机器人额外着陆。此外，作者表明，新设计允许机翼驱动的地面和空气-水界面移动，从而提高了机器人的多功能性。通过增加相对于拍打翼的上行程的下行程速度来产生前向推力。这也允许转向。着陆并随后沿着地面移动的能力使机器人能够在障碍物下方和极其精确的位置之间协商极为狭窄的空间。作者将详细描述新设计，并提供展示这些功能以及悬停飞行和受控着陆的结果。

FrequentNet：用于图像分类的新的深度学习基准

论文名称：FrequentNet : A New Deep Learning Baseline for Image Classification

作者：Li Yifei /Wang Zheng /Song Kuangyan /Sun Yiming

发表时间：2020/1/4

论文链接：https://paper.yanxishe.com/review/8510?from=leiphonecolumn_papereview0110

推荐理由：在本文中，作者从“ PCANet”方法中概括了这一思想，以实现用于图像分类的新基线深度学习模型。代替在“ PCANet”中使用主成分向量作为滤波向量，作者在离散傅里叶分析和小波分析中使用基础向量作为滤波向量。两者在基准数据集中均达到了与“ PCANet”相当的性能。值得注意的是，作者的算法不需要任何优化技术即可获得这些基础。

具有密集连接性的卷积网络

论文名称：Convolutional Networks with Dense Connectivity

作者：Huang Gao /Liu Zhuang /Pleiss Geoff /van der Maaten Laurens /Weinberger Kilian Q.

发表时间：2020/1/8

论文链接：https://paper.yanxishe.com/review/8511?from=leiphonecolumn_papereview0110

推荐理由：最近的工作表明，如果卷积网络在靠近输入的层和靠近输出的层之间包含较短的连接，则可以进行更深入，更准确和有效的训练。

在本文中，作者接受了这一观察，并介绍了密集卷积网络（DenseNet），该网络以前馈的方式将每一层连接到其他每一层。而具有L层的传统卷积网络具有L连接-每层与其卷积网络之间后续层-作者的网络具有L（L + 1）/ 2个直接连接。对于每一层，所有先前层的特征图都用作输入，而其自身的特征图则用作所有后续层的输入。DenseNets具有几个引人注目的优势：它们减轻了消失梯度的问题，鼓励了特征重用并大大提高了参数效率。

作者在四个竞争激烈的对象识别基准测试任务（CIFAR-10，CIFAR-100，SVHN和ImageNet）上评估了作者提出的体系结构。DenseNets在大多数方面都获得了超越现有技术的显着改进，同时需要更少的参数和计算即可实现高性能。

在统计课程中以Git为学习目标实施版本控制

论文名称：Implementing version control with Git as a learning objective in statistics courses

作者：Beckman Matthew D. /etinkaya-Rundel Mine /Horton Nicholas J. /Rundel Colin W. /Sullivan Adam J. /Tackett Maria

发表时间：2020/1/7

论文链接：https://paper.yanxishe.com/review/8509?from=leiphonecolumn_papereview0110

推荐理由：版本控制是可复制工作流的基本元素，在统计学课程的学习目标中应适当考虑。

本文介绍了四个在不同机构教授不同课程的贡献型教师的经验和实施决策。这些教师中的每一个都将版本控制作为学习目标，并将Git教学成功地集成到一个或多个统计课程中。本文中描述的各种方法跨越了不同的实施策略，以适应学生的背景，课程类型，软件选择和评估实践。通过提供广泛的Git教学方法，本文旨在作为统计教员在本科或研究生课程中任何级别的课程教学的资源。

雷锋网雷锋网雷锋网

阅读剩余内容

Paper 流式随机微分方程图像分类自动语音识别

今日 Paper｜随机微分方程；流式自动语音识别；图像分类等

视频自动识别添加字幕还能翻译各国语言字幕真·效率神器

马上金融自主研发ASR技术电话录音场景下客户字准率88％可识别多种方言

怎样自动翻译英文视频并添加字幕？

文本转语音不用软件 so easy！

小i机器人CEO朱频频：线下自动设备是未来银行发展非常重要的趋势