Gated CNN 阅读笔记

之前看过TCN，稍微了解了一下语言模型，这篇论文也是对语言模型建模，但是由于对语言模型了解不深，一些常用数据处理方法，训练损失的计算包括残差都没有系统的看过，只是参考网上代码对论文做了粗浅的复现。开学以来通过看的几篇论文及复现基本掌握了tensorflow的基本使用，了解了「数据处理-模型构建-训练「的处理问题基本流程，但是随著看论文的增多发现理论基础严重薄弱，以后应该会一边补理论一边看论文...

一.论文简介

来源：没...没找到

题目：Language Modeling with Gated Convolutional Networks

原文链接：https://arxiv.org/pdf/1612.08083.pdf

参考代码：anantzoid/Language-Modeling-GatedCNN

之前语言模型的主流方法都是基于RNN，本篇论文提出了一种新颖的门控机制，结合CNN网路应用到语言模型。该网路包含多层，与经典语法形式相似，能分层次地分析输入，构建了增加粒度的句法树结构。与RNN逐个处理输入序列不同，CNN可以实现并行计算，大大加快训练速度。并且分层结构也简化了学习，与RNN的链结构相比，非线性计算数量减少，从而减轻了消失梯度问题。

二.网路架构