之前看过TCN,稍微了解了一下语言模型,这篇论文也是对语言模型建模,但是由于对语言模型了解不深,一些常用数据处理方法,训练损失的计算包括残差都没有系统的看过,只是参考网上代码对论文做了粗浅的复现。开学以来通过看的几篇论文及复现基本掌握了tensorflow的基本使用,了解了「数据处理-模型构建-训练「的处理问题基本流程,但是随著看论文的增多发现理论基础严重薄弱,以后应该会一边补理论一边看论文...
一.论文简介
来源:没...没找到
题目:Language Modeling with Gated Convolutional Networks
原文链接:https://arxiv.org/pdf/1612.08083.pdf
参考代码:anantzoid/Language-Modeling-GatedCNN
之前语言模型的主流方法都是基于RNN,本篇论文提出了一种新颖的门控机制,结合CNN网路应用到语言模型。该网路包含多层,与经典语法形式相似,能分层次地分析输入,构建了增加粒度的句法树结构。与RNN逐个处理输入序列不同,CNN可以实现并行计算,大大加快训练速度。并且分层结构也简化了学习,与RNN的链结构相比,非线性计算数量减少,从而减轻了消失梯度问题。
二.网路架构