TensorFlow 2.0学习笔记之状态容器

转载请注明出处

TL；DR

(0). 为什么需要状态容器：

因为TensorFlow 2.0以后默认打开动态图运算，因此tf.Varibable（以及其它状态类型）如果不放在一个容器中会被python解释器回收掉，无法求导以及更新，这种容器称之为状态容器（stateful container）。TensorFlow 2.0中状态容器的继承结构图为：

(1). Trackable:

Trackable（from tensorflow.python.training.tracking.base import Trackable）是所有的状态容器的基类，其定义了一个self._track_trackable(self, name: Str, value: Trackable) -> None方法，来使得value成为self名为name的依赖。最终Trackable的实例之间的依赖关系构成一个有向无环图(DAG)，只要根节点不被解释器回收，则所有的依赖都会存在。

(2). AutoTrackable:

AutoTrackable（from tensorflow.python.training.tracking.tracking import AutoTrackable），在__setattr__中运行_track_trackable，执行a.b = c时自动的将c设成a名为b的依赖（这也是叫AutoTrackable的原因），避免显式调用_track_trackable带来的无聊和繁琐。

(3). Trackable vs AutoTrackable：

只能成为别人的依赖而不依赖于别人的的对象，继承Trackable即可，而不用AutoTrackable，比如tf.Variable和MutableHashTable。这些类型通常是可以被保存的对象。

(4). tf.train.Checkpoint：

基于对象的储存（object-based save）的类型，地位等同于1.x的tf.train.Saver。继承自AutoTrackable。该类型在储存时会遍历Trackable组成的DAG储存和载入变数（或stateful的组件）。

(5). tf.Module:

定位为一个轻量级的状态容器，继承自AutoTrackable，是所有的public api中的状态容器中最底层的一个，最底层的能够收集.variables和.submodules属性的一个，因为可以收集变数，所以这个类型可以用来建模，配合tf.GradientTape使用。

(6). tf.keras.layers.Layer:

Layer是keras中最底层的类型，继承自tf.Module，相比于其父类，Layer开始有了建模的各种特性和功能，包括惰性构建机制(lazy build)和统一的调用介面。大量已经被定义好的tf.keras.layers.Layer的子类可以用来快速的构建模型，如全连接层tf.keras.layers.Dense，卷积层tf.keras.layers.Conv2D和递归层tf.keras.layers.RNN等等。

(7). tf.keras.Model:

（间接）继承自tf.keras.layers.Layer，是keras中建模的核心类型，有如下特性：

两种形式的构造函数（functional和subclassed）
定义了compile和fit方法，结合tf.keras.callbacks，提供一站式训练服务

(8). tf.keras.Sequential

对于输入的张量，挨个作用里面包含的tf.keras.layers.Layer，适合实现VGG16这样一条路走到黑的（子）模型。

(9). 这么多状态容器，选择继承哪个？

仅在学习和深入研究状态容器（或基于对象的储存）时使用Trackable和AutoTrackable
tf.Module: 适合自定义训练循环时使用
tf.keras.layers.Layer：适合实现一些中间层，比如Attention之类的，可以配合tf.keras.Sequential使用，极少看见大的模型继承自这个类型。
tf.keras.Model：适合一些固定套路的模型（使用compile + fit）。虽然也可以自定义训练循环，但是有一种杀鸡用牛刀的感觉。
tf.keras.Sequential：适合一条路走到黑的（子）模型。

写在最前

所有内容基于个人的使用和源代码的阅读，属于个人总结，难免会有错误遗漏之处以及个人狭隘的观点，不足之处还请大家多多指教。
完全理解本文的内容需要掌握很多python和tensorflow的知识点如python的垃圾回收机制和魔法方法，tensorflow的运算图原理和序列化格式SavedModel等等。
运行代码段需要2.0.beta1版本，其余版本没有测试过（1.x肯定不行，2.x可能可以），直接运行pip install tensorflow==2.0.beta1即可（2.7或3.x版本都行）。除非显式地注明了代码段的运行版本，否则默认一概使用2.0.beta1（有无GPU均可）。部分代码需要安装pytorch。
转载请注明出处

为什么需要状态容器

TensorFlow 2.0相对于TensorFlow 1.x的一个巨大的变化是默认打开动态图（查看此文档了解更详细的变更），这个变化导致的一个直接结果是tf.Variable（及其子类和其他的所有的状态类型如MutableHashTable）的生命周期将与其对应的python对象绑定，简单解释一下就是：

# 仅仅只能在1.x版本中运行！！！ import tensorflow as tf

v = tf.Variable(2.)
v = "foo"
default_graph = tf.get_default_graph()
vs = default_graph.get_collection(tf.GraphKeys.GLOBAL_VARIABLES)
print(vs)

一开始创建的tf.Variable所绑定的对象v被另外地赋值，理论上根据python的垃圾回收机制，这个tf.Variable应该被解释器回收掉（因为已经没有引用指向这个tf.Variable了），然而列印出的vs并不是空，这是因为1.x版本中创建的变数将依附在运算图tf.Graph中。2.0之后呢？

import tensorflow as tf

v = tf.Variable(2.)
v = "foo"

因为没有了默认的运算图，执行完v = "foo"之后tf.Variable这个对象由于最后一个指向他的引用消失而被解释器回收。

这个变化有什么样的影响呢，看一个线性回归的例子就知道了

import tensorflow as tf

def linear_regression(x):
w = tf.Variable(tf.random.normal(3, 4))
b = tf.Variable(tf.random.normal((4,)))
return tf.matmul(x, w) + b

这是一段典型的1.x版本的代码（这种函数配合tf.variable_scope使用并做变数重用(variable resue)甚至成为了面试中关于TensorFlow的一个经典问题）。因为运算图的存在，函数执行完之后创建的变数w和b就算不再有引用指向他们，还是会被储存在tf.Graph中，因此不用担心变数被解释器回收的事情。然而到了2.0之后，这个函数等于废了，因为运行完了之后w和b已经不存在了…...变数都不在了，对变数求导、更新和保存就别想了吧。

现在的问题变成了怎么做才能保证变数不被回收掉：只要保存至少一个指向他们的引用即可，简单修改一下这个linear_regression函数变成类型就能做到：

import tensorflow as tf

class LinearRegression(object):
def __init__(self):
self.w = tf.Variable(tf.random.normal(3, 4))
self.b = tf.Variable(tf.random.normal((4,)))

def __call__(self, x):
return tf.matmul(x, self.w) + self.b

linear_regression = LinearRegression()

现在，就算调用了linear_regression（这个对象可以调用，因为__call__被显式地定义了），变数也不再会被回收掉，因为总存在指向他们的引用。

对比一下就能够发现，这个LinearRegression类型起了一个容器的作用，他用来储存与自己的运算相关的tf.Variable（当然也要进行运算，在__call__中），防止他们被解释器回收掉。

这个LinearRegression类型是我们自己定义的，继承自object，而在TensorFlow 2.0中，为了能够更好的收集、储存和使用tf.Variable（或者更广义一点，所有的stateful的组件，还比如tf.lookup.StaticHashTable等），新版本定义了一系列的复杂度与功能各不一样的类型，因为这些类型的主要的作用是充当stateful的组件的容器，因为官方称之为状态容器（stateful container）

状态容器类型

以上是新版本中一定需要状态容器的原因（如果没有，变数会被回收无法储存和复用），现在来介绍一下TensorFlow 2.0中状态容器的类型。他们整个继承结构图，见前面的树状图，以下对这个树状继承图中重要的类型做一些解释和说明。

Trackable

Trackable（引用方式为from tensorflow.python.training.tracking.base import Trackable）是新版本中所有的状态容器的基类，继承自objetc，其定义了self._track_trackable(self, name: Str, value: Trackable) -> None的方法，来使得value成为self名为name的依赖，最终所有的Trackable的实例之间的依赖关系构成一个有向无环图(Directed Acyclic Graph, 缩写为DAG)。以下是一个通过调用_track_trackable来构造依赖关系DAG的例子：

import tensorflow as tf from tensorflow.python.training.tracking.base import Trackable from tensorflow.python.ops.lookup_ops import MutableHashTable from tensorflow.python.training.tracking.graph_view import ObjectGraphView import weakref

t1 = Trackable()
t2 = Trackable()
# 这里暂时只要知道`tf.Variable`和`MutableHashTable`也都继承自`Trackable`就行
v = tf.Variable(1.)
hash_table = MutableHashTable(key_dtype=tf.int32, value_dtype=tf.int32, default_value=0)
t1._track_trackable(t2, "child_trackable")
t1._track_trackable(v, "variable1")
t2._track_trackable(v, "variable2")
t2._track_trackable(hash_table, "dict")

# 使用`ObjectGraphView`这个类型可以获得这个DAG的结构
object_graph_view = ObjectGraphView(weakref.ref(t1))
# saveables储存了这个DAG中可以被保存的状态类型，这里有两个，一个是v，另一个是hash_table，saveables会在
# tf.train.Checkpoint中被使用
saveables, dag, _ = object_graph_view.serialize_object_graph()
print(dag)

根据代码可以看出构建的DAG大概如下图所示：

TensorFlow 2.0学习笔记之状态容器

写在最前

为什么需要状态容器

状态容器类型

Trackable

AutoTrackable

只会成为他人依赖的类型

ListWrapper和DictWrapper

tf.train.Checkpoint

tf.Module

tf.keras.layers.Layer

惰性构建的机制

统一的调用介面

tf.keras.Model

两种形式的构造函数

compile和fit的一站式训练

废弃或被更改的各种方法与属性

tf.keras.Sequential

状态容器选择

热门新闻

周热门

TensorFlow 2.0学习笔记之状态容器

写在最前

为什么需要状态容器

状态容器类型

Trackable

AutoTrackable

只会成为他人依赖的类型

ListWrapper和DictWrapper

tf.train.Checkpoint

tf.Module

tf.keras.layers.Layer

惰性构建的机制

统一的调用介面

tf.keras.Model

两种形式的构造函数

compile和fit的一站式训练

废弃或被更改的各种方法与属性

tf.keras.Sequential

状态容器选择

为什么softmax很少会出现[0.5，0.5]？

人工智慧领域里的Interpretability和Explainability有什么区别吗？

如何自学《模式识别与机器学习》这本书？

有哪些非黑箱的机器学习模型，或者预测演算法？

ACL 2019将会有哪些值得关注的论文？

如果不从事机器学习，人工智慧，大数据这块，未来还有机会在互联网赚钱养家吗？本人三本院校软体专业。？

新手如何上手机器学习？

本人硕一小白，最近找课题，想问问深度学习GAN这个方向有哪些具有实际应用价值还好发文章的课题?

为什么batch_size 增大会增加每一步的运算时间？

经典Python入门书籍都是python2.x, 先学这些再转3.x难不难？

深度学习如何解决低信噪比下的检测识别问题？

在2019年，使用AMD显卡是否相当于告别深度学习，未来CUDA在机器学习领域的垄断有可能被打破吗？

在深度学习领域，预训练有一定作用的本质原因是什么？

小领域知识图谱应该怎么构建？

李宏毅 吴恩达谁的课更好?

热门新闻

周热门

李宏毅吴恩达谁的课更好?