TensorFlow 2.0學習筆記之狀態容器

轉載請註明出處

TL；DR

(0). 為什麼需要狀態容器：

因為TensorFlow 2.0以後默認打開動態圖運算，因此tf.Varibable（以及其它狀態類型）如果不放在一個容器中會被python解釋器回收掉，無法求導以及更新，這種容器稱之為狀態容器（stateful container）。TensorFlow 2.0中狀態容器的繼承結構圖為：

(1). Trackable:

Trackable（from tensorflow.python.training.tracking.base import Trackable）是所有的狀態容器的基類，其定義了一個self._track_trackable(self, name: Str, value: Trackable) -> None方法，來使得value成為self名為name的依賴。最終Trackable的實例之間的依賴關係構成一個有向無環圖(DAG)，只要根節點不被解釋器回收，則所有的依賴都會存在。

(2). AutoTrackable:

AutoTrackable（from tensorflow.python.training.tracking.tracking import AutoTrackable），在__setattr__中運行_track_trackable，執行a.b = c時自動的將c設成a名為b的依賴（這也是叫AutoTrackable的原因），避免顯式調用_track_trackable帶來的無聊和繁瑣。

(3). Trackable vs AutoTrackable：

只能成為別人的依賴而不依賴於別人的的對象，繼承Trackable即可，而不用AutoTrackable，比如tf.Variable和MutableHashTable。這些類型通常是可以被保存的對象。

(4). tf.train.Checkpoint：

基於對象的儲存（object-based save）的類型，地位等同於1.x的tf.train.Saver。繼承自AutoTrackable。該類型在儲存時會遍歷Trackable組成的DAG儲存和載入變數（或stateful的組件）。

(5). tf.Module:

定位為一個輕量級的狀態容器，繼承自AutoTrackable，是所有的public api中的狀態容器中最底層的一個，最底層的能夠收集.variables和.submodules屬性的一個，因為可以收集變數，所以這個類型可以用來建模，配合tf.GradientTape使用。

(6). tf.keras.layers.Layer:

Layer是keras中最底層的類型，繼承自tf.Module，相比於其父類，Layer開始有了建模的各種特性和功能，包括惰性構建機制(lazy build)和統一的調用介面。大量已經被定義好的tf.keras.layers.Layer的子類可以用來快速的構建模型，如全連接層tf.keras.layers.Dense，卷積層tf.keras.layers.Conv2D和遞歸層tf.keras.layers.RNN等等。

(7). tf.keras.Model:

（間接）繼承自tf.keras.layers.Layer，是keras中建模的核心類型，有如下特性：

兩種形式的構造函數（functional和subclassed）
定義了compile和fit方法，結合tf.keras.callbacks，提供一站式訓練服務

(8). tf.keras.Sequential

對於輸入的張量，挨個作用裡麪包含的tf.keras.layers.Layer，適合實現VGG16這樣一條路走到黑的（子）模型。

(9). 這麼多狀態容器，選擇繼承哪個？

僅在學習和深入研究狀態容器（或基於對象的儲存）時使用Trackable和AutoTrackable
tf.Module: 適合自定義訓練循環時使用
tf.keras.layers.Layer：適合實現一些中間層，比如Attention之類的，可以配合tf.keras.Sequential使用，極少看見大的模型繼承自這個類型。
tf.keras.Model：適合一些固定套路的模型（使用compile + fit）。雖然也可以自定義訓練循環，但是有一種殺雞用牛刀的感覺。
tf.keras.Sequential：適合一條路走到黑的（子）模型。

寫在最前

所有內容基於個人的使用和源代碼的閱讀，屬於個人總結，難免會有錯誤遺漏之處以及個人狹隘的觀點，不足之處還請大家多多指教。
完全理解本文的內容需要掌握很多python和tensorflow的知識點如python的垃圾回收機制和魔法方法，tensorflow的運算圖原理和序列化格式SavedModel等等。
運行代碼段需要2.0.beta1版本，其餘版本沒有測試過（1.x肯定不行，2.x可能可以），直接運行pip install tensorflow==2.0.beta1即可（2.7或3.x版本都行）。除非顯式地註明瞭代碼段的運行版本，否則默認一概使用2.0.beta1（有無GPU均可）。部分代碼需要安裝pytorch。
轉載請註明出處

為什麼需要狀態容器

TensorFlow 2.0相對於TensorFlow 1.x的一個巨大的變化是默認打開動態圖（查看此文檔瞭解更詳細的變更），這個變化導致的一個直接結果是tf.Variable（及其子類和其他的所有的狀態類型如MutableHashTable）的生命週期將與其對應的python對象綁定，簡單解釋一下就是：

# 僅僅只能在1.x版本中運行！！！ import tensorflow as tf

v = tf.Variable(2.)
v = "foo"
default_graph = tf.get_default_graph()
vs = default_graph.get_collection(tf.GraphKeys.GLOBAL_VARIABLES)
print(vs)

一開始創建的tf.Variable所綁定的對象v被另外地賦值，理論上根據python的垃圾回收機制，這個tf.Variable應該被解釋器回收掉（因為已經沒有引用指向這個tf.Variable了），然而列印出的vs並不是空，這是因為1.x版本中創建的變數將依附在運算圖tf.Graph中。2.0之後呢？

import tensorflow as tf

v = tf.Variable(2.)
v = "foo"

因為沒有了默認的運算圖，執行完v = "foo"之後tf.Variable這個對象由於最後一個指向他的引用消失而被解釋器回收。

這個變化有什麼樣的影響呢，看一個線性回歸的例子就知道了

import tensorflow as tf

def linear_regression(x):
w = tf.Variable(tf.random.normal(3, 4))
b = tf.Variable(tf.random.normal((4,)))
return tf.matmul(x, w) + b

這是一段典型的1.x版本的代碼（這種函數配合tf.variable_scope使用並做變數重用(variable resue)甚至成為了面試中關於TensorFlow的一個經典問題）。因為運算圖的存在，函數執行完之後創建的變數w和b就算不再有引用指向他們，還是會被儲存在tf.Graph中，因此不用擔心變數被解釋器回收的事情。然而到了2.0之後，這個函數等於廢了，因為運行完了之後w和b已經不存在了…...變數都不在了，對變數求導、更新和保存就別想了吧。

現在的問題變成了怎麼做才能保證變數不被回收掉：只要保存至少一個指向他們的引用即可，簡單修改一下這個linear_regression函數變成類型就能做到：

import tensorflow as tf

class LinearRegression(object):
def __init__(self):
self.w = tf.Variable(tf.random.normal(3, 4))
self.b = tf.Variable(tf.random.normal((4,)))

def __call__(self, x):
return tf.matmul(x, self.w) + self.b

linear_regression = LinearRegression()

現在，就算調用了linear_regression（這個對象可以調用，因為__call__被顯式地定義了），變數也不再會被回收掉，因為總存在指向他們的引用。

對比一下就能夠發現，這個LinearRegression類型起了一個容器的作用，他用來儲存與自己的運算相關的tf.Variable（當然也要進行運算，在__call__中），防止他們被解釋器回收掉。

這個LinearRegression類型是我們自己定義的，繼承自object，而在TensorFlow 2.0中，為了能夠更好的收集、儲存和使用tf.Variable（或者更廣義一點，所有的stateful的組件，還比如tf.lookup.StaticHashTable等），新版本定義了一系列的複雜度與功能各不一樣的類型，因為這些類型的主要的作用是充當stateful的組件的容器，因為官方稱之為狀態容器（stateful container）

狀態容器類型

以上是新版本中一定需要狀態容器的原因（如果沒有，變數會被回收無法儲存和復用），現在來介紹一下TensorFlow 2.0中狀態容器的類型。他們整個繼承結構圖，見前面的樹狀圖，以下對這個樹狀繼承圖中重要的類型做一些解釋和說明。

Trackable

Trackable（引用方式為from tensorflow.python.training.tracking.base import Trackable）是新版本中所有的狀態容器的基類，繼承自objetc，其定義了self._track_trackable(self, name: Str, value: Trackable) -> None的方法，來使得value成為self名為name的依賴，最終所有的Trackable的實例之間的依賴關係構成一個有向無環圖(Directed Acyclic Graph, 縮寫為DAG)。以下是一個通過調用_track_trackable來構造依賴關係DAG的例子：

import tensorflow as tf from tensorflow.python.training.tracking.base import Trackable from tensorflow.python.ops.lookup_ops import MutableHashTable from tensorflow.python.training.tracking.graph_view import ObjectGraphView import weakref

t1 = Trackable()
t2 = Trackable()
# 這裡暫時只要知道`tf.Variable`和`MutableHashTable`也都繼承自`Trackable`就行
v = tf.Variable(1.)
hash_table = MutableHashTable(key_dtype=tf.int32, value_dtype=tf.int32, default_value=0)
t1._track_trackable(t2, "child_trackable")
t1._track_trackable(v, "variable1")
t2._track_trackable(v, "variable2")
t2._track_trackable(hash_table, "dict")

# 使用`ObjectGraphView`這個類型可以獲得這個DAG的結構
object_graph_view = ObjectGraphView(weakref.ref(t1))
# saveables儲存了這個DAG中可以被保存的狀態類型，這裡有兩個，一個是v，另一個是hash_table，saveables會在
# tf.train.Checkpoint中被使用
saveables, dag, _ = object_graph_view.serialize_object_graph()
print(dag)

根據代碼可以看出構建的DAG大概如下圖所示：

TensorFlow 2.0學習筆記之狀態容器

寫在最前

為什麼需要狀態容器

狀態容器類型

Trackable

AutoTrackable

只會成為他人依賴的類型

ListWrapper和DictWrapper

tf.train.Checkpoint

tf.Module

tf.keras.layers.Layer

惰性構建的機制

統一的調用介面

tf.keras.Model

兩種形式的構造函數

compile和fit的一站式訓練

廢棄或被更改的各種方法與屬性

tf.keras.Sequential

狀態容器選擇

熱門新聞

週熱門

TensorFlow 2.0學習筆記之狀態容器

寫在最前

為什麼需要狀態容器

狀態容器類型

Trackable

AutoTrackable

只會成為他人依賴的類型

ListWrapper和DictWrapper

tf.train.Checkpoint

tf.Module

tf.keras.layers.Layer

惰性構建的機制

統一的調用介面

tf.keras.Model

兩種形式的構造函數

compile和fit的一站式訓練

廢棄或被更改的各種方法與屬性

tf.keras.Sequential

狀態容器選擇

為什麼softmax很少會出現[0.5，0.5]？

人工智慧領域裡的Interpretability和Explainability有什麼區別嗎？

如何自學《模式識別與機器學習》這本書？

有哪些非黑箱的機器學習模型，或者預測演算法？

ACL 2019將會有哪些值得關注的論文？

如果不從事機器學習，人工智慧，大數據這塊，未來還有機會在互聯網賺錢養家嗎？本人三本院校軟體專業。？

新手如何上手機器學習？

本人碩一小白，最近找課題，想問問深度學習GAN這個方向有哪些具有實際應用價值還好發文章的課題?

為什麼batch_size 增大會增加每一步的運算時間？

經典Python入門書籍都是python2.x, 先學這些再轉3.x難不難？

深度學習如何解決低信噪比下的檢測識別問題？

在2019年，使用AMD顯卡是否相當於告別深度學習，未來CUDA在機器學習領域的壟斷有可能被打破嗎？

在深度學習領域，預訓練有一定作用的本質原因是什麼？

小領域知識圖譜應該怎麼構建？

李宏毅 吳恩達誰的課更好?

熱門新聞

週熱門

李宏毅吳恩達誰的課更好?