使用深度學習識別驗證碼註解

前言

在抓取一些網站的時候難免會遇到一些驗證碼。想起去年接觸過一段時間的驗證碼識別技術，所以把之前使用的開源的cnn識別再拿出來做個註解。加深理解，也方便以後的使用。希望能對大家有所幫助！

正文

網上關於cnn驗證碼識別的文章有很多，以至於我想搜索之前的代碼是從來看來都找不到出處了。但是大部分都是抄過來用用，改個函數名一貼。這樣子其實是學不到什麼東西的，對看到人也不會有多少幫助。所以我想拿過來做一些註解。前期的數據準備：深度學習識別驗證碼是需要大量的樣本作為訓練集的，並且給每個驗證碼打好label。有了訓練集我們還需要做一些預處理： 1，將圖片轉成灰度圖，這樣做的目的是減少計算量。

def convert2gray(img): if len(img.shape) > 2: gray = np.mean(img, -1) # 上面的轉法較快，正規轉法如下 # r, g, b = img[:,:,0], img[:,:,1], img[:,:,2] # gray = 0.2989 * r + 0.5870 * g + 0.1140 * b return gray else: return img

2，處理完的圖片其實就是一個矩陣，我們還需要將對應的label向量化。向量化的目的是便於運算，並且能體現空間關係。這裡用的方法是OneHotEncoder，就是把所有的已有的可能全部依次排成一個向量，以其中某一個為1其他為0來代表一種可能。舉個栗子：只有數字組成的驗證碼所有可能性為0~9 向量化之後 0為：

[1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

1為： [0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

。。。等等

同理數字加英文大小寫的驗證碼 a為：

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

A為：

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

代碼為：

def text2vec(text): text_len = len(text) if text_len > MAX_CAPTCHA: raise ValueError(驗證碼最長4個字元)

vector = np.zeros(MAX_CAPTCHA*CHAR_SET_LEN)
def char2pos(c):
if c ==_:
k = 62
return k
k = ord(c)-48
if k > 9:
k = ord(c) - 55
if k > 35:
k = ord(c) - 61
if k > 61:
raise ValueError(No Map)
return k
for i, c in enumerate(text):
idx = i * CHAR_SET_LEN + char2pos(c)
vector[idx] = 1
return vector

將向量轉回text的代碼為：

def vec2text(vec): char_pos = vec.nonzero()[0] text=[] for i, c in enumerate(char_pos): char_at_pos = i #c/63 char_idx = c % CHAR_SET_LEN if char_idx < 10: char_code = char_idx + ord(0) elif char_idx <36: char_code = char_idx - 10 + ord(A) elif char_idx < 62: char_code = char_idx- 36 + ord(a) elif char_idx == 62: char_code = ord(_) else: raise ValueError(error) text.append(chr(char_code)) return "".join(text)

3,tensorflow中訓練數據以一個batch為一個單位，batch_size為128就是128個圖片矩陣集合，同樣label也需要轉化為128個向量的合集。

def get_next_batch(batch_size=128): batch_x = np.zeros([batch_size, IMAGE_HEIGHT*IMAGE_WIDTH]) batch_y = np.zeros([batch_size, MAX_CAPTCHA*CHAR_SET_LEN])

# 有時生成圖像大小不是(60, 160, 3)
def wrap_gen_captcha_text_and_image():
while True:
text, image = gen_captcha_text_and_image()
if image.shape == (60, 160, 3):
return text, image

for i in range(batch_size):
text, image = wrap_gen_captcha_text_and_image()
image = convert2gray(image)

batch_x[i,:] = image.flatten() / 255 # (image.flatten()-128)/128 mean為0
batch_y[i,:] = text2vec(text)

return batch_x, batch_y

接下來就是定義cnn的模型，我的理解是把這個模型當成一個黑盒，我們投入數據，模型算出一些參數weight和bias等等。如果有足夠的計算資源我們可以選用一些經典的模型，慢慢調整以得到最佳模型。這裡我們還是用這個開源的模型。

X = tf.placeholder(tf.float32, [None, IMAGE_HEIGHT*IMAGE_WIDTH]) Y = tf.placeholder(tf.float32, [None, MAX_CAPTCHA*CHAR_SET_LEN]) keep_prob = tf.placeholder(tf.float32) # dropout

# 定義CNN
def crack_captcha_cnn(w_alpha=0.01, b_alpha=0.1):
x = tf.reshape(X, shape=[-1, IMAGE_HEIGHT, IMAGE_WIDTH, 1])

# 3 conv layer
w_c1 = tf.Variable(w_alpha*tf.random_normal([3, 3, 1, 32]))
b_c1 = tf.Variable(b_alpha*tf.random_normal([32]))
conv1 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(x, w_c1, strides=[1, 1, 1, 1], padding=SAME), b_c1))
conv1 = tf.nn.max_pool(conv1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding=SAME)
conv1 = tf.nn.dropout(conv1, keep_prob)

w_c2 = tf.Variable(w_alpha*tf.random_normal([3, 3, 32, 64]))
b_c2 = tf.Variable(b_alpha*tf.random_normal([64]))
conv2 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(conv1, w_c2, strides=[1, 1, 1, 1], padding=SAME), b_c2))
conv2 = tf.nn.max_pool(conv2, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding=SAME)
conv2 = tf.nn.dropout(conv2, keep_prob)

w_c3 = tf.Variable(w_alpha*tf.random_normal([3, 3, 64, 64]))
b_c3 = tf.Variable(b_alpha*tf.random_normal([64]))
conv3 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(conv2, w_c3, strides=[1, 1, 1, 1], padding=SAME), b_c3))
conv3 = tf.nn.max_pool(conv3, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding=SAME)
conv3 = tf.nn.dropout(conv3, keep_prob)

# Fully connected layer
w_d = tf.Variable(w_alpha*tf.random_normal([8*20*64, 1024]))
b_d = tf.Variable(b_alpha*tf.random_normal([1024]))
dense = tf.reshape(conv3, [-1, w_d.get_shape().as_list()[0]])
dense = tf.nn.relu(tf.add(tf.matmul(dense, w_d), b_d))
dense = tf.nn.dropout(dense, keep_prob)

w_out = tf.Variable(w_alpha*tf.random_normal([1024, MAX_CAPTCHA*CHAR_SET_LEN]))
b_out = tf.Variable(b_alpha*tf.random_normal([MAX_CAPTCHA*CHAR_SET_LEN]))
out = tf.add(tf.matmul(dense, w_out), b_out)
#out = tf.nn.softmax(out)
return out

簡單說一下我的理解，卷積層主要是為了選取局部的特徵例如鳥的喙，2的彎曲等等。池化層的作用是為了減少計算量，我們將圖片奇數行偶數列拿掉是不影響特徵的選擇的。cnn的每一層特徵選擇基本都差不多，第一行主要是提取輪廓，第二行第三行是一些細節。全連接層的作用是為了將所有的特徵組合起來。

接下來定義訓練入口函數：

# 訓練 def train_crack_captcha_cnn(): output = crack_captcha_cnn() loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=output, labels=Y)) # 最後一層用來分類的softmax和sigmoid有什麼不同？ # optimizer 為了加快訓練 learning_rate應該開始大，然後慢慢衰 optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(loss)

predict = tf.reshape(output, [-1, MAX_CAPTCHA, CHAR_SET_LEN])
max_idx_p = tf.argmax(predict, 2)
max_idx_l = tf.argmax(tf.reshape(Y, [-1, MAX_CAPTCHA, CHAR_SET_LEN]), 2)
correct_pred = tf.equal(max_idx_p, max_idx_l)
accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

saver = tf.train.Saver()
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())

step = 0
while True:
batch_x, batch_y = get_next_batch(64)
_, loss_ = sess.run([optimizer, loss], feed_dict={X: batch_x, Y: batch_y, keep_prob: 0.75})
print(step, loss_)

# 每100 step計算一次準確率
if step % 100 == 0:
batch_x_test, batch_y_test = get_next_batch(100)
acc = sess.run(accuracy, feed_dict={X: batch_x_test, Y: batch_y_test, keep_prob: 1.})
print(step, acc)
# 如果準確率大於50%,保存模型,完成訓練
if acc > 0.98:
saver.save(sess, "crack_capcha.model", global_step=step)
break
step += 1

這裡我們需要定義一個loss函數，loss函數的作用是為了告訴模型計算出來的結果和預期結果相差有多遠！優化器的選擇一般就是Adam。這裡的learning_rate我們可以在訓練之初選擇0.1，等loss平穩了再逐步減少。