前言

在抓取一些網站的時候難免會遇到一些驗證碼。想起去年接觸過一段時間的驗證碼識別技術,所以把之前使用的開源的cnn識別再拿出來做個註解。加深理解,也方便以後的使用。希望能對大家有所幫助!

正文

網上關於cnn驗證碼識別的文章有很多,以至於我想搜索之前的代碼是從來看來都找不到出處了。但是大部分都是抄過來用用,改個函數名一貼。這樣子其實是學不到什麼東西的,對看到人也不會有多少幫助。所以我想拿過來做一些註解。 前期的數據準備:深度學習識別驗證碼是需要大量的樣本作為訓練集的,並且給每個驗證碼打好label。 有了訓練集我們還需要做一些預處理: 1,將圖片轉成灰度圖,這樣做的目的是減少計算量。

def convert2gray(img):
if len(img.shape) > 2:
gray = np.mean(img, -1)
# 上面的轉法較快,正規轉法如下
# r, g, b = img[:,:,0], img[:,:,1], img[:,:,2]
# gray = 0.2989 * r + 0.5870 * g + 0.1140 * b
return gray
else:
return img

2,處理完的圖片其實就是一個矩陣,我們還需要將對應的label向量化。向量化的目的是便於運算,並且能體現空間關係。這裡用的方法是OneHotEncoder,就是把所有的已有的可能全部依次排成一個向量,以其中某一個為1其他為0來代表一種可能。舉個栗子: 只有數字組成的驗證碼所有可能性為0~9 向量化之後 0為:

[1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

1為: [0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

。。。等等

同理數字加英文大小寫的驗證碼 a為:

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

A為:

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

代碼為:

def text2vec(text):
text_len = len(text)
if text_len > MAX_CAPTCHA:
raise ValueError(驗證碼最長4個字元)

vector = np.zeros(MAX_CAPTCHA*CHAR_SET_LEN)
def char2pos(c):
if c ==_:
k = 62
return k
k = ord(c)-48
if k > 9:
k = ord(c) - 55
if k > 35:
k = ord(c) - 61
if k > 61:
raise ValueError(No Map)
return k
for i, c in enumerate(text):
idx = i * CHAR_SET_LEN + char2pos(c)
vector[idx] = 1
return vector

將向量轉回text的代碼為:

def vec2text(vec):
char_pos = vec.nonzero()[0]
text=[]
for i, c in enumerate(char_pos):
char_at_pos = i #c/63
char_idx = c % CHAR_SET_LEN
if char_idx < 10:
char_code = char_idx + ord(0)
elif char_idx <36:
char_code = char_idx - 10 + ord(A)
elif char_idx < 62:
char_code = char_idx- 36 + ord(a)
elif char_idx == 62:
char_code = ord(_)
else:
raise ValueError(error)
text.append(chr(char_code))
return "".join(text)

3,tensorflow中訓練數據以一個batch為一個單位,batch_size為128就是128個圖片矩陣集合,同樣label也需要轉化為128個向量的合集。

def get_next_batch(batch_size=128):
batch_x = np.zeros([batch_size, IMAGE_HEIGHT*IMAGE_WIDTH])
batch_y = np.zeros([batch_size, MAX_CAPTCHA*CHAR_SET_LEN])

# 有時生成圖像大小不是(60, 160, 3)
def wrap_gen_captcha_text_and_image():
while True:
text, image = gen_captcha_text_and_image()
if image.shape == (60, 160, 3):
return text, image

for i in range(batch_size):
text, image = wrap_gen_captcha_text_and_image()
image = convert2gray(image)

batch_x[i,:] = image.flatten() / 255 # (image.flatten()-128)/128 mean為0
batch_y[i,:] = text2vec(text)

return batch_x, batch_y

接下來就是定義cnn的模型,我的理解是把這個模型當成一個黑盒,我們投入數據,模型算出一些參數weight和bias等等。如果有足夠的計算資源我們可以選用一些經典的模型,慢慢調整以得到最佳模型。這裡我們還是用這個開源的模型。

X = tf.placeholder(tf.float32, [None, IMAGE_HEIGHT*IMAGE_WIDTH])
Y = tf.placeholder(tf.float32, [None, MAX_CAPTCHA*CHAR_SET_LEN])
keep_prob = tf.placeholder(tf.float32) # dropout

# 定義CNN
def crack_captcha_cnn(w_alpha=0.01, b_alpha=0.1):
x = tf.reshape(X, shape=[-1, IMAGE_HEIGHT, IMAGE_WIDTH, 1])

# 3 conv layer
w_c1 = tf.Variable(w_alpha*tf.random_normal([3, 3, 1, 32]))
b_c1 = tf.Variable(b_alpha*tf.random_normal([32]))
conv1 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(x, w_c1, strides=[1, 1, 1, 1], padding=SAME), b_c1))
conv1 = tf.nn.max_pool(conv1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding=SAME)
conv1 = tf.nn.dropout(conv1, keep_prob)

w_c2 = tf.Variable(w_alpha*tf.random_normal([3, 3, 32, 64]))
b_c2 = tf.Variable(b_alpha*tf.random_normal([64]))
conv2 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(conv1, w_c2, strides=[1, 1, 1, 1], padding=SAME), b_c2))
conv2 = tf.nn.max_pool(conv2, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding=SAME)
conv2 = tf.nn.dropout(conv2, keep_prob)

w_c3 = tf.Variable(w_alpha*tf.random_normal([3, 3, 64, 64]))
b_c3 = tf.Variable(b_alpha*tf.random_normal([64]))
conv3 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(conv2, w_c3, strides=[1, 1, 1, 1], padding=SAME), b_c3))
conv3 = tf.nn.max_pool(conv3, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding=SAME)
conv3 = tf.nn.dropout(conv3, keep_prob)

# Fully connected layer
w_d = tf.Variable(w_alpha*tf.random_normal([8*20*64, 1024]))
b_d = tf.Variable(b_alpha*tf.random_normal([1024]))
dense = tf.reshape(conv3, [-1, w_d.get_shape().as_list()[0]])
dense = tf.nn.relu(tf.add(tf.matmul(dense, w_d), b_d))
dense = tf.nn.dropout(dense, keep_prob)

w_out = tf.Variable(w_alpha*tf.random_normal([1024, MAX_CAPTCHA*CHAR_SET_LEN]))
b_out = tf.Variable(b_alpha*tf.random_normal([MAX_CAPTCHA*CHAR_SET_LEN]))
out = tf.add(tf.matmul(dense, w_out), b_out)
#out = tf.nn.softmax(out)
return out

簡單說一下我的理解,卷積層主要是為了選取局部的特徵例如鳥的喙,2的彎曲等等。池化層的作用是為了減少計算量,我們將圖片奇數行偶數列拿掉是不影響特徵的選擇的。cnn的每一層特徵選擇基本都差不多,第一行主要是提取輪廓,第二行第三行是一些細節。全連接層的作用是為了將所有的特徵組合起來。

接下來定義訓練入口函數:

# 訓練
def train_crack_captcha_cnn():
output = crack_captcha_cnn()
loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=output, labels=Y))
# 最後一層用來分類的softmax和sigmoid有什麼不同?
# optimizer 為了加快訓練 learning_rate應該開始大,然後慢慢衰
optimizer = tf.train.AdamOptimizer(learning_rate=0.001).minimize(loss)

predict = tf.reshape(output, [-1, MAX_CAPTCHA, CHAR_SET_LEN])
max_idx_p = tf.argmax(predict, 2)
max_idx_l = tf.argmax(tf.reshape(Y, [-1, MAX_CAPTCHA, CHAR_SET_LEN]), 2)
correct_pred = tf.equal(max_idx_p, max_idx_l)
accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

saver = tf.train.Saver()
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())

step = 0
while True:
batch_x, batch_y = get_next_batch(64)
_, loss_ = sess.run([optimizer, loss], feed_dict={X: batch_x, Y: batch_y, keep_prob: 0.75})
print(step, loss_)

# 每100 step計算一次準確率
if step % 100 == 0:
batch_x_test, batch_y_test = get_next_batch(100)
acc = sess.run(accuracy, feed_dict={X: batch_x_test, Y: batch_y_test, keep_prob: 1.})
print(step, acc)
# 如果準確率大於50%,保存模型,完成訓練
if acc > 0.98:
saver.save(sess, "crack_capcha.model", global_step=step)
break
step += 1

這裡我們需要定義一個loss函數,loss函數的作用是為了告訴模型計算出來的結果和預期結果相差有多遠!優化器的選擇一般就是Adam。這裡的learning_rate我們可以在訓練之初選擇0.1,等loss平穩了再逐步減少。

後序

關於這個腳本的註解大體就是這樣,其中有些函數是有相對應數學推導的,我只是簡單方便理解的解釋,如果有需要弄明白具體是怎麼回事的,可以看台大李宏毅教授或者吳恩達的深度學習的視頻。這類資料網上都很容易找到,感謝!!


推薦閱讀:
查看原文 >>
相关文章