求通俗解釋NLP裏的perplexity是什麼？

先說結論：困惑度是交叉熵的指數形式。

然後你要知道信息熵、交叉熵的概念，可參考知乎上的回答～

對於熵，簡單點就是信息量的期望。將一個sentence看做一個隨機變數， ,這裡假定是有限長度n，那麼它對應的熵為：

對應的per-word 熵，也就是entroy rate為：

引入交叉熵，真實分佈p，通過語言模型生成的sentence，可以看作預測得到分佈為m，那麼交叉熵：

根據，交叉熵的值越小，我們預測得到的分佈也就越接近真實分佈。

這裡因為訓練樣本已經給出，也就是p是定值，故可寫成：

有了上面的知識，接下來理解困惑度就很容易了～

基於語言模型的困惑度perplexity可定義為交叉熵的指數形式：

可以看到perplexity和交叉熵一樣都可以用來評價語言模型的好壞。對於測試集其困惑度越小,準確率也就越高，語言模型也就越好～

前面的回答都很優秀，但我想基於我的理解做個補充。

困惑度 Perplexity 是衡量語言模型好壞的指標，為了更好地理解其意義，首先有必要回顧熵的概念。根據資訊理論與編碼的知識，我們知道 熵代表著根據信息的概率分佈對其編碼所需要的最短平均編碼長度。

Entropy

假設離散隨機變數概率分佈為

離散隨機變數概率分佈為

則根據離散隨機變數熵的計算公式可計算得

也就是說如果需要對離散隨機變數、、進行編碼，編碼長度分別為 0 bits、1.5 bits 和 2 bits。而編碼長度表示隨機變數能夠呈現出的等可能性的狀態數（就隨機變數而言就是取值個數，這種表述並不嚴謹，只是為了方便下文敘述）：隨機變數呈現出的狀態數為種；隨機變數呈現出的狀態數為種；隨機變數呈現出的狀態數為種。

2. Entropy Rate

對於索引可數的隨機過程，其熵率定義為：

對於獨立同分布的序列，各隨機變數的熵相等，則顯然有：

所以熵率依其定義可粗略地類比於隨機過程中 per-random_variable entropy。比如，考慮這樣一臺打字機，假設可輸出個等可能的符號。因此打字機可產生長度為的共個序列，並且都等可能出現。那麼對於該印表機， bits/symbol。

3. "Entropy of Language"

在語言模型中，對於語言中的長度為的單詞序列，單詞序列的熵的計算公式為

那麼在單詞序列熵的基礎上，根據熵率的定義，可粗略的定義 per-word entropy：

而若將語言視作隨機過程，則有：

而對上式又可作如下近似（摘自 Speech and Language Processing 3rd ed. draft）：

The Shannon-McMillan-Breiman theorem (Algoet and Cover 1988, Cover and Thomas 1991) states that if the language is regular in certain ways (to be exact, if it is both stationary and ergodic)
To summarize, by making some incorrect but convenient simplifying assumptions, we can compute the entropy of some stochastic process by taking a very long sample of the output and computing its average log probability.

4. Cross Entropy

當我們用概率分佈來近似真實的未知分佈時，可利用交叉熵來衡量近似分佈的性能好壞。在語言模型的應用場景下，語言（仍視作隨機過程）的交叉熵表達式如下所示，其中表示真實的語言模型，表示根據訓練語料學習得到的語言模型：

根據 Shannon-McMillan-Breiman theorem，可近似得：

在實際應用中，單詞序列一般都足夠長，又可作如下近似表示：

注意交叉熵是真實分佈的上界，，也因此在模型訓練時經常把交叉熵當作損失函數進行優化，以逼近真實分佈。

5. Perplexity

從訓練語料中學習得到語言模型分佈後，可以計算 perplexity 衡量其好壞。假設測試語料為，測試語料中的每一語句為單詞序列，則：

log-likelihood
per-word log-likelihood
per-word cross entropy
perplexity

其中即為語言模型。

6. Summary

就可認為是根據訓練語料學習得到的語言模型的交叉熵，而這一般也是在訓練語言模型時的損失函數。而對於 perplexity 即 ，從編碼長度的角度來理解，就可認為是在語言模型下，等可能性的輸出結果的個數。所以在給定輸入的前面若干辭彙即給定歷史信息後，當然語言模型等可能性輸出的結果個數越少越好，越少表示模型就越知道對給定的歷史信息 ，應該給出什麼樣的輸出 ，即 perplexity 越小，表示語言模型越好。

在學習語言模型時最常見的一個例子是隨機語言模型，即每次等可能性地輸出辭彙表中的任意辭彙。顯然這與前面印表機的例子相同，因此隨機語言模型的 perplexity 為。

P.S. 關於 perplexity，更常見的表述如下，所有表述方式實質上是等價的：

假設測試語料共包括個句子，第個句子有個字，則有

對測試語料中的每一個句子，若越大，則說明語言模型在測試語料上的表現越好。即相當於下式
而 perplexity 定義為

一、語言模型

本文盡量通俗解釋一下困惑度的概念。既然題目中寫了是用來評價語言模型的好壞，那麼首先來看一下語言模型：憶臻：深入淺出講解語言模型?

zhuanlan.zhihu.com

簡單地說，語言模型就是用來計算一個句子的概率的模型，也就是判斷一句話是否是人話的概率？

那麼如何計算一個句子的概率呢？給定句子（詞語序列）

它的概率可以表示為：

也就是說在給定一句話的前k個詞，我們希望語言模型可以預測第k+1個詞是什麼，即給出一個第k+1個詞可能出現的概率的分佈p(xk+1|x1x2...xk)。

那麼如何學習到一個語言模型呢，這裡不詳細敘述，可以參考：憶臻：深入淺出講解語言模型?

zhuanlan.zhihu.com

二、如何評價一個語言模型好壞

在得到不同的語言模型（一元語言模型、二元語言模型....）的時候，我們如何判斷一個語言模型是否好還是壞，一般有兩種方法：1、一種方法將其應用到具體的問題當中，比如機器翻譯、speech recognition、spelling corrector等。然後看這個語言模型在這些任務中的表現（extrinsic evaluation，or in-vivo evaluation）。但是，這種方法一方面難以操作，另一方面可能非常耗時，可能跑一個evaluation需要大量時間，費時難操作。2、針對第一種方法的缺點，大家想是否可以根據與語言模型自身的一些特性，來設計一種簡單易行，而又行之有效的評測指標。於是，人們就發明瞭perplexity這個指標。困惑度（perplexity）的基本思想是：給測試集的句子賦予較高概率值的語言模型較好,當語言模型訓練完之後，測試集中的句子都是正常的句子，那麼訓練好的模型就是在測試集上的概率越高越好，公式如下：