近日,中國人民銀行正式發布實施了《移動金融基於聲紋識別的安全應用技術規範(標準編號:JR/T 0164-2018)》(以下簡稱「標準」),2018年10月9日發布並實施,本標準由人行主導,聯合國內各大銀行及金融公司共同制定,這是我國金融行業聲紋識別應用的第一個技術標準,也表明聲紋識別技術得到了金融行業的認可,為聲紋識別技術在金融行業的應用明確了技術規範。

標準全文主要明確了聲紋識別功能、性能、安全三方面的要求:

  • 功能要求:明確了聲紋註冊、聲紋驗證、聲紋變更及聲紋註銷的功能要求,中規中矩,都是聲紋識別的常規流程;
  • 性能要求:這裡所明確的錯誤接受率FAR和錯誤拒絕率FRR是本標準中重點,是聲紋識別演算法的準確率的定量標準,下面我們再詳細來看看這兩個指標;另外,性能要求中還提到演算法的魯棒性,抗噪音能力和抗時變能力,標準中只是定性描述,並非定量,有就可以,但具體的標準細節是怎樣,並沒有明確,先解決有無問題再來談優劣;
  • 安全要求:兩個重點,一個是動態密碼,用於防止錄音攻擊;另一個是防攻擊能力,提到四種假冒攻擊方式,防語音模仿、防語音轉換及合成、防錄音欺詐、防錄音拼接欺詐,除了防語音模仿外,其餘三種都可以認為是防錄音攻擊,因為聲音都需要播放出來。這裡也只是定性,沒有定量,比如防錄音攻擊的準確率並沒有明確,呵呵,先解決有無吧。

從上述三方面標準來看,大部分都是定性標準,定量的不多,不過也可以理解,聲紋識別作為前沿技術,用戶的培育及標準的完善都需要一個過程,而且制定者中還有做聲紋識別的科技公司,誰也不想在這裡給自己挖坑,萬一坑刨深了自己也爬不出來,那就很尷尬了!

我們再深入看看標準的一些細節:

一、關於標準本身

本標準全名為《移動金融基於聲紋識別的安全應用技術規範(標準編號:JR/T 0164-2018)》,大家可能不知道JR/T是代表什麼,JR就是金融的拼音首字母,T就是推薦的「推」的拼音首字母, T並非技術Technical英文的首字母,我大中華標準編號怎能用外文呢。另外,標準還定義了應用場景,即移動金融場景,這裡潛在的一個信息就是聲音的採樣率是16KHz或以上,像採用8KHz採樣率的電話或網路電話VoIP場景則不適用,畢竟處理採樣率16KHz的聲音比8KHz要容易得多。因此,從這個標準名稱中可以得出三個信息:

  1. 本標準適用於金融行業;
  2. 本標準為推薦標準,並非強制標準;
  3. 本標準只適用在移動金融場景,即16KHz採樣率的場景,8KHz採樣率的電話或網路電話VoIP場景並未覆蓋。

二、關於錯誤接受率FAR和錯誤拒絕率FRR

這兩個指標是聲紋識別演算法的核心指標,用於表明演算法的準確性,標準6.1中明確錯誤接受率FAR≤0.5%,錯誤拒絕率FRR≤3%,意思是當誤識率為千分之五時,誤拒率為百分三,也就是1000人嘗試進入你的銀行賬戶時,可能就有5人被誤認為是你本人而進入賬戶,而你本人嘗試登錄自己賬戶100次,就有3次會被拒絕,即驗證通過率為97%。FAR是安全性指標,此值越小表明安全性越高,FRR是易用性指標,此值越小表明用戶體驗越好,這兩者的取值是一個平衡考量,在金融行業中,安全性當然是優先考慮的,但考慮到商用,易用性也不能不考慮,在保證安全性的前提下,盡量提升用戶體驗。下圖就是FAR和FRR的曲線:(參考:zhuanlan.zhihu.com/p/33

那究竟這兩個指標是處於怎樣的一個水平呢?是嚴格,還是寬鬆?是否代表了聲紋識別業界的水平呢?這兩個指標有一個前提,那就是採用數字/字母文本,即半固定文本,而非自由文本模式,自由文本模式下性能指標會有所降低。所以,更嚴謹一點的說法應該是讀數字/字母文本,16KHZ採樣率下,1:1應用,FAR≤0.5%,FRR≤3%是怎樣的一個性能水平?我們從兩方面去分析對比一下:

  1. 橫向對比,聲紋識別和指紋識別、人臉識別都同屬於生物識別技術,我們來對比一下人臉識別的技術指標,雖然金融行業還沒有出台人臉識別的標準,一般業界共識的人臉識別性能是FAR≤0.01%,FRR≤3%,即萬分一的誤識率下,通過率為97%。按此標準來看,人行這個聲紋標準確實是非常寬鬆,萬分之一和千分之五的誤識率差的不是一點點,當然由於技術不同,不能這樣直接對比,只能做個參考,也有一些其它原因,畢竟坑不能刨得太深;
  2. 同行對比,按標準的前提,數字文本、16KHz採樣、1:1應用,用大量數據進行實測,得出ROC曲線如下所示:

按人行標準定義,假設FAR=0.5%,從曲線可以得出FRR=0.3%;假設FRR=3%,則FAR=0.01%。實測結果也是遠好於人行的標準。由此可見,人行定義的FAR/FRR標準也相對友好,畢竟聲紋識別的應用並非只看這兩個指標,還有系統指標及產品化程度等考量。

三、關於聲紋庫的建立

這是聲紋應用的前提,大家都很關心聲紋庫怎樣建立,因為聲紋不像人臉那樣有公安部的標準庫,所以也只能自己先建立聲紋庫。這也是為什麼人臉應用比聲紋更快的原因之一。

標準5.1中要求在聲紋註冊前需對用戶身份進行認證,即必須先確定用戶身份,再進行聲紋採集建庫。至於用什麼方式,是遠程方式還是現場核身,這裡也就不關心了,只要能確定是用戶本人身份的認證方式都可以。一般來說,無非是關聯認證和現場核身兩種方式,關聯認證是通過身份證、銀行卡等已認證過的信息來進行二次身份確認,當然最保險的還是現場核身,兩種方式各有優劣,需要結合具體的業務場景來考慮。

標準聲紋庫的建設也是大勢所趨,可預期在第三代公民身份上增加聲紋信息的採集。

四、關於聲音的活體檢測

聲音的活體檢測,即檢測聲音是否為真人發出的聲音,還是通過其它手段播放出來的聲音,以防止通過假冒聲音的方式來騙過驗證系統,此功能對於聲音識別的安全性非常重要,而且必須作為基本功能存在。

標準中從產品設計層面和演算法層面對假冒攻擊進行了定性描述,標準5.2聲紋驗證中要求驗證時使用動態密碼,且有效期不超過120秒;標準7.4.2明確了防攻擊能力,提到四種假冒攻擊方式,防語音模仿、防語音轉換及合成、防錄音欺詐、防錄音拼接欺詐,除了防語音模仿外,其餘三種都可以認為是防錄音攻擊,因為聲音都需要播放出來。都是定性的描述,沒有定量指標。(參考:zhuanlan.zhihu.com/p/40zhuanlan.zhihu.com/p/37

五、關於語音信息質量判斷

語音信息質量即語音數據的好壞,一般包括信噪比、音量大小、有效時長等指標,語音質量的好壞對識別效果的影響非常大,當測試數據集的質量不一樣時,測試結果FAR/FRR也會相差很遠。標準6.5中描述了語音信息質量,提出應用具有語音信息質量判斷的能力,包括但不限於截幅比例、信噪比、完整程度。此處對語音質量進行了定性確定,沒有更量化的指標,當然這些量化指標確實不好給出。

六、關於註冊和驗證的語音時長

標準6.3中明確,聲紋註冊時有效語音長度≥5000ms,聲紋驗證時有效語音長度≥1000ms,所以,聲紋註冊時讀8個數字,讀3組,有效時長約5秒,聲紋驗證時讀1組8個數字,有效時長約為1秒,這也是最常用的應用模式。

總結

本次發布的聲紋識別技術規範,從功能、性能及安全三方面進行了定性和定量的規範,雖然大部分都是定性的描述,且只針對移動場景進行了約束,但也為聲紋識別技術在金融的應用確立了標準,往前邁出了一大步。作為對安全性要求極高的金融行業發布了聲紋識別的技術規範,釋放出了一個非常積極的信號,表明了金融行業對聲紋識別技術價值的認可,相信聲紋識別技術的應用會越來越廣泛。

作者:Micos,昵稱:不知道,在人工智慧浪潮中推波助瀾的產品經理,致力於用智能語音實現人與機器最自然的交互方式。

推薦閱讀:

相关文章