編者按:在日常生活中,我們時時刻刻都在從外界接受和向外界傳達著各種信息,語音信息則是其中重要的一部分。在語音領域中,人的語音通常被定義為人的發音器官所發出的、帶有一定實際含義的聲音,也常常被研究者認為是語言的發音符號。音頻信號的處理在人工智慧和機器學習領域研究中具有很重要的地位。人類語音中含有各類豐富的信息,既有豐富的說話人個性信息和發音的內容信息,也有錄製環境的雜訊信息、信道信息等等。本文節選汪德嘉博士《身份危機》一書中聲紋識別技術章節,帶大家瞭解聲紋識別是什麼?有哪些應用領域?

聲紋其實就是對語音中所蘊含的、能表徵和標識說話人的語音特徵,以及基於這些特徵(參數)所建立的語音模型的總稱,而聲紋識別是根據待識別語音的聲紋特徵識別該段語音所對應的說話人的過程。與指紋類似,每個人在說話過程中所蘊含的語音特徵和發音習慣幾乎是獨一無二的,就算被模仿,也改變不了話者最本質的發音特性和聲道特徵。有相關科學研究表明,聲紋具有特定性和穩定性等特點,尤其在成年之後,可以在相對長的時間裡保持相對穩定不變。

聲紋是一種行為特徵,由於每個人在講話時使用的發聲器官如舌頭、牙齒、口腔、聲帶、肺、鼻腔等在尺寸和形態方面有所差異,以及年齡、性格、語言習慣等多種原因,加之發音容量大小和發音頻率不同,在發音時千姿百態,因而導致這些器官發出的聲音必然有著各自的特點。可以說任何2個人的聲紋圖譜都不盡相同。聲紋識別技術又稱說話人識別技術,就是基於這些信息來探索人類身份的一種生物特徵識別技術。這種技術基於語音中所包含的說話人特有的個性信息,利用計算機以及現在的信息識別技術,自動地鑒別當前語音對應的說話人身份。聲紋識別與語音識別不同,聲紋識別的過程是試圖找到區別每個人的個性特徵,而語音識別則是側重於對話者所表述的內容進行區分。在實際應用中往往把語音識別技術和聲紋識別技術結合起來應用,以提高聲紋身份認證系統的安全性能。

聲紋識別因其不涉及用戶隱私問題,往往用戶接受程度較高。另一方面聲紋的獲取可以說是最方便的,只需要一個麥克風或者電話和手機就可以採集用戶聲紋特徵信息,完成身份認證。這也使得聲紋識別技術可以方便地用來作為遠程身份確認技術。聲紋識別技術是基於人的聲紋不變性的,然而同一個人的聲音易於受到年齡、情緒、身體狀況等的影響,導致識別性能降低。另一方面,不同的麥克風和信道對識別性能都有不同程度的影響。環境雜訊和混合說話人情形也會對聲紋識別帶來較大的影響。

聲紋識別研究現狀

聲紋識別是指根據待識別語音的聲紋特徵識別該段語音所對應的說話人的過程。該研究最早始於20世紀30年代,當時研究者們主要通過觀察人類對語音的實際反應,研究人耳聽覺機理對說話人的辨識。進人20世紀下半葉,隨著生物信息和計算機信息技術的發展,通過計算機進行自動的聲紋識別成為可能。1945年,Bell實驗室的Kesta等人藉助肉眼觀察,成功實現了語譜圖匹配,首次提出了「聲紋」的概念;並於1962年首次提出採用此方法進行聲紋識別的可行性。Bell實驗室的Pruzanshy提出了基於模板匹配和統計方差分析的說話人識別方法,該方法引起了聲紋識別研究的高潮。

現代聲紋識別技術通常可以分為前端處理和建模測試階段。前端處理包括語音信號的預處理和語音信號的特徵提取。在聲紋識別系統的前端處理階段中,將語音信號看作短時平穩的序列,語音特徵提取的第1步是語音信號的分幀處理,並利用窗函數來減少由截斷處理導致的Gibbs效應;同時用預加重來提升高頻信息,壓縮語音的動態範圍,然後對每幀語音信號進行頻譜處理,得到各種不同的特徵參數。常用的特徵提取參數有線性預測倒譜係數(linear predictive cepstrum coefficient,LPCC)、感知線性預測係數(perceptual linear predictive,PLP)、梅爾倒譜係數(Mel frequency cepstrum coefficient,MFCC)等。

在聲紋測試之前,首先對多個聲紋信號經過特徵提取後進行訓練建模,形成一個表徵各個人的多複合聲紋模型庫。而聲紋測試的過程是將某段來自某個人的語音經過特徵提取後與多複合聲紋模型庫中的聲紋模型進行匹配,進而識別打分,這個階段可以判斷該段語音是來自於集內說話人還是集外說話人。如果是來自集內說話人則進行下一步的辨認或確認操作。對於聲紋辨認來說,是一個「一對多」的比較過程,即所提取的特徵參數要與多複合聲紋模型庫的每一個參考模型進行比較,並把與它分數最接近的參考模型所對應的說話人作為某段語音的發出者;而對於聲紋確認來說,則是將某段語音提取的特徵參數與特定的說話人的參考模型相比較,如果得出的分數大於預先規定的閾值則予以確認,否則予以拒絕。在聲紋識別中,不同模式的匹配方法的區別就在於說話人模型的表示以及模型匹配的方法。常用的識別方法可以分為模板匹配法、概率模型法、人工神經網路法等.其中概率模型法具有靈活性強、理論意義完整等特點,是目前聲紋識別中使用的主流匹配方法。

概率模型法有分段的高斯模型、高斯混合模型和隱馬爾可夫模型等,其中高斯混合模型和隱馬爾可夫模型是聲紋識別中2種最常使用的概率模型。高斯混合模型用多個高斯分佈的線性組合近似多維矢量的連續概率分佈,能較為有效地刻畫說話人特性。採用高斯混合模型的說話人識別系統有很高的識別率。在文本無關的說話人識別領域,高斯混合模型已經成為佔統治地位的主流方法。隱馬爾可夫模型可以描述語音隨時間變化的情況,在文本相關的說話人識別中能充分利用已知的文本信息,達到更高的識別率。

近年來,研究者提出一系列以高斯混合模型和通用背景模型(Gaussian mixture models universal background models,GMM-UBM)為基礎的聲紋識別建模方法,使得聲紋識別技術的性能顯著提高。前幾年美國國家標準技術局(American National Instituteof Standardsand Technology,NIST)組織的評測中高斯混合模型超矢量支持向量機、聯合因子分析等建模方法都以GMM-UBM系統為基礎,其中使用i-vector建模的聲紋識別技術性能最優,成為當前國內外研究的主流系統。此外,研究者針對說話人識別中存在的問題也有一些相關研究。基於F-ratio準則的頻帶區分性特徵演算法和基於性能驅動的頻帶彎折演算法,可以弱化聲紋特徵信息隨時間變化的因素。另外在基於短語音的聲紋識別中,研究者也提出一系列方法和相應對策。

聲紋識別的應用

聲紋識別技術早已在西方許多國家開始應用,如:1998年歐洲電信聯盟應用聲紋識別技術在電信與金融結合領域,完成了CAVE計劃;2004年美國最大的銀行自動出納機製造商NCR分部,開始試驗自動出納機的聲紋核實效果;同年5月美國加利福尼亞州BeepCard公司發明瞭一種帶有特殊安全功能的信用卡,這種信用卡只有在識別出主人的聲音後確認身份後才能正常操作;2006年,荷蘭的ABNAMRO銀行率先使用了美國VoiceVault的聲紋識別系統,藉助預先錄製的個人私密問題進行身份驗證。目前在國外,聲紋識別技術已經廣泛應用到軍事、國防、政府、金融等多個領域。

國內對聲紋識別技術的研究起步稍晚於國外,但經過國內研究人員的共同努力,聲紋識別技術在國內已經得到了較好的發展與應用。2011年中國建設銀行構建了基於說話人識別技術的聲紋電話銀行系統;2013年11月,廈門天聰公司與廈門公安局指揮中心合作,搭建廈門「110」報警聲紋採集與輔警系統。根據實際應用範疇,下文將從聲紋辨認和確認等方面詳細介紹聲紋識別技術的應用,並總結相關的行業及國家標準。

聲紋確認技術應用領域

隨著互聯網的快速發展,便捷的網上交易越來越受人們的青睞,因而遠程身份認證的安全性亟待加強。聲紋確認技術可以滿足網上交易、支付、遠程身份認證的安全性需要,並已逐漸廣泛應用於證券交易、銀行交易、個人設備聲控鎖、汽車聲控鎖、公安取證、信用卡識別等。

(1)網路支付

2014年中國互聯網支付用戶調研報告顯示,網上支付、手機支付、第三方支付已成為現代人購物付款的主流方式。顯然,網路支付的安全性應當重視起來,網路支付的身份認證也愈發重要。近年來,有相關媒體接二連三地報道支付寶被盜刷、網銀被轉出等案件。為了防止這類案件的再次發生,將聲紋確認技術加入到交易支付中,有效地提高了個人資金和交易支付的安全性。例如,荷蘭ABNAMRO銀行、澳大利亞國家銀行National藉助聲紋識別系統實現用戶身份認證;全球互聯網支付系統的領導者VoiceCommerceGroup也於2008年推出了基於聲紋識別的VoicePay服務。目前在國內,聲紋認證技術正在中國建設銀行等領域推廣使用。

(2)聲紋鎖控

據媒體報道,近幾年數以萬計的騰訊QQ用戶出現了賬號被盜取的情況。盜號者通過聯繫用戶的親朋好友進行金錢詐騙,給用戶及其親友帶來了嚴重的損失。為了避免這類事件再次發生,有必要將聲紋認證代替明文密碼認證。例如,微信已上線使用基於聲紋動態口令的登錄方式,極大提高了使用者賬號的安全性。隨著聲紋認證技術的成熟,相信聲紋控鎖技術將被廣泛地應用在各類賬戶聲控密碼鎖、電腦聲控鎖、汽車聲控鎖等領域中。

(3)生存認證

有關資料顯示,全國每年都有上萬人甚至更多的人冒領社保達數億元之多。為了防止養老金被冒領,進一步完善對養老保險金的管理和監督,社保局可通過預裝聲紋身份認證系統,再結合人工輔助手段,對領養老金者進行現場身份認證或當本人無法親臨現場時可通過電話進行遠程身份確認,有效地阻止國家社保養老金的流失,提高社保服務機構工作的準確性和安全性。與其他生物認證技術相比,聲紋認證技術具有更強的遠程操控性,可快捷靈活地應用於遠程身份認證中。

聲紋辨認技術應用領域

聲紋辨認技術通常廣泛應用於公安司法、軍隊國防領域中,如:刑偵破案、罪犯跟蹤、國防監聽等

1.監聽跟蹤

恐怖分子在作案前後通常會與組織、同夥保持聯繫,通訊中可能會包含關鍵內容。因此,在通信系統或安全監測系統中預先安裝聲紋辨認系統,可通過通訊跟蹤和聲紋辨別技術對罪犯進行預防和偵查追捕。據悉,拉登的落網正是美國情報部門充分利用了聲紋鑒別技術。此外,聲紋辨認技術還用於對滿刑釋放的犯罪嫌疑人進行監聽和跟蹤,可有效阻止犯罪嫌疑人再次犯科,也利於對其進行及時逮捕。

2.國防安全

聲紋辨認技術可以察覺電話交談過程中是否有關鍵說話人出現,繼而對交談內容進行跟蹤(戰場環境監聽);當通過電話發出軍事指令時,可以對發出命令者進行身份辨認(敵我指戰員鑒別)。目前該技術在國外軍事方面已經有所應用。據報道,2001年4月1日迫降在我國海南機場的美軍EP一3偵察機就載有類似的聲紋識別偵聽模塊。

3.公安技偵

犯罪嫌疑人通過非法渠道到獲取受害者的個人信息,通過電話勒索、綁架等刑事犯罪案件時有發生。如:2015年9月21日,中國警察網新聞報道了一起電話「勒索消災費每天恐嚇數百名學生家長」的案件;2015年11月19日報道了富豪被綁架勒索的案件等。對於此類的刑事犯罪案件,公安司法人員可利用聲紋辨認技術,從通話語音中鎖定嫌疑犯人、減小刑偵範圍。在車站、飛機、碼頭等公共安檢點裝入聲紋辨認系統,可以有效對危險人物進行鑒別和提示,降低肉眼識別所帶來的錯誤,提高人們生命財產的安全性。

4、其他應用領域

除了上述相關應用領域,說話人檢測和追蹤技術也有著廣泛的應用。在含有多說話人的語音段中,如何高效準確地把目標說話人檢測標識出來有著十分重要的意義。例如,在現有音頻/視頻會議系統中,通常設有多麥克風陣列用以實時記錄會議中每一個說話人的講話。通過將說話人追蹤技術嵌入該會議系統,可實時標識每段語音所對應的說話人,實時追蹤「whospokewhen」。該技術廣泛應用於遠程會議中,方便會議紀要總結,有利於提高公司的工作效率。

聲紋識別行業及國家標準

為了使生物特徵識別技術得到更好的發展,國際標準化組織(International Organization for Standardization,ISO)對生物特徵識別的相關術語及其產業技術制訂了標準和規範,其中涵括了聲紋識別技術。我國國家標準和相關行業權威部門也針對聲紋識別技術制定了一系列的標準及規範,如:

(1)SJ/T11380—2008

由北京得意公司、清華大學智能技術與系統國家重點實驗室(語音與語言技術中心)和中國電子技術標準化研究所共同起草的《自動聲紋識別(說話人識別)技術規範》(SJ/T11380—2008)於2008年3月11日正式頒布實施,該標準的內容主要包括聲紋識別(說話人識別)的術語與定義、數據交換格式和應用編程介面,適用於各種計算機、網路和智能設備的聲紋識別系統。該標準是我國第1個關於聲紋識別(說話人識別)的標準,其頒布很好地推動和規範了我國的聲紋識別產業的發展。

(2)GA/T893—2010

由清華大學、中國科學院自動化研究所、中國科學院計算技術研究所等單位共同起草的《安防生物特徵識別應用術語》(GA/T893—2010)標準於2010年12月1日起實施,該標準規範化了生物特徵識別技術通用術語,其中包括聲紋識別專用術語的定義規範。該標準的頒布實施給生物特徵識別技術的研究帶來了方便,同時也避免了研究人員因濫用自定義術語而對技術研究造成不良影響。

(3)GA/T1179—2014

2014年9月19日,由全國安防標委會人體生物特徵識別應用分技術委員會正式發出公告,《安防聲紋確認應用演算法技術要求和測試方法》(GA/T1179—2014)標準已通過審覈批准予以頒布,並於2014年10月1日開始實施。該標準是由清華大學語音和技術中心和北京得意公司為主要單位共同起草的。該標準首次提出聲紋識別安全分級的概念。它的頒布在一定程度上促進了國內聲紋技術在安防行業的發展應用。

此外,全國信息標準化委員會生物特徵識別分技術委員會(SAClTC281SC37)也設有生物特徵識別標準委員會,其生物特徵識別標準委員會也對生物特徵識別在其應用領域提供了一些標準。這將對生物特徵識別技術的發展起到推動性的作用。然而,目前這些標準對於生物特徵識別行業的發展還是遠遠不夠的,更多更精細的標準有待制定,以此滿足生物特徵識別技術和產業的發展。

聲紋識別系統技術原理

聲紋識別系統主要是由預處理、特徵提取、建模、模式匹配及系統判別等構成。聲紋識別系統原理圖(見圖9-3)。

圖9-3 聲紋識別系統原理圖

1. 預處理

對語音信號進行採樣之前,必須對語音信號進行預濾潑,以防止輸入信號中頻率超過f/2的分量引起混疊和50Hz的電源工頻幹擾。對麥克風輸入的語音信號進行量化和採樣,經去噪處理後,將得到的乾淨信號進行預加重處理,從而提升高頻部分的幅度,使得信號變的平坦,以便於頻譜分析或是聲道參數分析。

由於語音信號是時變信號,但可以認為在短時間內是時不變的。所以在語音信號進行處理前必須進行分,就是利用窗函數來截取語音信號中的一段。為了保持幀與幀之間的連貫性。經常採用交疊分段的方法。對於採樣頻率為8kHz的語音信號,通常採用32ms為幀長,而幀移通常為16ms-20ms之間。為了從背景語音中提取語音信號的有聲段,系統對每一幀採用了短時能量和短時過零率」一相結合的方法進行短點檢測。

2. 特徵提取

目前主流的聲紋特徵參數有LPC以及基於mel頻率的倒譜係數(meI-frequency

cepSlral coefficients,簡稱MFCC)。在實驗中證明,MFCC是目前聲紋特徵中識別率最高的一種,在本系統中,聲紋特徵採用12維靜態MFCC參數和一階12維動態MFCC參數的組合。

美爾倒譜頻譜分析與普通的頻譜分析不同,它是一種與人耳聽覺特性相關的譜分析。人耳所能聽到的聲音的高低與聲音的頻率並不是線性關係,而用meI頻率尺度更符合人耳的聽覺特性。

根據臨界頻帶的劃分,可以將語音頻率劃分成一系列三角形的濾波器序列,即mel濾波器組。取每個三角形的濾波器頻率帶寬內所有信號的幅度加權和作為這個濾波器的輸出,然後在對輸出結果作對數運算,再進一步作離散餘弦變換(DCT)即得到MFCC參數。美爾倒譜係數是按幀來計算的。每一幀提取12維靜態特徵參數和一階動態特徵參數。

3. 基於高斯混合模型的聲紋認證

高斯混合模型(Gaussian Mixture Model)作為目前在聲紋認證系統設計中的一種模式識別方法,已經被廣泛地應用於文本相關和文本無關的聲紋識別中。GMM是以統計學中的高斯隨機概率分佈為基礎,用概率密度函數來表徵每個人的聲紋特徵在特徵空聞的分佈。目前在聲紋識別中,GMM模型是識別率非常高的模型之一。

高斯混合模型用M個多位高斯分佈加權得到,它描述了語音特徵信號在特徵空間的分佈。訓練時利用語音特徵來訓練成它對應的GMM模型,識別時將最能夠產生測試語音特徵的說話人模型對應的說話人來作為識別結果。

在高斯聲紋識別系統中,每一個語者的說話人個性特徵都是用GMM模型來描述的。當給定了某個語者的訓練語音,並且提取了語者語音的MFCC特徵後,通過這些特徵來建立說話人GMM模型,也就是重估GMM模型參數。比較經典的GMM模型訓練演算法是EM(expectation—maximization)演算法,而在模型初始值方面,本文提出了一種基於遺傳演算法的蟻羣聚類新演算法。並與k-means演算法進行了對比。實驗證明,這種演算法能夠獲得更優的識別效果。

4. 說話人鑒別

說話人鑒別是提取說話人語音的MFCC特徵,根據後驗概率演算法把說話人模型與說話人的語音進行模型比對。如果有與說話人語音相匹配的的模型,則接受,並把相匹配模型的語者來作為識別結果輸出,反之,則拒絕。

聲紋識別身份認證技術

為了保證認證的安全性,一般從以下兩個方面考慮:首先,為了保障信息傳輸安全性方面,採用高強度的3DES演算法代替傳統的DES演算法,密鑰長度達168比特;其次,為了保障信息安全性、完整性以及可靠性方面綜合使用了數字簽名以及聲紋認證技術。當用戶(交易雙方)向銀行(這裡銀行視為第三方)申請在線支付業務,並且向銀行索取數字簽名密鑰對時。為了確保交易的安全性,銀行方可以採用聲紋的方式對用戶進行合法性驗證。

(1) 用戶啟動終端業務軟體,由業務軟體隨機的生成一個3DES密鑰,與此同時利用相應的設備、演算法等採集並且提取出聲紋特徵;

(2) 這時用戶終端再使用銀行方的RSA公鑰把3DES密鑰及聲紋特徵進行加密處理,把所得密文經互聯網傳輸給銀行,銀行收到密文後使用自己的RSA私鑰進行解密,從而獲得用戶的聲紋特徵和3DES密鑰;

(3) 銀行把用戶的聲紋信息與其內部聲紋庫記錄進行匹配,驗證用戶的合法身份;如果驗證是合法用戶,取出用戶的數字信封/數字簽名私鑰,並且使用用戶傳遞過來的3DES密鑰加密,進而回送給用戶端;

(4) 用戶收到密文後使用自己的3DES密鑰解密,從而得到兩把私鑰。

採用這種認證技術有兩個優點:密鑰對是隨機產生的每次都是不一樣的,所以這樣就避免了密鑰被竊取的可能;聲紋特徵及3DES密鑰使用的加密密鑰銀行端也是隨機的產生的,這樣就防止了黑客的攻擊,而非法的獲得銀行的信任。

結束:聲紋識別技術發展較為成熟,識別準確率也相對較高,是目前應用最為廣泛、技術水平最為成熟的生物識別技術之一。聲紋識別技術因其經濟性、可操作性等優勢,在將來會在更多的領域中、獲得更為廣泛的應用。因其自身的特殊性,聲紋識別是唯一符合密碼認證機制的生物特徵識別技術,換成通俗易懂的話語來說,就是讓你的聲音與你的密碼無縫結合。

身份認證是支持許多信息安全和合規性功能的基本服務。它對於授權和審計服務來說至關重要。在智能時代,單因子身份認證方式存在極高的安全風險,因此,顯性因子與隱性因子相結合的多因子身份認證的優勢得以凸顯,攻擊者即使破解單一因子(如口令、人臉),用戶的身份認證安全依然可以得到保障。在接下來的文章中將為大家介紹多因子身份認證技術及應用場景,敬請期待!

推薦閱讀:

相關文章