Mozilla昨日發布了語音識別數據集,稱為Common Voice。該數據集由18種不同的語言(包括英語,法語,德語,普通話,威爾士語,卡比爾等)組成,並增加了來自42,000多名貢獻者的約1,400小時錄製的語音片段。
從體量上來看它可以算的上是同類項目中最大的多語言數據集之一,對比之前發布的 Common Voice 語料庫數據集,20,000 個人的近 40 萬個錄音(500小時語音數據),其提升效果也是十分顯著。
當然這也得益於Mozilla從18年6月宣佈為了使Common Voice更具全球性和包容性。使用多語言支持,通過 Common Voice 網站和移動應用,短短8個月從22種語言開展數據收集到目前共有70多個語言的數據收集工作正在進行中。
語音技術對於人工智慧的重要性不言而喻,但無奈的是,目前語音技術資源的話語權卻牢牢的掌握在大型科技公司。
首先目前行業內普遍認為語音將成為下一個重要的技術平臺,近年來隨著人工智慧理論與技術的迅猛發展,語音識別技術在不斷突破,通過語音助手如 Alexa、Google Assistant、Siri 和 Cortana,各公司將收集到的用戶語音數據歸為公司自己所有。
其次這些數據的價值或許目前很難被外界看出來,但是在信息化高度發達,特別是今天這樣一個大數據和人工智慧時代,為開發機器學習模型提供語音數據集怎麼看都是一件有深遠意義的事,這些語音數據的意義會慢慢體現。而最終當它們的價值逐漸顯現,人們會發現在這背後亞馬遜、谷歌、蘋果和微軟等公司已經牢牢鎖住了語音技術的命門,主導了這場語音市場之爭。
基於此Common Voice 項目就是為了避免這樣的事情而誕生的,它的目的是將收集到的語音數據集開源給公眾,使得任何人都可以自由使用這些數據集來將語音識別技術智能地構建到各種應用程序和服務中。
Mozilla 首席創新官 Katharina Borchert表示:希望用戶使用自己的語言甚至方言的時候是可以被機器理解的,但是我們相信這些技術上的介面不應該由少數幾家公司控制,他們不能像守門員一樣來完全把控語音服務。
Common Voice 項目的意義與用於打擊私人平臺的開放許可證項目類似,OpenStreetMap 就是一個很好的例子。OpenStreetMap 為開發者提供了開放且可自由使用的世界地圖,使得開發商不再需要依賴於 Google Maps 這樣的競爭對手,不僅降低了成本開銷,技術上也不再受到限制。
總之,雖說目前Common Voice相較於其他語音數據集還略有不足,比如在數量上,但是其綜合多樣性、豐富性和質量方面都遙遙領先,但這也給了我們一個想像空間,未來隨著時間的推移,其語料庫的不斷增加,Common Voice的影響力也會與日俱增,到時候將會被全世界更大範圍內的開發者們所關注並受益。
或許正如Mozilla所設想:未來語音技術的民主化不僅會降低全球創新的障礙,也會讓人們獲取信息更加便捷。
———————————————————————————————
地址:
https://blog.mozilla.org/blog/2019/02/28/sharing-our-common-voices-mozilla-releases-the-largest-to-date-public-domain-transcribed-voice-dataset/
——————————————————————————————————
結尾福利放送,整理的2018/2019/校招/春招/秋招/自然語言處理/深度學習/機器學習知識要點及面試筆記,送給急需提升的朋友,希望在明年春招來臨的時候能助你一臂之力。(關注公眾號語音雜談並回復GH就能獲得所有資料)
再送你們一個語音技術開發者神器,希爾貝殼開源了1000小時中文語音資料庫,助你打開你的語音識別的大門。
推薦閱讀: