台湾 || 语言: 大陆简体港澳繁體台灣正體

Word2vec 翻譯到另一種語言，其向量空間之間的映射會不會是線性的？

雪花臺灣 2020-12-28 22:26

例如從英文到中文的翻譯。
Word1 = 英文
Word2, Word2 = 中文
= translate word from English to Chinese
= representation schemes (eg, word2vec)

= mapping between word-vector spaces
～表示這兩個字是類似的，其向量位置應該是近似的。

問：會不會是（近似）線性的？
（如何寫代碼驗證？）

沒有完全理解題主想要問什麼，如果使用同樣的mapping（脫離上下文），那源端語言的一個單詞怎樣得到目標端語言的不同單詞。

你所說的語言之間的映射，取決於語言之間的相似程度，大部分時候都不是線性的。直觀上來說，很多中文/英文詞都沒有對應的翻譯，說明他們在各自的語義空間裏的分佈是不完全相似的（比如，presentation就很難找一個貼切的中文翻譯）。但是用線性關係去近似不同語言之間的embedding是比較方便的，同時，雖然整個embedding space可能沒有線性映射關係，但是不妨礙局部存在線性映射（e.g. anchor words）。

比如Adversarial Training for Unsupervised Bilingual Lexicon Induction 裏的貓馬豬（英西）

相關文章