台湾 || 语言: 大陆简体港澳繁體台灣正體

Word2vec 翻译到另一种语言，其向量空间之间的映射会不会是线性的？

雪花台湾 2020-12-28 22:26

例如从英文到中文的翻译。
Word1 = 英文
Word2, Word2 = 中文
= translate word from English to Chinese
= representation schemes (eg, word2vec)

= mapping between word-vector spaces
～表示这两个字是类似的，其向量位置应该是近似的。

问：会不会是（近似）线性的？
（如何写代码验证？）

没有完全理解题主想要问什么，如果使用同样的mapping（脱离上下文），那源端语言的一个单词怎样得到目标端语言的不同单词。

你所说的语言之间的映射，取决于语言之间的相似程度，大部分时候都不是线性的。直观上来说，很多中文/英文词都没有对应的翻译，说明他们在各自的语义空间里的分布是不完全相似的（比如，presentation就很难找一个贴切的中文翻译）。但是用线性关系去近似不同语言之间的embedding是比较方便的，同时，虽然整个embedding space可能没有线性映射关系，但是不妨碍局部存在线性映射（e.g. anchor words）。

比如Adversarial Training for Unsupervised Bilingual Lexicon Induction 里的猫马猪（英西）

相关文章