【答疑解惑III】说说高斯过程中的多维输入和多维输出

这节我们来说一说最近各种小伙伴们最常问到的两个问题：

「如果我的数据的输入是多维的，我改如何选择应用高斯过程模型呢？「

「我需要考虑做两个相关变数的整体预测，我应该如何使用高斯过程模型呢？「

首先，让我们来明确一下概念，以保证大家说的是同一回事哦！

输入（input）和输出（output）：这个概念相信大多数小伙伴还是知道的吧，所谓输入就好比一个机器，你打算扔点什么东西进去，所谓输出就是你希望它可以吐出来点什么。

多维输入：这里有不少同义词，比如multi-input，multiple-input， multi-dimensional input等等，这些词语描述的都是一种input，也就是每一个输入点有多个属性（当然也包括多个量被考虑成为多个属性的情况）。

「好抽象呀！！！「

好吧，举个例子来说吧，如果我们用今天的上证指数去推断预测明天的中石化的收盘价，那么这里上证指数就是刚才说的输入，中石化的收盘价就是输出，由于这里只有上证指数一个输入，所以这里就是单数输入的模型，同理这也是单一输出的模型，因为只有中石化一个公司。还是刚才那个例子，如果我们用上证指数和上证成交量一起去推断预测明天的中石化收盘价，那么这就是多输入了啦，因为我们用到了前一天的成交信息，这个里的成交信息包括连个属性量，一个是指数，一个是成交量。

多维输出：当然这里更多的同义词，比如multi-output，multiple-output，multiple task, dependent output, correlated output. 所谓多维输出就是指最后我们的目标量有多个。

这里或许你会有疑问，目标量有多个的话，我们就不能一个一个考虑么？

即用所谓的输入，得到一个输出，然后在用一摸一样的输入，再建模得到另一个输出，这样不可以么？

可以呀，当然可以，只不过如此操作默认了一个事实：

「各个输出之间的是不相关的！「

这也就是解释了为什么多维输出的情况的又被经常称作是dependent output， correlated output，因为这些模型是直接考虑多输出的，即考虑其中的各个输出之间的相关性的。

如果我们试图用上证指数去一起推断预测，中石化和中石油两个股票的收盘情况，那么这个就是多输出的模型，也就是说需要考虑中石化和中石油之间相对较高的相关性。

好啦，稍稍解释完这些之后，我们来说说多输入和多输出的高斯过程吧。

事实上，对于多输入的情况，高斯过程本身就是支持的哦，回忆一下我们之前有关高斯过程这个随机过程的定义：高斯过程可以由一个mean function和一个kernel所确定

蓦风星吟：什么是Gaussian process? —— 说说高斯过程与高斯分布的关系?

zhuanlan.zhihu.com