演算法能解决虚假新闻的问题吗？

如题欢迎讨论

很巧，刚参加了下半年中科院举办的假新闻识别大赛，算是有点心得体会吧。主流方法肯定是用机器学习演算法处理，但是这对数据要求其实蛮高的。最后颁奖典礼上嘉宾也深入讨论了一些问题，比如虚假新闻到底如何定义？客观发生的事件是真的，那断章取义之后的新闻算真还是假？对事件的（片面）评论算真还是假？现场有新闻从业者回答说主要基于一些规则判断，我听下来感觉分辨的界限也比较模糊，所以这个问题其实没有那么理想，对于开放数据没那么有效。一个直接的原因，文本处理主要是对宏观语意的理解，我稍改动细节能明显把新闻变成假的，但模型且无法分辨。例如，「某厂离职员工被拘留251天」是真新闻，我们能很容易知道「某厂离职员工被拘2510天/3650天/20年/50年」是假新闻，但模型对于数字没那么敏感，它认为前者和后者语意差不多，同时，很多对于事件不了解的人也分不清数字的真假，这也是假新闻难以区别的原因。另外，现在对抗生成技术的发展，也是使得造假能力提升，更难以区别。

当然现在也有很多研究者在努力解决，我的观点是，演算法很难彻底解决这个问题，最终决定魔高还是道高的是成本而非演算法。

这个问题分为两部分，一个是假新闻的问题，一个是能不能的问题。

首先来说能不能的问题，答案是能。但是，不要把ML、大数据当做全知全能的机器，带入先验去定义和解决问题。这个问题看上去和垃圾邮件识别如出一辙。但这里不能用TF-IDF去依靠关键词判断这么简单的问题。

引用一位大佬的话就是说万物皆可embedding。也许和常规的nlp一样，就是在于以什么作为数据，去判断真伪的可能性。不过是基于个人观察、案例和类比去设定的vector了。

然而其中有一个问题就是：弱AI是没有正常水平的独立思考能力的，要想识别真假，我想大多数人的角度都是基于已有的知识，结合新闻中的论点和论据进行逻辑思考。但这仅限于科学方面能证明的逻辑性问题。比如：人需要水，树需要水，所以小明是棵树。而现在连这点还做不到。现在的水平是基于数据的基础之上，一件形似的事件通过某种潜在规律发生n次，在对其数据分布「统计」的情况下，其中k次为真，n-k次为假，从而预测下一件事类比该分布或微调该分布，得出来predict的True or False，你可以将信息的来源平台、有关键词文章的AP、关键词词向量接近的value以及赞、评论等作为自变数。

比如今日一科学家发现，距地球147.25光年外有一颗类地行星，呈正十二面体。

假设我们在分词的基础上，将每个部分都作为搜索条件去匹配相关内容，我们大致可以得到这几个栏位：距地球147.25光年外有一颗类地行星、类地行星呈正十二面体。（我相信绝大多百科不会写类地行星是什么形状的）

那么我们提取的判断对象就是：147.25光年外早就应该勘探过了，类地行星与地球的词向量相似，根据百科也证明性质如此，那么就变成地球呈正十二面体，显然这个打分就不会高了。

这是一个相当理想的条件了。因为现阶段阅读理解要能有这么强对话机器人也能落地了……

虚假新闻本身很难定义，连人本身都很难去判别，想通过机器学习或者深度学习就更难了

可以，解决的方法有很多，简单点的像朴素贝叶斯，逻辑回归，svm等等，如果有看深度学习，rnn,cnn都是可以解决的

如果是在社交媒体场景中，可以基于时间轴上的数据：评论转发的内容以及其单位时间密度与趋势、「大V」参与程度、图像音视频附带媒体信息等角度去刻画建模，是可以达到一定效果的。不过就像其它回答提到的，虚假新闻的定义很关键。