如题欢迎讨论


很巧,刚参加了下半年中科院举办的假新闻识别大赛,算是有点心得体会吧。主流方法肯定是用机器学习演算法处理,但是这对数据要求其实蛮高的。最后颁奖典礼上嘉宾也深入讨论了一些问题,比如虚假新闻到底如何定义?客观发生的事件是真的,那断章取义之后的新闻算真还是假?对事件的(片面)评论算真还是假?现场有新闻从业者回答说主要基于一些规则判断,我听下来感觉分辨的界限也比较模糊,所以这个问题其实没有那么理想,对于开放数据没那么有效。一个直接的原因,文本处理主要是对宏观语意的理解,我稍改动细节能明显把新闻变成假的,但模型且无法分辨。例如,「某厂离职员工被拘留251天」是真新闻,我们能很容易知道「某厂离职员工被拘2510天/3650天/20年/50年」是假新闻,但模型对于数字没那么敏感,它认为前者和后者语意差不多,同时,很多对于事件不了解的人也分不清数字的真假,这也是假新闻难以区别的原因。另外,现在对抗生成技术的发展,也是使得造假能力提升,更难以区别。

当然现在也有很多研究者在努力解决,我的观点是,演算法很难彻底解决这个问题,最终决定魔高还是道高的是成本而非演算法。


这个问题分为两部分,一个是假新闻的问题,一个是能不能的问题。

首先来说能不能的问题,答案是能。但是,不要把ML、大数据当做全知全能的机器,带入先验去定义和解决问题。这个问题看上去和垃圾邮件识别如出一辙。但这里不能用TF-IDF去依靠关键词判断这么简单的问题。

引用一位大佬的话就是说万物皆可embedding。也许和常规的nlp一样,就是在于以什么作为数据,去判断真伪的可能性。不过是基于个人观察、案例和类比去设定的vector了。

然而其中有一个问题就是:弱AI是没有正常水平的独立思考能力的,要想识别真假,我想大多数人的角度都是基于已有的知识,结合新闻中的论点和论据进行逻辑思考。但这仅限于科学方面能证明的逻辑性问题。比如:人需要水,树需要水,所以小明是棵树。而现在连这点还做不到。现在的水平是基于数据的基础之上,一件形似的事件通过某种潜在规律发生n次,在对其数据分布「统计」的情况下,其中k次为真,n-k次为假,从而预测下一件事类比该分布或微调该分布,得出来predict的True or False,你可以将信息的来源平台、有关键词文章的AP、关键词词向量接近的value以及赞、评论等作为自变数。

比如 今日一科学家发现,距地球147.25光年外有一颗类地行星,呈正十二面体。

假设我们在分词的基础上,将每个部分都作为搜索条件去匹配相关内容,我们大致可以得到这几个栏位:距地球147.25光年外有一颗类地行星、类地行星呈正十二面体。(我相信绝大多百科不会写类地行星是什么形状的)

那么我们提取的判断对象就是:147.25光年外早就应该勘探过了,类地行星与地球的词向量相似,根据百科也证明性质如此,那么就变成地球呈正十二面体,显然这个打分就不会高了。

这是一个相当理想的条件了。因为现阶段阅读理解要能有这么强对话机器人也能落地了……


虚假新闻本身很难定义,连人本身都很难去判别,想通过机器学习或者深度学习就更难了


可以,解决的方法有很多,简单点的像朴素贝叶斯,逻辑回归,svm等等,如果有看深度学习,rnn,cnn都是可以解决的


如果是在社交媒体场景中,可以基于时间轴上的数据:评论转发的内容以及其单位时间密度与趋势、「大V」参与程度、图像音视频附带媒体信息等角度去刻画建模,是可以达到一定效果的。不过就像其它回答提到的,虚假新闻的定义很关键。


推荐阅读:
相关文章