谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning

系列文章目录

  1. 谣言检测文献阅读一—A Review on Rumour Prediction and Veracity Assessment in Online Social Network[0]
  2. 谣言检测文献阅读二—Earlier detection of rumors in online social networks using certainty‑factor‑based convolutional neural networks[0]
  3. 谣言检测文献阅读三—The Future of False Information Detection on Social Media:New Perspectives and Trends[0]
  4. 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning[0]

foreword

文章:Reply-Aided Detection of Misinformation via Bayesian Deep Learning
发表会议:2019 IW3C2 (International World Wide Web Conference Committee)
时间:2019年5月

1 介绍

1、文章说目前其他的文章存在的一个问题:这些模型的一个主要限制是它们无法表示由有关正在审查的声明的不完整或有限的可用数据引起的不确定性。(A major limitation of these models is their inability to represent uncertainty caused by incomplete or finite available data about the claim being examined.)
2、使用原贴信息和评论信息两部分
3、提出了一种随机梯度变分贝叶斯(SGVB)算法,推导了模型的易处理下限(ELBO)目标函数,以逼近难以处理的分布。该模型沿着最大化ELBO目标函数的方向进行优化。
4、优越之处

  • 由于不完整/有限的可用数据而导致的不确定性的有效表示
  • 从人们的反应中提取辅助信息的基于时间顺序的方法;
  • 一种推断潜在分布的 SGVB 算法;
  • 我们的模型在两个真实世界数据集上的系统实验。

2 相关工作

2.1 文本内容

包含语言特征,因为虚假信息并非旨在陈述客观事实,它们通常包含自以为是或煽动性的语言

2.2 来源可信度分析

原帖的诚信度越高,专业知识越多,帖子的真实性就越高(诚信度和专业度可以通过账号特征来评估,比如个人信息的完整性,关注者和粉丝的数量)

2.3 多媒体功能

通过多媒体的视觉和统计特征来判断信息的真实性。视觉特征包括清晰度分数、连贯性分数、多样性分数和聚类分数。统计特征包括计数、图像比率、多图像比率、热图像比率、长图像比率等

2.4 社会参与

群众的智慧,即通过他人对原帖的态度、立场、支持、反对、中立

3 问题说明

声明谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning用户回复谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning组成,要判断的消息是谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning,标签是谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning

4 贝叶斯深度学习

4.1对声明进行编码

通过编码声明得到先验概率,声明谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning,其中谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning维向量

4.2 对人们的回复进行编码

我们现在展示人们对辅助信息的回复编码器。该辅助信息是特定于陈述的,用于通过纠正关于陈述真实性的先验信念来生成后验信念。
  社交媒体平台上的回复按时间线列出,最早的回复显示在列表顶部。随着更多证据的出现,关于事件的真相可以逐渐显现,因此我们假设最新的回复往往比早期的回复更可靠、更重要。基于这个假设,我们设计了一个两层循环神经网络来编码回复:第一层应用 BiLSTM 来总结每个回复的语义信息,第二层应用 LSTM 来捕捉回复的时间语义变化.

4.3 准确性建模

  后验信念是通过 MLP 组合声明和回复信息来生成的。 MLP 的强非线性使其适合于查找索赔与其答复之间的复杂关系。具体来说,MLP 输入是潜在声明变量 z 连接到回复的隐藏状态 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning

5 优化

  我们模型的随机变量是非线性和非共轭的。因此,后验分布不能通过分析推导出来。为了逼近后验分布,我们构建了一个由 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning 参数化的推理模型来逼近难以处理的真实后验 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning;然后我们推导出一个目标函数来衡量谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning的逼近程度;最后,我们利用随机梯度变分贝叶斯 (SGVB) 方法来学习推理模型参数 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning和生成模型参数 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning

5.1 推理模型

  遵循神经变分推理方法,我们构建了一个由谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning 参数化的推理模型,以计算近似的后验分布,称为变分分布。给定观察到的变量,我们定义了一个变分分布 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning 来逼近真实的后验分布谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning。类似于变分自动编码器(VAE),类似于方程式。 公式(3) 对于 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning,变分分布被选择为多元高斯分布:

5.2 目标函数

  下面我们根据变分原理推导出贝叶斯深度学习模型的目标函数。为了最大化对数似然谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning ,我们推导出一个证据下界 (ELBO) 目标函数,以确保正确逼近真实的后验。为了简化目标函数推导的符号,我们进行以下代入:谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning-公式(10)。目标函数推导如下:

  • 关于ELBO这篇文章写的很清楚,还有代码[0]
  • 变分自编码器,这篇文章说的很清楚[0]

注:KL散度、期望E计算方法

5.3 梯度估计

  我们推导出一个基于小批量的 SGVB 估计器来区分和优化关于推理参数谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning和生成参数 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning的ELBO 目标函数谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning。通过蒙特卡罗估计,我们计算了 ELBO 目标函数的期望部分。让小批量大小为 B,对于每个声明谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning,S 是从变分后验分布谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning中抽取的样本。给定一个声明子集,我们可以为基于小批量的完整数据集构建一个 ELBO 目标函数的估计器,如下所示:

5.4 预测

  训练后,我们通过生成网络计算后验分布 谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning。声明真实性的实际预测是通过对 S 个样本的期望给出的:

6 实验设置

6.2 数据集

6.4 超参数设置

三个 LSTM 的激活函数是 tanh。 MLP 的激活函数是 ReLu。在验证子集上调整的超参数是:

  • 所有三个 LSTM 的隐藏层的维度都是 30;
  • 潜在变量的维数为 10;
  • minibatch 大小为 32;
  • Monte Carlo 估计中使用的样本数为 20。
    Dropout 用于改进神经网络训练,L2 范数正则化被应用于神经网络的权重,优化器采用Adam。

7 结果与讨论

7.2 潜在分布的合并是否优于确定性分布?

  在本小节中,我们评估了在索赔编码器中使用潜在分布对错误信息检测任务的影响。为了评估潜在分布p的影响,我们在我们的模型中去除p,并将其分类性能与完整模型进行比较。具体来说,去除p是通过获取BiLSTM隐藏状态的输出,即谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning,并将其作为输出MLP的输入来完成的。模型的其余部分保持不变。由于不涉及潜在分布,去除p的模型根据传统的Softmax损耗最小化进行了优化。在图4(a)和图4(b)中,我们展示了在Rumoreval和Pheme测试子集上去除p的模型相对于完整模型的分类性能。我们观察到,在每个评估指标上,完整模型的表现都比烧蚀模型好至少7.77%。这表明通过使用潜在分布可以获得更好的表示质量。

7.3 从人们的回复中获得的辅助信息是否会产生一种更准确的后验信念,即声明的真实性?

有回复和无回复的准确率比较

7.4 在对回复进行编码时,时间顺序是否优于随机顺序?

7.5 加入一个潜在变量来编码回复是否有益?

  我们通过在回复编码器中添加一个新的潜在分布来扩展我们的模型。与声明编码器所做的类似,新的潜在分布被设计为多维高斯分布,其均值和协方差矩阵源自 LSTM 输出谣言检测文献阅读四—Reply-Aided Detection of Misinformation via Bayesian Deep Learning(如公式 3、4 和 5 中所示)。与等式 6 类似地对一个新的潜在变量进行采样,并将其输入到 MLP 以预测正在检查的声明的准确性。实验证明,回复添加额外的潜在分布并没有提供任何额外的性能改进。

7.6 潜在变量z的维数如何影响模型的性能?

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年5月7日 上午11:07
下一篇 2022年5月7日

相关推荐