【论文导读】- Federated Graph Neural Networks: Overview, Techniques and Challenges(联邦图神经网络:概述、技术和挑战)

论文信息

在这里插入图片描述

论文地址:https://arxiv.org/abs/2202.07256

摘要

With its powerful capability to deal with graph data widely found in practical applications, graph neural networks (GNNs) have received significant research attention. However, as societies become in-creasingly concerned with data privacy, GNNs face the need to adapt to this new normal. This has led to the rapid development of federated graph neural networks (FedGNNs) research in recent years.Although promising, this interdisciplinary field is highly challenging for interested researchers to enter into. The lack of an insightful survey on this topic only exacerbates this problem. In this paper, we bridge this gap by offering a comprehensive survey of this emerging field. We propose a unique 3-tiered taxonomy of the FedGNNs literature to provide a clear view into how GNNs work in the context of Federated Learning (FL). It puts existing works into perspective by analyzing how graph data manifest themselves in FL settings, how GNN training is performed under different FL system architectures and degrees of graph data overlapacross data silo, and how GNN aggregation is performed under various FL settings. Through discussions of the advantages and limitations of existingworks, we envision future research directions that can help build more robust, dynamic, efficient, and interpretable FedGNNs.

图神经网络( GNNs )凭借其强大的处理实际应用中广泛存在的图数据的能力,受到了广泛的研究关注。然而,随着社会越来越关注数据隐私,GNNs面临着适应这种新常态的需要。这导致了近年来联邦图神经网络( FedGNNs )研究的快速发展。虽然前景广阔,但这一跨学科领域感兴趣的研究者来说是极具挑战性的。对这一领域缺乏深入的调查只会加剧这一问题。在本文中,我们通过提供对这一新兴领域的全面调查来弥补这一差距。我们对FedGNNs文献提出了一个独特的3层分类法,以提供对GNNs如何在联邦学习( Federation Learning,FL )背景下工作的清晰视图。通过分析图数据在FL设置中的表现形式,不同FL系统架构和图数据跨数据仓重叠程度下如何进行GNN训练,以及不同FL设置下如何进行GNN聚合,对现有工作进行了展望。通过讨论现有工作的优势和局限性,我们展望了未来的研究方向,这些方向可以帮助构建更健壮、更动态、更高效和更易于解释的联邦图神经网络。

论文内容与结构

1. Introduction

首先,引出图神经网络是处理图结构数据的强大工具,以及它的广泛应用。

图神经网络( GNN )是处理图结构数据的强大工具。图结构数据是由图拓扑连接的数据样本。例如,分子数据是以原子作为图中的节点,以连接它们的键作为图中的边的图结构数据。GNNs可以通过考虑从底层图拓扑中提取的邻域信息来提高节点嵌入的质量。它们已被广泛用于各种应用,包括药物发现,神经科学,社交网络,知识图谱,推荐系统以及交通流量预测等。

接着,点出图神经网络中隐私安全,数据隔离问题。

一个训练有素的GNN需要大量的训练图形数据,这些数据在实践中可能分布在不同的机构或数据所有者。由于隐私问题,这些数据所有者可能不愿意共享数据,这导致了数据隔离的问题。此外,不同数据所有者存储的图形数据的分布通常是非同分布,这增加了数据隔离的挑战。这种非同分布属性可以表现为不同数据所有者之间的图结构或节点特征分布的差异。与全局图分布相比,数据所有者中的子图也可能是有偏的。

然后,提出联邦学习结合各种加密技术,可以提供数据隐私的有效保护。

联邦学习( FL)是一种分布式协同机器学习范式,是应对这种数据隔离挑战的一种很有前途的方法。在保持本地数据私有的同时,使本地模型能够相互受益。此外,在非同分布数据存在的情况下学习个性化FL模型的问题也得到了广泛的研究。在联邦学习中,联邦学习参与者只共享模型参数或嵌入特征,而不暴露潜在敏感的本地数据。这种架构设计,结合各种加密技术,可以提供本地数据隐私的有效保护。

再然后,将联邦学习与图神经网络相结合,引出联邦图神经网络技术。

这两种发展趋势的交汇激发了联邦图神经网络( FedGNNs )领域在最近几年的出现,并在2021年迎来了快速发展。一份立场文件总结了这一趋势,设想了四种可能的联邦图神经网络场景,其基础是如何在数据所有者之间划分图形数据。由于当时对这些设想情景的技术研究并不广泛,因此这些情景之间的界限存在重叠。例如,当重构由不同数据所有者存储的图之间的缺失链接时,"水平联邦图神经网络 "可以与"图结构联邦学习 "混淆。如果每个数据所有者只有一个图,它也可以与"图间联邦网络 "混淆。到目前为止,还没有对联邦图神经网络的跨学科主题进行深入的研究,以指导感兴趣的研究人员进入这个有前途但具有挑战性的领域。

最后,说明本文的研究工作。

在本文中,我们通过提供关于联邦图神经网络的现有文献的全面回顾来弥补这一差距。我们提出了一种多层分类法,该分类法首先根据图数据与联邦学习数据拥有者之间的关系对现有工作进行划分,然后基于不同联邦学习系统架构下如何执行图神经网络训练以及跨数据仓的图数据重叠程度,最后基于不同FL设置下如何执行GNN聚合。它提供了一个紧密结合的观点,以帮助读者了解这两个领域如何相互补充。我们分析了现有FedGNN方法的优势和局限性,并讨论了未来的研究方向,这些研究方向可以导致更健壮、动态、高效和可解释的FedGNN。

2. Terminology and Taxonomy(术语与分类法)

将联邦图神经网络按照如下三层结构进行分类:
在这里插入图片描述
在第一类中,数据所有者通过图形拓扑相关联。 在这一类别中又可以分为以下两小类:

  1. 有中央服务器
  2. 没有中央服务器

中央服务器具有客户端间图形拓扑的全局视图。它可以利用这一观点在服务器中训练一个GNN模型来改进FL聚合和帮助客户更新他们的本地图。

**在第二类中,数据所有者与图拓扑不相关。**在这一类别中又可以分为以下三小类:

  1. 没有重叠节点的客户端
  2. 部分重叠节点的客户端
  3. 完全重叠节点的客户端

3. Data Owners Related by a Graph(第一大类)

3.1 FedGNNs with a Central Server

有中央服务器的联邦图神经网络。
在这里插入图片描述
客户端的本地数据不一定需要是图形数据。中心服务器根据图中的关系来协调客户端。服务器执行两个协调活动。首先,基于图的拓扑结构进行GNN聚合。其次,它帮助客户更新他们的本地图形,根据图形拓扑估计连接不同客户节点的缺失边。

3.2 FedGNNs without a Central Server

没有中央服务器的联邦图神经网络。
在这里插入图片描述
系统中没有服务器来协调数据拥有者,数据拥有者要么持有正常数据,要么持有图数据。数据所有者与他们的邻居直接通信(也就是说,客户端之间的图形拓扑是事先知道的)。

4. Data Owners not Related by a Graph(第二大类)

根据客户端之间图节点的重叠程度,可将该类工作分为3类:1 )无重叠节点的客户端;2 )部分重叠节点的客户端;3 )完全重叠节点的客户端。

4.1 Clients with No Overlapping Nodes

无重叠节点的客户端

客户端使用本地图形数据训练本地GNN模型,并将模型参数上传到服务器以进行FL聚合。

在这里插入图片描述

4.2 Clients with Partially Overlapping Nodes

具有部分重叠节点的客户端
在这里插入图片描述

4.3 Clients with Completely Overlapping Nodes

具有完全重叠节点的客户端
在这里插入图片描述

每个客户端只持有部分节点特征,只有部分客户端持有学习任务的标签。所有客户端都持有相同的节点集合,它们将节点嵌入而不是模型参数上传到服务器进行FL聚合。现有的工作集中在垂直划分的引用网络数据与两个客户端。

5. Promising Future Research Directions(展望未来研究方向)

Robust FedGNNs against malicious attacks.

抵抗恶意攻击

通过共享节点嵌入、图拓扑和模型参数,FedGNNs具有大型攻击面。需要进行更多的研究,以探讨FedGNNs如何在面对恶意的隐私攻击时变得更加强大。

FedGNNs for dynamic graph data.

用于动态图数据的FedGNN。

动态图数据中的图拓扑或节点特征可以随时间变化。在这种情况下,在GNN训练过程中需要考虑时间信息。然而,在图相关的FL客户机的设置中,客户机之间的关系也可以随着时间的推移而演变。因此,需要探索FedGNN方法,其中边缘权重和FL客户端之间的连接是可学习的。

Efficient FedGNNs for large-scale graph data.

用于大规模图形数据的高效FedGNN。

现有的FedGNNs一般采用小规模分布式数据集进行研究。因此,通信效率尚未得到充分考虑。然而,为了将FedGNNs扩展到大规模图数据(例如,知识图谱),通信开销可能是一个重要的瓶颈,因为数据拥有者往往采用具有大量模型参数的多层GNN模型进行传输。

Explainable FedGNNs to improve interpretability.

FedGNNs的可解释性

FedGNN涉及复杂的模型结构和训练过程。因此,在这种设定下实现可解释性更具有挑战性。将可解释性融入到FedGNN中,需要联合考虑所涉及的利益相关者对可解释性的需求,同时有效平衡保护隐私和训练模型的目标。

Multi-hop neighborhood aggregation in decentralizedFedGNNs.

去中心化FedGNNs中的多跳邻域聚合。

在现有的去中心化FedGNN研究中,仅对1跳邻居的模型参数进行聚合,为每个数据拥有者生成个性化的FL模型。尽管这种方法简化了模型结构,但它限制了FedGNN利用数据拥有者间图中丰富的邻域信息的能力。使FedGNNs能够超越这一限制,同时保持模型结构和训练过程合理简单的新技术是可取的。

Realistic distributed graph datasets for benchmarking.

用于基准测试的真实分布式图形数据集。

现有的FedGNN研究工作大多采用合成的分布式图数据进行评估。这些数据来自GNN基准数据集。为了将它们放入FL设置中,目前的做法是将整个图划分为多个子图,然后将这些子图分配给不同的数据所有者。以这种方式分配给每个数据所有者的子图的规模往往较小。FedGNN领域的长期发展仍然需要建立现实和大规模的联邦图形数据集,以支持在接近实际应用的环境下进行实验评估。真实世界的图数据集,如脑关联数据集、分子数据集、推荐系统和知识图谱,可以作为有用的起点。

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2023年2月23日 下午3:58
下一篇 2023年2月23日 下午3:59

相关推荐