凯发真人娱乐

论文解读(kp-凯发真人娱乐

2023-08-17,,

论文标题:how powerful are k-hop message passing graph neural networks
论文作者:jiarui feng, yixin chen, fuhai li, anindya sarkar, muhan zhang
论文来源:2022,arxiv
论文地址:download 
论文代码:download

  本文工作:

1)正式区分了 k-hop 邻居的两个不同的内核,它们在以前的工作中经常被滥用。一种是基于图扩散(graph diffusion),另一种是基于最短路径距离(shortest path distance)。我们表明,不同的 k-hop 邻居内核会导致不同的 k-hop 消息传递的表达能力;
2)从理论上描述了 k-hop 消息传递 的表达能力,并将所提出的定理推广到大多数现有的 k-hop 模型中;
3)证明了 k-hop 消息传递在严格意义上比 1-hop 消息传递更强大;
4)演示了无论使用哪个内核,使用 k-hop 消息传递来区分一些简单的正则图都会带来一定的限制,这促使我们进一步改进 k-hop 消息的传递;
5)介绍了一种新的gnn框架的k跳消息传递kp-gnn,它显著提高了标准k跳消息传递gnn的表达能力;

2.1 1-hop message passing framework

  经典的消息传递机制回顾:

    $m_{v}^{l}=\operatorname{mes}^{l}\left(\left\{\left(h_{u}^{l-1}, e_{u v}\right) \mid u \in \mathcal{n}_{v, g}^{1}\right\}\right), h_{v}^{l}=\operatorname{upd}^{l}\left(m_{v}^{l}, h_{v}^{l-1}\right)\quad\quad\quad(1)$

  其中,$m_{v}^{l}$ 是发送到第 $l$ 层的节点 $v$ 的消息,$mesl$ 和 $updl$ 分别是第 $l$ 层的消息和更新函数。在 $l$ 层消息传递后,使用 $h_{v}^{l}$ 作为节点 $v$ 的最终节点表示。这种表示可用于执行节点分类和节点回归等节点级任务。要获得图表示,需要使用一个读出函数:

    $h_{g}=\operatorname{readout}\left(\left\{h_{v}^{l} \mid v \in v\right\}\right)\quad\quad\quad(2)$

  其中,读数是计算最终图表示的读出函数。然后可以使用 $h_{g}$ 来进行图分类和图回归等图级任务。

2.2 k-hop message passing framework

  $1-hop$ 消息传递框架可以直接推广到 $k-hop$ 消息传递,因为它共享相同的消息和更新机制。

  首先,我们区分了两个不同的 $k-hop$ 邻居核,它们在以前的研究中被互换和滥用。

shortest path distance (spd) kernel

  即图 $g$ 中节点 $v$ 的第 $k$ 个跳邻居是与 $v$ 的最短路径距离为 $k$ 的节点集。

  definition 1. for a node  $v$  in graph  $g$ , the  $k-hop$ neighbors  $\mathcal{n}_{v, g}^{k, s p d}$  of  $v$  based on shortest path distance kernel is the set of nodes that have the shortest path distance from node $v$ less than or equal to  $k$ . we further denote  $q_{v, g}^{k, s p d}$  as the set of nodes in  $g$  that are exactly the  $k-th$ hop neighbors (with shortest path distance of exactly  $k$  ) and  $\mathcal{n}_{v, g}^{0, s p d}=q_{v, g}^{0, s p d}=\{v\}$  is the node itself.

graph diffusion (gd) kernel

  definition 2. for a node  $v$  in graph  $g$ , the $k-hop$ neighbors  $\mathcal{n}_{v, g}^{k, g d}$  of  $v$  based on graph diffusion kernel is the set of nodes that can diffuse information to node  $v$  within the number of random walk diffusion steps  $k$  with the diffusion kernel  $a$ . we further denote  $q_{v, g}^{k, g d}$  as the set of nodes in  $g$  that are exactly the  $k-th$ hop neighbors (nodes that can diffuse information to node  $v$  with  $k$  diffusion steps) and  $\mathcal{n}_{v, g}^{0, g d}=q_{v, g}^{0, g d}=\{v\}$  is the node itself.

  从上述定义不难得到:

节点 $v$ 的 $k-hop$ 邻居的在两个不同的内核将是相同的,即 $\mathcal{n}_{v, g}^{k, s p d}=\mathcal{n}_{v, g}^{k, g d}$;
当 $k=1$ 时,$\mathcal{n}_{v, g}^{1, s p d}=q_{v, g}^{1, s p d}=\mathcal{n}_{v, g}^{1, g d}=q_{v, g}^{1, g d}$;
对于某些 $k$ $q_{v, g}^{k, s p d}$ 并不总是等于 $q_{v, g}^{k, g d}$ ;
注意,基于图扩散核,一个节点可以是 $v$ 的第 $k$ 个跳邻居;

  上述两种图核的直观例子:[附上 graphsage ]

  首先,如果我们执行 $1$跳消息传递,它将编码一个高 $2$ 的有根的子树,如图右上方所示。请注意,每个节点都是使用相同的参数集来学习的,这可以通过用相同的颜色(图中为白色)来表示。

  现在,我们考虑使用最短路径距离内核来执行 $2$ 跳消息传递。节点 $v_1$ 的有根子树如图中间所示。我们可以看到,在每个高度,第 $1$ 跳邻居和 $2$ 跳邻居都包括在内。此外,在不同的跳中使用不同的参数集,这是通过用不同的颜色填充不同跳中的节点(蓝色表示第 $1$ 跳,黄色表示第 $2$ 跳)来表示的。

  最后,在图的底部,我们展示了具有图扩散核的 $2$ 跳消息传递图神经网络。很容易看出,有根的子树不同于使用最短路径距离核的子树不同,因为节点可以同时出现在邻居的第 $1$ 跳和第 $2$ 跳中。

  接下来,我们正式定义 $k-hop$ 消息传递框架如下:

    $\begin{array}{l}\left.m_{v}^{l, k}=\operatorname{mes}_{k}^{l}\left(\left\{\left(h_{u}^{l-1}, e_{u v}\right) \mid u \in q_{v, g}^{k, t}\right)\right\}\right)\\ h_{v}^{l, k}=\operatorname{upd}_{k}^{l}\left(m_{v}^{l, k}, h_{v}^{l-1}\right)\\h_{v}^{l}=\operatorname{combine}^{l}\left(\left\{h_{v}^{l, k} \mid k=1,2, \ldots, k\right\}\right)\end{array}\quad\quad\quad(3)$

  其中,$t=\{s p d, g d\}$ 表示 $k$ 跳邻居的内核。在这里,对于每个跳,我们可以应用唯一的 mes 和 upd 函数。注意,对于 $k>1$,可能不存在边特征 $e_{u v}$,因为边并不直接连接。但我们把它留在这里,因为我们可以使用另一种类型的特性来替换它。与 $eq.1$ 中描述的 $1$ 跳消息传递框架相比,引入了组合函数来组合节点 $v$ 在不同跳下的表示。很容易看出,$l$ 层 $1-wl$ gnn实际上是 $l$ 层 $k$ 跳消息传递 gnn,如果我们只执行 $1$ 跳消息传递,我们有 $h_{v}^{l}=h_{v}^{l, 1}$。

g implementation detail of kp-gnn
combine function

  1 跳消息传递 gnns 没有 $c o m b i n e^{l}$ 功能。这里我们介绍了两种不同的 $combine^{l}$ 函数。
  第一个是基于注意的组合机制,它自动学习每个跳中每个节点表示的重要性。
  第二种方法使用了众所周知的 geometric distribution[13]。第 $i$ 跳的的权重是基于 $\theta_{i}=\alpha(1-\alpha)^{i}$ 计算的,其中 $\alpha \in(0,1]$。最终的表示是通过所有跳的表示的加权和计算的。

peripheral subgraph information

  在当前的实现中,kp-gnn只考虑外围子图中的组件数和每个组件中的边数。然而,每个节点可能有一个不同的外围子图。为了使模型能够工作,我们为实现中每个组件中的最大组件数和最大边数设置了阈值。

kp-gcn, kp-gin, and kp-graphsage

  我们分别使用 gcn、gin 和 graphsage 中定义的消息和更新函数,实现了 kp-gcn、kp-gin 和 kpgraphsage。

  .在每个跳中,使用独立的参数集,每个跳的计算严格遵循相应的模型。但是,增加 $k$ 的数量也会增加参数的总数,这是不能扩展到 $k$。为了避免这个问题,我们采用以下方式设计了 $k-hop$ 消息传递。假设模型的总隐藏大小为h,则每个跳的隐藏大小为 $h/k$。这样,即使 $k$ 很大,模型的规模仍然在相同的尺度上。

kp-gin

  在一个普通的 $k$ 跳消息传递框架中,将为每个节点聚合所有的 $k$ 跳邻居。这意味着,在 $l$ 层之后,gnn 的接受域为$lk$。这可能会导致训练的不稳定,因为不相关的信息可能会被聚合。为了缓解这个问题,我们采用了来自 $gine $[15]的想法。具体来说,我们实现了 $kp-gin $,它应用了与 $gine $ 完全相同的架构,除了在这里我们添加了外围子图信息。在第 $1$ 层,$gine $ 只从 $l-hop$ 内的邻居收集信息,这使得 $l$ 层 $gine $ 仍然有一个 $l$ 的接受域。注意,在 $kp-gin $ 中,我们为每个跳使用一个共享参数集。

path encoding

  为了进一步利用每个跳上的图结构信息,我们引入了kp-gnn的路径编码。具体来说,我们不仅计算两个节点在跳 $k$ 处是否是邻居,而且还计算两个节点之间长度为 $k$ 的路径数。这些信息很容易计算出来,因为邻接的图 $g$ 的 $a^{k}$ 是一个长度为 $k$ 的路径计数器。然后将信息添加到aggl中,正常的 $k$ 函数作为附加特征。

other implementation

  对于所有的 gnn,我们应用 jumping knowledge 方法[51]来得到最终的节点表示。可能的方法包括和、平均、连接、最后一个和注意。在每一层之后都使用批处理归一化。

2.3 expressive power of k-hop message passing framework

  我们证明,当 $k>1$ 时,传递的 $k$ 跳消息严格比 $ 1-wl test$ 更强大。在整个分析过程中,我们使用正则图作为例子来说明我们的定理,因为它们不能通过 1-hop 消息传递或 $1-wl$ 测试来区分。请注意,我们的分析并不局限于正则图,但它能够描述任何图。

  definition 3. a proper $k-hop$ message passing gnn is a class of gnn models where the message, update and combine functions are all injective given the input from a countable space.

  由于神经网络的 universal approximation theorem [17]和集合操作[18]的 deep set,很容易找到一个合适的传递 $k$ 跳消息的 gnn。在后面的部分中,默认情况下,所有提到的传递 gnn 的 $k$ 跳消息都是正确的。接下来,我们定义节点配置。  

  definition 4. the node configuration of node  $v$  in graph  $g$  within  $k$  hops under  $t$  kernel is a list  $a_{v, g}^{k, t}=\left(a_{v, g}^{1, t}, a_{v, g}^{2, t}, \ldots, a_{v, g}^{k, t}\right)$ , where  $a_{v, g}^{i, t}=\left|q_{v, g}^{i, t}\right|$  is the number of  $i$-th hop neighbors of node  $v$ .

  当我们说两个节点构型 $a_{v_{1}, g^{(1)}}^{k, t}$ 和 $a_{v_{2}, g^{(2)}}^{k, t}$ 相等时,我们的意思是这两个列表在组件上是相等的。现在我们可以提出第一个命题:

  proposition 1. for two graphs $g^{(1)}=\left(v^{(1)}, e^{(1)}\right)$ and $g^{(2)}=\left(v^{(2)}, e^{(2)}\right)$ , we pick two nodes $v_{1}$ and $v_{2}$ from two graphs respectively. given a proper $1$-layer $k$-hop message passing gnn, it can distinguish $v_{1}$ and $v_{2}$ if $a_{v_{1}, g^{(1)}}^{k, t} \neq a_{v_{2}, g^{(2)}}^{k,}$ .

proposition 1 证明

  

  上述证明主要利用:

对于每一跳的参数不同;
$\left|q_{v, g}^{k, t}\right|$ 在特定的 $k$ 不同,且结合 gnn 单射性质;

  corollary 1. a proper  $k-hop$ message passing  gnn  is strictly more powerful than $1$-hop message passing gnns when  $k>1$ .

  首先说明 corollary 1 为什么正确?

  为了了解为什么这是正确的,我们首先使用命题1描述传递 $1$ 跳消息 gnn 的表达能力。

  当 $k=1$ 时,$v_1$ 和 $v_2$ 的节点构型为 $d_{v_{1}, g^{(1)}}$ 和 $d_{v_{2}, g^{(2)}}$,其中 $d_{v, g}$ 为 $v$ 的节点度。在 $l$ 个层之后,gnn 可以得到 $l$ 个跳数内每个节点的节点配置。根据这句话,可以很容易地看出为什么这些 gnn 不能区分任何 大小为 $n$ 的 $\text{r-regular graph}$,因为正则图中的每个节点都具有相同的度。从另一个角度来看,1 跳消息传递gnn的表达能力是有限的,因为它只有gnn接受域内图中每个节点的度信息。

知识点:正则图

正则图是指各顶点的度均相同的无向简单图。
在图论中,正则图中每个顶点具有相同数量的邻点; 即每个顶点具有相同的度或价态。 正则的有向图也必须满足更多的条件,即每个顶点的内外自由度都要彼此相等。具有 $k$ 个自由度的顶点的正则图被称为 $k$ 度的 $k$-正则图。 此外,奇数程度的正则图形将包含偶数个顶点。

  例子:

  接下来,当 $k>1$ 时,$k$ 跳消息传递至少与 $1$ 跳消息传递同等强大,因为 $k$ 跳消息传递包含了  $1$ 跳消息传递所具有的所有信息。为了了解为什么它更强大,我们使用了两个例子来说明它。第一个示例显示在 figure 1 的左侧部分。
 
  

  当 $k>1$ 时,$k$ 跳消息传递至少与 $1$ 跳消息传递同等强大,因为k跳消息传递包含了$1$ 跳消息传递所具有的所有信息。为了了解为什么它更强大,我们使用了两个例子来说明它。第一个示例显示在图1的左侧部分。假设我们使用图扩散核,我们想学习节点的表示 $v_1$ 和节点 $v_2$ 两个图,我们知道 $1$ 跳消息传递框架产生相同的表示两个节点都是大小为 $6$ 的 $3$ 正则图。但是,很容易看出 $v_1$ 和 $v_2$ 有不同的局部结构,应该有不同的表示。相反,如果我们使用与图扩散核一起进行的两跳消息传递,我们可以通过检查节点的第二跳邻居来很容易地区分这两个节点,因为节点 $v_1$ 有四个第二跳邻居,而节点 $v_2$ 只有两个第二跳邻居。第二个示例如图1的右侧所示。本例中的两个图仍然是规则图,$1$ 跳消息传递仍然无法区分节点 $v_1$ 和节点 $v_2$。相比之下,假设我们使用最短路径距离核,节点 $v_1$ 和 $v_2$ 有不同数量的第 $2$ 跳邻居,因此通过执行 $2$ 跳消息传递将有不同的表示。这两个例子令人信服地证明了用 $k>1$ 传递的 $k$ 跳消息比 $k=1$ 具有更好的表达能力。

  接下来,我们简要总结了一些现有的传递 $k$ 跳消息的 gnn,它们的表达能力可以用 proposition1 来描述。

  corollary 2. when  $k>1$  and  $t=spd$ , proposition 1 characterizes the expressive power of gine [15]]. it also characterize dea-gnn [19] and graphormer [20] with shortest path distance as the distance feature or the spatial encoding respectively.

  此外,我们提出的 $k-hop$ 消息传递框架比之前的一些基于图扩散的 $gnns$,如 mixhop[11],gpr-gnn[14],magna[13]更强大。我们将详细的讨论留在附录c中

2.4 limitation of k-hop message passing framework

  随然 $\text{k-hop}$ 消息传递机制比  $\text{1-hop}$ 消息传递机制好,但是任然存在一些问题。 具体地说,我们证明了内核的选择会影响 $k$ 跳消息传递的能力。此外,即使传递 k-hop 消息,我们也不能区分一些简单的非同构结构。

  请继续查看所提供的示例。在 example 1中,我们知道节点 $v_1$ 和  $v_2$ 与图扩散核有不同数量的第二跳邻居。但是,如果我们使用最短路径距离核,则这两个节点在第 2 跳中有相同数量的邻居,这意味着我们不能使用具有最短路径距离核的 2 跳消息传递来区分两个节点。类似地,在 example 2 中,两个节点在具有图扩散核的第 1 跳和第 2 跳中具有相同数量的邻居。这些结果突出表明,内核的选择会影响 $k$ 跳消息传递的表达能力。此外,它们都不能通过 2 跳消息传递来区分这两个示例。鉴于所有这些观察结果,我们可能会想知道是否有一种方法可以进一步提高 $k$ 跳消息传递的表达能力?

3.1 peripheral edge and peripheral subgraph

  definition 5. the peripheral edges  $e\left(q_{v, g}^{k, t}\right)$  are defined as the set of edges that connect nodes within set  $q_{v, g}^{k, t}$ . we further denote  $\left|e\left(q_{v, g}^{k, t}\right)\right|$  as the number of peripheral edges. the peripheral subgraph  $g_{v, g}^{k, t}=\left(q_{v, g}^{k, t}, e\left(q_{v, g}^{k, t}\right)\right)$  is defined as the subgraph induced by  $q_{v, g}^{k, t}$  from the whole graph  $g$ .

  在 example 1 中,我们注意到在第 $1$ 跳时,在左图中的节点 $3$ 和节点 $4$ 之间有一条边。更具体地说,是 $e\left(q_{v_{1}, g^{(1)}}^{1, t}\right)=\{(3,4)\}$。相比之下,我们在右图中有 $e\left(q_{v_{2}, g^{(2)}}^{1, t}\right)=\{\}$,这意味着在 $v_2$ 的第一跳邻居之间没有边。因此,通过将这些信息添加到消息传递中,我们可以成功地区分这两个节点。类似地,在example 2 中,在节点 $v_2$ 的第 $1$ 跳邻居之间有一条边,但对于节点 $v_1$ 则不存在这样的边。通过利用 peripheral edge 信息,我们也可以区分这两个节点。以上例子证明了 peripheral edge 和 peripheral subgraph 信息的有效性。

3.2 k-hop peripheral-subgraph-enhanced graph neural network

  本节提出  kp-gnn ,它将 $k$ 跳消息传递与 peripheral subgraph 信息相结合,用于更强大的gnn设计。  

  kp-gnn 消息传递函数如下:

    $\hat{h}_{v}^{l, k}=\operatorname{mes}_{k}^{l}\left(\left\{\left\{\left(h_{u}^{l-1}, e_{u v}\right) \mid u \in q_{v, g}^{k, t}\right\}, g_{v, g}^{k, t}\right)\right.\quad\quad\quad(4)$

  在第 $k$ 跳的消息步骤中,我们不仅聚合了邻居的信息,而且还聚合了第 $k$ 跳的外围子图。kp-gnn的实现可以非常灵活,因为任何图编码函数都可以使用。为了最大化模型可以在保持简单的同时编码的信息,我们实现了消息函数为:

    ${\large \operatorname{mes}_{k}^{l}=\operatorname{mes}_{k}^{l, \text { normal }}\left(\left\{\left(h_{u}^{l-1}, e_{u v}\right) \mid u \in q_{v, g}^{k, t}\right\}\right) \sum \limits_{c \in c} \frac{1}{|c|} \sum \limits_{(i, j) \in e\left(q_{v, g}^{k, t}\right)_{c}} e_{i j}} \quad\quad\quad(5)$

  其中

$\operatorname{mes}_{k}^{l, \text { normal }}$ 表示原始gnn模型中的消息函数;
$c$ 是 $g_{v, g}^{k, t}$ 中连接组件的集合;
$e\left(q_{v, g}^{k, t}\right)_{c}$ 是 $g_{v, g}^{k, t}$中第 $c$ 个连接分量的边集;

  这种实现有助于kp-gnn不仅编码 $e\left(q_{v, g}^{k, t}\right)$,还可以编码 $g_{v, g}^{k, t}$(组件数量)的部分信息。有了这个实现,任何gnn模型都可以被合并到kp-gnn框架中并得到增强,通过用每个跳 $k$ 的相应函数替换 $\mathrm{mes}_{k}^{l, \text { normal }}$、正常 $k$ 和 $\mathrm{upd}_{k}^{l}$。我们在附录g中留下了详细的实现。

3.3 the expressive power of kp-gnn

  在本节中,我们从理论上描述了kp-gnn的表达能力,并将其与原始的k-hop消息传递框架进行了比较。关键的观点是,根据 $\text{eq.4}$,与正常的 $k$ 跳消息传递相比,第 $k$ 跳的消息函数另外编码了 $g_{v, g}^{k, t}$。然后,我们提出以下定理。

  theorem 1. for two graphs  $g^{(1)}=\left(v^{(1)}, e^{(1)}\right)$  and  $g^{(2)}=\left(v^{(2)}, e^{(2)}\right)$ , we pick two nodes  $v_{1}$  and  $v_{2}$  from two graphs respectively. suppose there is a proper $k-hop$ $1$-layer kp-gnn with message functions as powerful as  $w$-wl test on distinguishing graph structures. then it can distinguish  $v_{1}$  and $v_{2}$  if $g_{v_{1}, g^{(1)}}^{k, t}$  and  $g_{v_{2}, g^{(2)}}^{k, t}$  are non-isomorphic and  $w$-wl test distinguishable for some  $k \leq k$ .

  theorem 2. consider all pair of  $n$-sized  $r$-regular graphs, where  $3 \leq r<\sqrt{2 \log n}$ . for any small constant  $\epsilon>0$ , there exists a kp-gnn using shortest path distance as kernel and only peripheral edge information with at most  $k=\left\lceil\left(\frac{1}{2} \epsilon \frac{\operatorname{logn}}{\log (r-1-\epsilon)}\right)\right\rceil$ , which distinguishes almost all  $(1-o(1))$  such pair of graphs with only $1$-layer message passing.

  上述定理证明了仅利用 peripheral edge 信息的 kp-gnn 的简单实现可以区分几乎所有具有一定 $k$ 层和 $1$ 层的正则图。

  此外,根据 distance encoding [19] 中的定理3.7,具有最短路径距离核的 $k$ 跳消息不能区分任何具有相同交集数组的任何距离正则图。这里我们证明了 $kp-gnn$ 在区分距离正则图方面比距离编码更强大。

  theorem 3. for two non-isomorphic distance regular graphs  $g^{(1)}=\left(v^{(1)}, e^{(1)}\right)$  and  $g^{(2)}=   \left(v^{(2)}, e^{(2)}\right)$  with the same intersection array  $\left(b_{0}, b_{1}, \ldots, b_{d-1} ; c_{1}, c_{2}, \ldots, c_{d}\right)$ , we pick two nodes  $v_{1}$  and  $v_{2}$  from two graphs respectively. given a proper $1$-layer  $k$-hop  kp-gnn with message functions defined in equation (5), it can distinguish  $v_{1}$  and  $v_{2}$  if  $b_{0}-b_{j}-c_{j}=2$  for some  $j \leq k$  and  $g_{v_{1}, g^{(1)}}^{j, t}$  and  $g_{v_{2}, g^{(2)}}^{j, t}$  are non-isomorphic.

  我们在附录 f 中包含了证明。theorem 3 表明,具有简单实现的 kp-gnn 可以区分一些距离正则图,这进一步证明了 kp-gnn 比正常距离增强的 gnn 具有更高的表达能力。然而,在目前的实现中,kp-gnn不能区分所有的距离正则图。\

4.1 datasets

4.2 empirical verification of the expressive power

4.3 evaluation on tu datasets

4.4 evaluation on molecular prediction tasks

  本文从理论上描述了k跳消息传递gnn的能力,并提出了kp-gnn通过利用每跳的外围子图信息来提高表达能力。从理论上证明了kp-gnn几乎可以区分所有的正则图,包括一些距离正则图。根据经验,kp-gnn在所有模拟和真实数据集上都取得了有竞争力的结果。
 

2022-06-20 创建文章

论文解读目录

论文解读(kp-gnn)《how powerful are k-hop message passing graph neural networks》的相关教程结束。

网站地图