Vision GNN: An Image is Worth Graph of Nodes

将图结构应用于图像领域，将VIT中的patches视作nodes。该网络主要由GCN和FFN组成。其中GCN模块来聚合、处理图结构信息；FFN模块对节点特征作变化，获取节点信息的多样性。论文链接

如上图所示，节点之间的连接由其内容确定，不受位置关系限制。网格、序列都可以看成是图的特例。

上图是图片如何表示成图的一个例子。蓝色点表示adjacent matrix，白色点表示无连接；通常是很大的sparse matrix。

图片出处：A Gentle Introduction to Graph Neural Networks

How to transform an image to a graph

网络的关键在于：如何将图像表示为图结构、如何学习图结构中的视觉表征

此处K取9~15效果最佳

图卷积通过聚合相邻节点的特征来实现节点之间的信息交换。

具体的说图卷积分为聚合和更新两个操作。

GCN在网络变深后会有过平滑现象，这会降低节点特征的区分度，导致视觉识别性能下降。本文在图卷积后的每个节点内引入了更多的特征变化，促增加节点特征多样性。

本文对应的解决策略如公式6所示。为了进一步提高特征转换能力和缓解过平滑现象，本文在每个节点上使用FFN，过程如下所示。

Z = σ (Y W1 ) W2 + Y

基于本节的graph representation of images 和ViG block，VIG网络可以随着网络的加深，保持特征的多样性，从而学习判别性的表示。

可视化结果：浅层邻接节点的选取基于低级、局部特征如：颜色和纹理，深层中邻接节点的选取更依赖于语义等高级特征。