《表2 在Citeseer数据集上的多分类结果》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《保持Motif结构的网络表示学习》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

网络表示学习算法的重点是更好地将网络节点通过嵌入向量表示，因此为了体现这一点，所采用的机器学习算法也应该越简单越好。本文最终选用KNN算法来完成多分类任务，训练集是从数据集中随机选取，它的个数占数据集个数的比例从10%依次增加至90%。KNN采用的是欧式距离，经实验发现，K值的选择在8～15之间比较合适。实验过程重复20次，最后计算Micro-F1以及Macro-F1的平均值作为最终结果。由于本文提出的算法是针对节点的Motif结构，因此最后进行实验的节点是数据集中具有Motif结构的节点。最终实验结果如表1～表3所示。这说明，今后如果遇到网络已知的真实类标比较少的情况下，本文提出的算法能够更好地完成网络分析任务。表2显示的是在Citeseer数据集上运行的结果，然而这个数据集上表现得最好的是DeepWalk算法。经过分析，Cora数据集共有2 708个节点，5 429条边，其中具有三角Motif结构的节点有1 470个；而Citeseer数据集共有3 312个节点，却只有4 732条边，此外，具有三角Motif结构的节点只有1 189个。也就是说，相比于Citeseer数据集，Cora数据集更加得稠密，含有的Motif结构信息更加丰富，因此本文算法MPNE能够表现得更好；而Citeseer数据集比较稀疏，含有的高阶连接模式信息较少，因此DeepWalk算法能够表现得更好。这说明，本文提出的MPNE算法更适用于稠密网络，有助于更好地分析网络中的Motif结构信息。最后，表3显示的是在Terrorist Attack数据集上运行的结果。Terrorist Attack数据集共有1 293个节点以及3 172条边，然而实际上大多数节点都是单独一个节点存在，经过统计，最终只有645个节点参与了边的构建，且只有354个节点具有三角Motif结构，因此整个网络比较稠密，Motif结构信息比较丰富。从结果来看，当训练集比例大于20%时，MPNE算法表现得最好。

图表编号	XD0069557400 严禁用于非法目的
绘制时间	2019.08.01
作者	许磊、黄玲、王昌栋
绘制单位	中山大学数据科学与计算机学院、中山大学数据科学与计算机学院、中山大学数据科学与计算机学院
更多格式	高清、无水印（增值服务）