博士学位论文 论文题目社交网络中内容流行度的预测方法研究

来源: www.xinxin168.cn 作者:SCI论文发表 发布时间:2019-12-27 浏览: 人次
中文摘要社交网络的兴起变革了人们沟通交流、分享信息的方式和渠道,正逐步成为 信息时代的主流传播媒介,其活跃用户规模和用户生成内容均呈爆发性增长。内 容流行度是网络用户群聚
1绪论
“认知盈余”时代,人们在时间、智慧、创造力等方面的盈余的集合体,可 经由互联网信息技术提升生产力,实现创造和分享W。网络用户不仅是信息的浏览 者、消费者,更是信息的创造者。目前,社交网络已成为信息交互的主要媒介, 社交网络环境下的信息传播己成为当下研究热点。另外,内容流行度是“认知盈 余”聚合的重要体现,社交网络所呈现的开放性、不确定性、互动性,使社交网 络中的信息传播、“认知盈余”聚合过程更为复杂,传统的研究方法亟待更新和发 展。因此,研究社交网络中内容流行度增长机制、演化趋势及相应的预测方法, 具有重要的理论意义和实用价值。
1.1研究背景与选题意义
1.1.1 研究背景
随着网络技术的飞速发展和移动智能终端的广泛普及,作为信息时代主流传 播媒介的互联网正从传统媒体向社交网络演进。中国互联网络信息中心(CNNIC) 于2019年2月28日发布第43次《中国互联网络发展状况统计报告》⑺。报告显 示,截至2018年12月,网民规模达到8.29亿,全年新增网民5653万,互联网普 及率为59.6%,较2017年底提升3.8个百分点;手机网民规模达8.17亿,网民中 使用手机上网的用户占比达到98.6%;在各类互联网应用中,除即时通信以外的社 交应用使用率为77.0%,达5.3亿人。Alexa最新排名显示[3],全球最受欢迎的十 大网站(AlexaTop 10 Global Sites)中有7个是社交网络类网站,分别是Youtube、 Wikipedia、Taobao、Amazon、Facebook、Qq 和 Twitter;作为前十中唯一的门户类 网站,Yahoo是传统媒体最后的荣光。
社交网络(即社交网络服务,Social Networking Service),是Web 2.0体系下 的一个技术应用架构[4]。用户在社交网络中通过相互关注的方式建立用户关系网 络,并借助该关系网络分享传播信息、表达情绪、交换观点意见。社交网络中传 播的信息由用户创作生成,包括文本、图片、视频等多种内容模态,统称为用户 生成内容(User-generatedcontent,UGC)。社交网络相比传统媒体具有更强的信息 传播能力,网络用户拓扑结构的无标度、小世界特性使其信息传播更快,影响范 围更广。社交网络凭借其便捷的信息发布方式、特有的分享转发激励机制,以及

移动互联网助力的随时随地随心的互动性,吸引了越来越多的用户参与,随之而 来的是海量的用户生成内容(如图1.1所示)。
社交网络内容的流行度Popularity)UGC的受欢迎程度,刻画内容的宏观 扩散规模和影响深度,通常由用户与UGC之间交互的总计数(例如视频点击量、 微博转发次数、照片点赞数等)来衡量,是用户群聚行为的体现。根据赫伯特西 蒙的观点[5],信息过剩导致注意力稀缺,即用户的注意力是有限的,只能关注其中 的一部分感兴趣或热门的内容。不同的内容对有限的用户注意力的竞争以及社交 网络的拓扑结构共同作用,会导致UGC的流行度存在巨大的异质性,少数内容获 得大量关注,而大部分内容默默无闻。因此,研究社交网络信息传播模式进而建 模并预测信息流行度演化趋势显得十分必要。
 
图1.1社交网络中一分钟生成的内容(2019) [6]
Figure 1.1 What happens in one minute in social networks (2019)
 
预测在各个领域都是热门的研究课题,例如天文学家预测行星运动轨迹,经 济学家预测金融市场股票的波动,博彩公司预测体育赛事的结果。预测学是一门 发展中的科学,在物理和工程科学领域已取得一定进展,例如,短期天气模式预 测领域取得的研宄进展表明借助统计模型可以实现复杂随机系统下的有效预 测。然而在社交网络内容流行度预测中,作为信息传播主体的用户具有髙度自主 性、能动性、强异质性及自适应力,用户之间、用户与内容间的互动呈现多方向、 多维度、高频率的特点,同时伴随线下真实社会对线上虚拟社交网络的映射作用,

这些因素均不同程度增强了网络的随机性、动态性及不确定性,使社交网络中的 信息传播更为复杂,阻碍了对流行度增长机理、预测流行度演化趋势的探究。因 此,需要探索新的方法论或者借鉴多种理论来解决社交网络内容流行度的预测难 题。
1.1.2 选题意义
社交网络中内容流行度的预测方法研宄,借助信息科学、社会学理论、人工 智能以及数理统计学等学科与理论,通过计算机建模和数据挖掘的方法,生成社 交网络内容流行度预测方法。研究涉及:分析影响社交网络中信息扩散传播的因 素,抽象信息流行度增长机制,量化信息传播事件间的作用关系,研究观测历史 与预测精度之间的关联性,探索模型刻画能力和预测能力之间的平衡,研究流行 度相关特征分别在时间维度及时空维度的筛选提取策略,探索用户交互方式对聚 合网络微观偏好的作用机制等。这些研究都具有重要的理论意义和应用价值。
社交网络中内容流行度的预测方法研究,有助于把握舆情动态,是实现舆情 监测的重要手段。作为用户在线沟通交流和分享信息的平台,社交网络也常常是 网络突发热点舆情的策源地,热点事件经由网络发酵、扩散传播并进一步影响线 下社会。深入研究并揭示社交网络中信息传播的形成机理,进而在一些易触发舆 情的孤立事件进入网络空间后迅速预测其发展态势,有助于及时发现负面信息和 正确引导网络舆论,控制负面舆情蔓延,防患于未然,从而为舆论监管部门提供 工作参考,为舆论引导策略提供决策依据。
社交网络中内容流行度的预测方法研究,有助于提升社交网络服务质量,推 动社交网络应用及其网络规模的发展,进一步发掘社交网络的应用潜力。社交网 络管理者可以借助内容流行度预测方法实现对内容流行度的实时预测,进而合理 分配资源、平衡网络全局注意力,辅助生成用户信息流,避免客户端信息过载; 用户也可参考相关研究成果调整内容或呈现方式,在内容的制作及推广中做出优 化改进策略,从而打造高流行度的内容,增强其在社区中曝光度和接收度。
社交网络中内容流行度的预测方法研究,对经济领域和企业实体具有实际意 义,为网络营销、商业推广提供技术支撑。目前,越来越多的企业认识到互联网 上蕴藏着潜在的巨大市场资源,这些资源散布在用户的网络行为、发表的观点以 及交流的信息之中。社交网络更是企业树立品牌形象、口碑营销的重要阵地,实 现这些商业需求的前提是认清社交网络中信息传播的机制,掌握影响信息扩散传 播的关键因素。通过预测品牌信息及用户反馈信息在网络中的传播趋势,主导触 发企业广告、商业软文等推广信息的爆发性传播,增加品牌曝光率及权威性。另

外,针对负面舆情,通过事先预判舆情事件为企业采取相应措施赢得宝贵时间, 为企业应对网络突发事件提供辅助决策支持。
社交网络中内容流行度的预测方法研究,为预测学的发展提供可靠理论支撑 及实证素材,为研宄其它复杂系统中的预测应用提供借鉴。社交网络中存在海量 的用户个人信息及用户交互信息,这些都为研究及预测用户个体行为和群聚行为 提供了实证环境。研究内容流行度预测方法,需要挖掘海量的网络数据,抽象内 容流行度增长机制,分析微观个体交互行为及网络拓扑结构,研究网络微观偏好 和宏观偏好的关联性,建立早期流行度与流行度增长趋势之间的联系。因此,社 交网络中内容流行度预测涉及信息科学、传播学、社会学理论、人工智能以及数 理统计学等多学科的研究方法,属于交叉学科的范畴。该研究有助于建立交叉学 科的研究体系,对交叉学科方法融合与应用具有一定理论意义,其所涉及的方法 论将推动包括信息、社会学和人工智能等相关领域的发展。此外,本研究在诸如 历史观察窗口筛选策略等预测学共性问题方面的理论成果及有益尝试也为其它领 域预测学的研究提供一定的示范作用。
综上所述,对社交网络中内容流行度的预测方法研究,有助于更深刻地理解 网络用户的行为模式和特征,揭示社交网络内容流行度的形成过程与增长机制, 对认识网络信息的聚合与网络舆论的形成也有很大帮助。此外,本论文研宄的内 容也涉及了预测学的共性研宄内容,其理论方面的结果还可应用于政治、经济等 领域的预测应用当中。因此本论文的选题具有一定的理论意义和应用前景。
1.2研究方法及现状
1.2.1 研究方法
在当前社交网络内容流行度预测研宄中常用的数学工具有随机点过程理论、 机器学习和递归神经网络等。
1. 随机点过程理论
随机点过程(PointProcess)是描述随机点分布的随机过程,是对序列随机事 件的潜在支配机制进行建模的有力数学工具[8]。在客观世界中的随机现象中,大多 数随机事件都具有高度局部化的特点,即事件的发生可以被认为是局限在时间或 空间中的一个很小的范围内,故应用数学语言可以表示为一个理想化的点。在金 融领域,一次事件可以代表股票市场上的买入或卖出交易,这会影响未来的交易 价格和交易量。在地球物理学中,一个事件可能是一次地震,表明在不久的将来 附近发生另一场地震及余震发生的可能性。在生态学中,事件数据由一组观察到

物种的点位置组成。
在对社交网络媒体的分析中,事件可以是随着时间的推移用户和内容之间的 交互,每个事件都具有一组属性,如用户影响力,兴趣话题以及周围网络的连通 性等因素。总之,一个按照一定的统计学规律在某空间尺内随机分布的点集合便 构成一个随机点过程。在最简单的情形下,点过程空间尺是一维的,通常把空间兄 取为时间轴或它的一个子区间,也有学者将时间轴上的随机点过程称作事件流或 随机事件序列。
现代随机点过程理论的来源是多方面的,最初可以追溯到更新理论、人口统 计中的寿命表理论;进入20世纪以后,点过程理论与至少三个应用领域紧密联系: 排队论(以电话交换台理论为代表),群体增长理论以及可靠性理论。二次世界大 战期间及战后,伴随整个随机过程理论研究的兴盛,点过程的理论研究取得巨大 进展。
Palmf9增次使用了 “点过程”这一术语,并提出“再生点”概念以及随机点过 程的第一极限定理。Wold[1G]也是“点过程”术语的第一批使用者并系统研究了平 稳点过程。Cox等人[11]对随机点过程理论和统计分析的若干重点研究问题进行了 系统阐述,并首次指出了点过程理论的广泛应用。Snyder[8]总结并例举大量具有随 机强度的点过程的示例。Bremaud的著作[12]中利用以鞍论为代表的现代随机过程 理论,对点过程的强度做了严格而系统的描述,随机强度的引入使点过程理论应 用的研究迈入新的阶段。在上述研究基础上,Aelen[13]、Karr[14^PJacobsen[15]等人 利用现代随机过程的一般理论,对随机点过程进行统计推断,进一步展示鞍论与 点过程理论之间的密切联系,同时提供了用现代随机过程一般理论发展统计分析 技巧的成功范例。近年来,随机点过程逐渐形成为随机过程学科的一个独立分支, 它的应用己渗透到众多研究领域。
在随机点过程理论研究中,一维点过程可以通过以下三类不同的方式描述[8]:
1) 计数性质:设#[心0表示时间区间[心0上事件点的数目,"(4表示在集 合d上的事件点的数目,令5表示实轴上的波莱尔域(Borelset),贝
为定义在5上的随机测度,成为随机计数测度。设^>为开始观测的时刻,则 所使一随机过程,称为计数过程。
2)  间距性质:设随机点过程的事件时间序列为仏名取厂
/ = 1,2,…,贝ij{ri,r2,…,巧,…}也是一非负随机变量序列,其概率分布也可以刻画一 维随机点过程。若h,r2,…,巧,…}相互独立且同分布,则该计数过程为更新过程。
3) 事件强度:设A(〇表示事件强度,则
Z(t) = P(R(t + dt)-R(t) = \] (1.1)
艮M⑺刻画在无穷小时间间隔[M +汾]内发生一次事件的概率。如图1.2所示,

九⑴为观测历史,条件概率密度/(〇:=/(r|(0), ^(0表示事件在(时刻后发生 的概率,则事件强度的推导过程入下:
S\t)
(1.2)


(1.3)
从而条件概率密度可表示为:
f\t) = X\t)exp{-^ A\r)dr) (1.4)
齐次泊松过程是最简单的点过程,事件时间间隔独立且同分布,事件强度是 与事件历史打⑺无关的常量,义(0 =吨>〇。学术界针对各类真实的应用情景,提 出了具有不同形式的事件强度的点过程模型。较为经典的模型有霍克斯过程 (Hawkes process)[6]、自校正过程模型(Self-correcting process) [17】和自回归条 件持续时间模型(Autoregressive Conditional Duration process) [18]
综上所述,点过程理论在刻画和研究内容流行度增长演化过程中的各种性质 方面具有与生倶来的优势,有助于深入认识流行度演化的规律。但点过程模型仍 存在局限性,依据丰富的领域知识设计的事件强度函数仍具有强假设性,且难以 刻画真实应用场景中相邻事件间的非线性映射关系。
2. 机器学习
机器学习(Machine learning)属于人工智能(Artificial intelligence)的一个分 支,因为其学习算法中涉及到大量的统计学理论,又称为统计学习理论(Statistical learning)。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。

机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预 测的算法。机器学习在近30多年己发展成为一门多领域交叉学科,涉及概率论、 统计学、计算复杂性理论、凸分析、逼近论等多门学科。当前机器学习己广泛应 用于数据挖掘、自然语言处理、计算机视觉、搜索引擎、生物特征识别、DNA序 列测序、医学诊断、语音和手写识别、证券市场分析和机器人等领域。
1959年,人工智能领域的先驱Arthur 881111^1[19]在IBM率先发明并应用“机器 学习”这一术语。机器学习最初是由模式识别和人工智能的计算学习理论衍生而 来。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点, 再到以“学习”为重点的脉络。
20世纪50年代到70年代初,人工智能的研究出于“推理期”,当时的主流观 点是只要赋予机器逻辑推理的能力,机器就具有智能。Newell和Simon^的Logic Theorist以及General problem-solving是当时的代表性工作,并取得一定成果。20 世纪70年代中期,Feigenbaum等人[21H仑证了使机器拥有知识的必要性,标志着人 工智能的研究进入“知识期”,大量的专家系统应运而生,并且在各个应用领域取 得斐然的成果。
80年代,伴随着作为国际机器学习会议(International Conference on Machine Learning,ICML)前身的第一届国际机器学习研讨会(IWML)在卡耐基梅隆大学 召开,第一本机器学习专业期刊“Machine learning”的创刊,以及人工智能领域的 权威期刊“Artificial intelligence”机器学习专刊的问世,机器学习逐渐发展成为一 门独立的学科领域。该时期,符号主义学习开始“从样例中学习”中占据主流地 位,其代表性技术包括决策树(Decision Tree)[22,23]、归纳逻辑程序设计(Inductive Logic Programming)[24,25]W及基于神经网络的“连接主义学习”[26],涵盖无监督 学习和监督学习。进入90年代中期,以支持向量机(Support Vector Machine,SVM) [27]为代表的统计学习方法成为机器学习的主流方法,将低维输入空间映射到高维 特征空间从而有效解决低维非线性难题的核技巧也开始被机器学习研究者广泛接 受并应用。
机器学习的方法是基于数据构建统计模型从而对数据进行分析与预测。机器 学习由监督学习(Supervised learning)、非监督学习(Unsupervised learning)、半 监督学习(Semi-supervised learning)以及强化学习(Reinforcement learning)等组
成。
监督学习是指在给定的训练集中学习得到输入(特征)和输出(目标)之间 的映射函数,测试集中数据特征应用该映射函数得到预测结果,训练集中的目标 由人工标注。统计分类和回归均是常见的监督学习算法。与之相对应,非监督学 习的训练集没有人工标注的结果。常见的非监督学习算法有生成对抗网络

(Generative Adversarial Network,GAN) [28]、聚类算法[29,3()】等。半监督学习介于 监督学习与无监督学习之间。强化学习则是一种模拟生物进化过程为了适应环境 变化而进行的学习,强化学习不是基于静态的标注数据,其本质上是学习从环境 到最佳行动的映射关系,通过从与环境的交互及相应的反馈来获取知识,改进行 为策略以适应环境从而达到预设目标[31]
3. 递归神经网络
递归神经网络(Recurrent neural network, RNN) [32,33]是深度学习领域一类常 用的人工神经网络模型,网络结构中包含循环和内部存储单元,是建模序列数据 的有力工具134]。递归神经网络一次处理一个输入序列元素,同时更新网络隐藏层 的“状态向量”(State vector)进而存储并处理过去时刻序列元素的历史信息。递 归神经网络己经在机器翻译[35]、语音识别[3648]、机器人控制[39]、时间序列预测[4G]、 手写识别[41,42]、人类行为识别蛋白质远同源性检测[^、医疗临床路径预测[45] 等领域得到广泛应用。
深度学习是由神经网络逐步发展而来,最初的起源可追溯至感知器的诞生, 1958年,RSenblatt[46]首次提出感知器的概念,借鉴生物大脑神经突触连接结构, 设计并实现了一类简单的单层前馈神经网络/=//(似x + 6),其中//(•)是单位阶跃 函数,该项工作引领了学术界对神经网络的第一波研究热潮。但是1969年Minsky 等人在《Perceptrons》书中对感知器的批判性质疑使相关研宄陷入低谷,书中推导 得出单层感知器无法解决异或为代表的线性不可分问题[47]
1986年Rumelhart等人[48】研宄发现多层感知机可以解决上述复杂非线性问题, 多层感知机中通过组合多个非线性层克服单层感知机在面对线性不可分问题上的 局限性,本质上可以认为是单层感知机的推广,其中一层可以表示为
=攻%x+6,),其中外)是任意非线性函数,通常选作Sigmoid激活函数。 Rumelhart等人在训练多层感知机时所提出的反向传播算法(back-propagation)也 有力地推动了神经网络的发展。然而反向传播算法在网络层数增大时,存在梯度 消失和梯度爆炸的问题,当时有限的计算资源和相对匮乏的训练数据都不同程度 限制了其发挥性能,再加上同时代的支持向量机等机器学习算法[27]开始展现出巨 大潜力,神经网络的研宂再次遇冷。
2006年,Hinton^提出了贪婪逐层预训练方法,解决了多层网络训练难题, 正式开创了深度学习理论。具体而言,他提出了深度置信网络(Deep Belief Networks,DBN),作为一种基于无监督预训练(Unsupervised pre_training)的结 构,DBN由多个限制玻尔兹曼机(Restricted Boltzmann Machines, RBM)层组成。 同样基于无监督预训练的枝式自编码器(StackedAutoEncoder, SAE)也在处理各 类问题中取得不错的性能@_52]。深度置信网络、栈式自编码器以及多层感知机都

绪论
属于全连接结构,当数据维度髙时权值矩阵的参数数目庞大。


1989 年 LeCun 等人[53]所提出的卷积神经网络(Convolutional Neural Networks, CNN)利用局部连接、关联权重和池化层技术,大幅减少了网络中需要考量的参 数,在图形识别、视频分析等领域取得成功应用[53_58]。根据网络中信息流向的划 分,深度置信网络、栈式自编码器以及多层感知机等都属于前馈神经网络 (Feedforward Neural Network),而递归神经网络则在网络信息流向中包含反馈结 构、循环单元。
传统的递归神经网络结构如图1.3所示,图中右侧是将递归神经网络在时间上 展开所得结构图。如图中所示,A表示第/步U = l,2,3,…)的输入,表示隐藏 层在第/步的状态,表示网络的内部存储单元的“状态向量”,第/步的隐藏层状态 由当前时刻的输入' 与上一步隐藏层的状态决定,公式如下:
尽=/(以 +AJ (1.5)

 
   
其中,/是非线性激活函数,通常选作sigmoid函数、ReLU函数等。

虽然递归神经网络擅长处理变长序列数据建模问题,但是当序列长度较长时, 由于反向传播过程中存在的梯度爆炸或消失问题,训练难度增大[59]。长短期记忆 网络(Long Short-Term Memory)通过改进设计存储记忆单元,设置门限机制克服 RNN网络中的长期依赖问题[6()]。门控循环单元(Gated Recurrent Unit,GRU) [61] 是一个当前比较流行的LSTM的变体,相比于LSTM,一个GRU单元只有两个门: 更新门(Update gate)和重置门(Reset gate)。更新门用来控制多少先前的隐藏状 态保持,更新门的值越大表示前一时刻的状态信息保持越多,重置门控制多少先 前的隐藏状态参与当前时刻的隐藏状态输出计算。具体结构如图1.4所示。
GRU的更新方程如下所示:
(1.6)
K = tanhiJVf^ + r)U_' + bh)
/i.
其中,'是当前时刻的输入,是先前时刻的隐藏状态,^(0是Sigmoid激 活函数,•表示元素对应乘法,w,_和则分别是当前时刻的更新门和重置门向量。 GRU的参数%、%、%、R、R、R和九、久、^均通过训练学习求得, 孕是更新隐状态。上述过程可简写为GRU公式:
h^GRUix.^) (1.7)
1.2.2 流行度预测任务
将从UGC内容模态、预测时间和预测域等方面,介绍现有流行度预测研究的 主要分类。相关研究概览如图1.5所示。
1. UGC内容模态
社交网络中传播的UGC的内容模态可大致分为文本、视频、图片等,针对各 类内容形态的流行度,学术界及工业界都展开了广泛而深入的研究。
文本形态作为最古老的信息存储方式之一,在网络数据资源中,文本类资源 占据很大比重。现有流行度预测的研究中,文本形态的传播平台涵盖了 Twitter等 微博客网站[62-68】、在线新闻类网站[69_71]、Digg[72_74】、Slashdot[75]、Reddit[75,76^, 其中研宄最广泛和最深入的是微博客网站中的信息传播。
Twitter被称为“互联网的短信服务”[77],是现今全球新闻、娱乐和评论的重 要来源,并借助其影响力在全球的政治活动中扮演重要角色。注册用户在Twitter 上可以更新发布不超过140个字符的消息,这些消息也被称作“推文”(Tweet)。 Twitter是当前最活跃的社交网络平台,截至2018年3月,Twitter共有3.36亿活
跃用户[78],这些活跃用户每天会发布约3.4亿条推文[78],用户之间通过“跟进” (Following)建立社交拓扑网络,这些都为社交网络的内容流行度提供了绝佳的 研宄环境。

根据一些学者的研宂,推文的流行度整体上服从幂律分布[79_81]。同时,推文的 活跃性也体现在其相对其它社交媒体较短的传播生命周期,通常一条热点推文通 过转发迅速在网络上传播扩散,获得极高的流行度,随后在相关话题热度消散后 迅速湮没在信息流中,如Zaman等人[62]的研究就发现绝大多数推文在其发布一小 时内获得了其整个传播周期中一半以上的转发。
图1.5流行度预测研究概览
Figure 1.5 Summary of the popularity prediction methods
近年来,伴随着计算机运算性能、存储容量的提高以及宽带和摄影器材的普 及,视频类信息大行其道,短视频成为新的社交介质,相比于图片、文本,视频 形态所承载的信息量更大,使UGC更具想象力和创造力,同时用户的观看成本也 更高。因此,视频类信息在社交网络的传播有其自身的规律和特点,对其流行度 预测也成为新的研究热点。YouTube作为世界上最大的视频分享网站,是流行度预 测领域关注的重点。该网站拥有超过2亿个特色视频,涵盖了广泛的主题,包括 新闻、体育、娱乐、科技及教育等各类信息,而这些视频的上传及分享传播由一 个庞大而活跃的在线社区所维持,截至2018年7约,YouTube的月活跃用户达19 亿,日观看时长超过1.8亿小时@1。

视频流行度的预测面临诸多挑战,例如不断增长的视频数量,平台所提供的 视频推荐机制、内部搜索以及其它社交网络平台所带来的流量引流作用,这些都 不同程度增加了视频内容传播的复杂性。Avramova等人的研究表明,视频流行 度的增长过程可以近似用幂律或指数分布描述,Hgueiredc^、GrSmi[85l、Craned 等人进一步细化研究视频流行度随时间增长变化模式。围绕YouTube视频流行度 预测有大量的研宄^,87,88],具体的预测方法将在后续小节详细阐述。此外,其它 社交平台(Daum[89]、DailyMotion[9G]、Vimeo[91]、Yahoo! Video[9G]等)的视频流行 度研究也取得一定进展。
2. 预测时间
根据预测时间的不同,社交网络内容流行度的预测任务可以分为:事前预测 (Ex-anteprediction)和观察式预测(Peekingprediction)。
事前预测[699293]是指在内容发布之前,即内容在网络中扩散传播之前对其未 来的流行度进行预测。该类预测只能根据内容、发布者或者潜在传播网络等特征 进行预测,特征可以是内容的文本信息、发布者的影响力、发布时间等因素,例 如,一条微博是否有配图,有配图的微博更容易引起粉丝或读者的关注;发布者 的粉丝数决定这条微博的潜在阅读人群的数量,意见领袖和“草根用户”的影响 力不可同日而语;微博发布时间是处在哪个时间段,是不是较多活跃用户在线的 黄金时段;发布者过往的发帖历史情况,根据内容发布者所发布历史信息获得的 流行度的平均值等信息,可以得出新发布内容的流行度的预测估计值。
观察式预测[87, 91,则是在内容发布后,根据信息的早期传播历史对未来的 流行度进行预测。两类预测的对比可以简单概括为事前预测声明“因为具备特 征A、特征B、特征C,消息X将比其它消息更加流行”,观察式预测则声明“因 为消息X比其它消息在今天获得更多的关注,所以未来消息X将更流行”。在内 容开始传播后所作的观察式预测要比仅仅依赖事前所获得特征所作的预测表现更 好,Hofman等人[97,98]的研究也证明了这一观点。
在实践应用中,观察式预测也发挥重要作用,例如舆情监管方根据一些易触 发舆情的孤立事件进入网络空间后的早期传播态势,针对性调整对其引导策略, 控制负面舆情蔓延,防微杜渐;营销人员根据商品网上营销的早期热度,调整后 续促销策略。相比于观察式预测,事前预测则可以为打造高流行度内容提供可行 性指导,即哪些特征在社交网络内容传播中起决定性作用,哪些特征的实现更具 性价比等。以YouTube视频网站为例,观察式预测可以根据视频的早期传播特征 生成对未来点击量的可靠预测,然而只有事前预测可以帮助视频制作方在视频具 体的制作及推广上做出优化改进策略。

绪论
3. 预测域
根据预测信息来源的不同,社交网络内容流行度的预测任务可以分为:域内 预测[72,811G()]和跨域预测[711G11G2]。域内预测是指在针对某平台所传播的内 容的流行度预测过程中模型信息均来自平台内部,而跨域预测则考虑不同平台之 间的互动影响关系,利用多个领域的知识,进行跨域的信息预测,即综合应用各 平台信息提高目标平台内流行度预测的准确性。例如,同一热点话题可能同时出 现在微博和视频网站等不同网络中,有着不同的参与群体、信息内容及传播尺度, 微博中的信息传播显著快于视频门户中相应视频的传播,因此,微博域内的数据 便可以在视频流行度预测中提供辅助特征,实现对突发流的预测。近年来,伴随 迁移学习等技术的发展及应用,流行度跨域预测逐渐成为一个新兴研究热点
[103-107]
1.2.3 特征驱动类预测
特征驱动类流行度预测方法的基本思想是应用机器学习算法在内容流行度相 关联特征与未来流行度之间建立映射关系,根据预测目标的连续性,可将预测问 题分别形式化为回归或分类问题。分类问题[69,811()8-113]中预测信息是否能获得广泛 的流行度,即信息的流行度是否到达相应阈值,或者预测信息最终流行度所属区 间范围。回归问题^ 87,93,98114冲则预测目标信息的未来流行度值,即内容在未来 某时刻获得的具体转发数或点击数。如何提取影响社交网络中信息扩散传播的因 素,即特征的抽取过程,是该类预测方法的核心环节,特征的质量直接决定预测 效果。当前学界所提的特征驱动类流行度预测方法所应用的特征可归纳为以下几 类:内容发布者的特征,如发布者的影响力、粉丝数、发布历史等;内容自身固 有的吸引力,取决于内容的质量,如所上传视频或图片的精彩程度等•,内容转发 者的特征,如内容转发者的号召力等因素;内容在社交网络中传播的早期时域特 征,如采纳传播速度等;传播初期的空间拓扑特性,如传播路径的均值和最大长 度等。
Bakshy等人在预测推特上推文流行度的过程中应用回归决策树算法,主要 考量推文内容特征及早期传播者的用户特征。结果表明,参与推文传播的用户的 特征,特别是早期传播者的粉丝数以及推文发布者过往影响力(该用户之前发布 的推文的历史流行度信息),在推文流行度预测中发挥至关重要的作用。在该研宄 基础上,Martin等人[93]进一步整合内容特征、用户特征、话题特征、过往成功特 征等因素,验证了消息发布者的过往成功特征在预测中的重要性,并且考察了基 于特征驱动的方法在复杂社交系统中进行预测时所达到的理论边界,研究表明,

基于用户、内容及过往成功历史等因素的最优组合特征至多可以解释不到一半的 流行度异质性。
洪亮劼等人[81]针对推文预测提出两个分类问题,即推文在未来是否会获得转 发的二分类问题和推文最终转发数所在流行度区间的多分类问题,所应用的特征 包括推文内容的文本特征、转发网络底层拓扑结构特征及相关时域特征。Szabo和 Huberman等人[73]通过研宄视频网站YouTube及社交新闻网站Digg中用户生成内 容流行度的增长趋势,验证信息的长期流行度与传播早期流行度之间存在对数线 性相关性,并建立了基于对数流行度的线性回归模型,刻画对数流行度的回归关 系,该模型在流行度预测领域常被作为基准对比模型。在其基础上,Pinto等人[87] 则进一步拓展该模型,将信息传播早期流行度在时间维度上等间隔分割,并建立 基于多间隔流行度特征的多元线性回归模型。
JustinCheng[99W究了社交网站Facebook上的照片分享级联的预测问题,该研 宄将级联増长及传播的相关特征归纳为五类:所传内容特征、发布者特征、分享 传递者特征、级联拓扑结构特征以及时域特征。区别于其它研宄以流行度的绝对 数值增长为研究对象,该研究研究照片分享级联的相对增长趋势,即未来级联增 量相对应当前级联大小的相对变化趋势,从而使预测模型更具鲁棒性。结果表明, 随着级联的逐步展开,级联相对变化趋势的可预测性逐步提升,而且在级联大小 预测中起决定性作用的是早期级联的时域特征及空间拓扑结构特征,另外,级联 的广度特征在级联增长过程所表现出比级联的深度特征更强的作用。Benjamin Shulman等人进一步丰富了基于特征驱动的预测方法的特征集,并在不同的社交 网络媒体平台(Last.fm、Flickr、Goodreads和Twitter)中验证各类特征集的适应 性及预测表现力。
针对不同的预测场景及信息传播平台特性,众多学者致力于发掘并设计平台 相关的特征,进而提升通用预测模型的性能。Haitao Lit115]通过对比非视频专属类 的社交网络平台(Facebook、Twitter等)和传统的视频分享网站(YouTube、Youku) 上的视频的流行度演化趋势,发现非视频专属类的社交网络平台上的视频流行度 呈现更强的动态演化性,其长期流行度与传播早期流行度之间的相关性变弱,导 致基于视频流行度的线性回归预测模型表现不尽如人意,Haitao Li等人进一步提 出了基于级联传播的流行度预测模型,综合考虑视频分享的底层传播特征及视频 固有吸引力等信息。与该研宄相类似的工作中,VallW116l等人设计了针对Twitter 和YouTube的平台专属特征,考虑到视频在YouTube上获得高点击量和在Twitter 上的快速传播的相关性,Biao Chang^I等人则在网播电视连续剧的流行度预测过程 中,引入平台相关的用户的复杂行为特征,有效提升了预测精度。然而,需要注 意的是,在提升预测精度的同时,牺牲了模型的适应性,相关特征也不便于推广

应用,而且个别特征不便于第三方研究单位爬取。
相比于其它类型的特征,社交网络的空间拓扑结构特征则具有跨平台应用特 性,有学者专门针对相关拓扑结构特征进行了非常有益的尝试,如Lilian Weng等 人tu7]引入用户社区结构信息等底层传播特征,预测社交网络中模因(Memes)的 未来传播趋势,论证了用户社区结构相关特征在模因预测中的重要性,且该预测 方法在判断病毒性模因时优势明显。除了社区结构特征,学界及工业界也分别就 网络密度、网络度等拓扑特征的提取应用展开研究[99118]。虽然该类空间拓扑特征 可以推广应用到不同社交平台或不同预测域内,然而在其具体部署实践中仍存在 极大的不确定性,需有一定的领域先验知识,各类复杂网络中的社区发现算法的 选取便是首先需要解决的难题,其它诸如,如何克服社区划分结果随意性以及较 高的算法复杂度,如何识别并分析相关结构洞相关难题也都不同程度限制了 拓扑结构特征的应用。
综上所述,特征驱动类流行度预测方法的预测效果依赖于所选特征的质量, 然而特征的提取过程会带来计算成本和时间成本,定义特征也会需要一定的人力 成本,特征提取多是基于启发式的探索,缺乏系统性原则和指导性办法,此外, 特征集的完备性和有效性也难以得到验证。因此,在流行度预测过程中,如何自 动提取不同维度的关联特征是亟待解决的问题。
1.2.4 生成模型类预测
生成模型类预测方法的基本思想是直接建模用户生成内容在社交网络中的传 播过程,建立参数模型刻画内容流行度增长机制,具体的刻画过程可以是宏观层 面上描述级联随时间演变的分布状况[64,12Gi,抑或是在微观层面建模信息传播交互 行为的随机过程[62121122]。模型建立后,通过内容流行度的观测部分拟合模型参数, 从而实现对未来流行度的预测。
基于生成模型的预测思想是预测学中一个重要的理论,己广泛应用于各学科 领域并发挥重要作用,例如,地理学中对余震建模预测的研宄[123124];在经济学领 域,:Filimonov等人[125]应用霍克斯模型预测股票市场的演变趋势;在神经生物学领 域,SanggyunKim等人[126]应用点过程模型模拟并预测神经元的尖峰活动;Mohler 等人[127]则将自激励点过程应用于刑事犯罪学领域,建模都市犯罪的时空聚类模 式。此外,在社交网络分析的研究中,生成模型也被众多学者广泛采纳,用来建 模用户交互及感染性传播等现象,这也得益于生成模型类方法对社交网络潜在的 网络特征(如个体间联系、网络拓扑演变趋势等)的精准刻画f12812\
社交网络内容流行度预测领域,近年来涌现出很多生成模型类预测相关的研 究。Yu等人[122]在预测级联动态演化的问题中,建模了微观个体行为到宏观级联演 化的过程,引入了行为动力学方程描述易感染的邻居节点被级联感染的微观机制, 实证分析了行为动力学的演化模式,进而提出了基于生存分析的行为动力学建模 方法,最后通过提出一种新型的可扩展模型将微观行为动力学聚合到宏观级联增 长过程中。Zaman等人提出了基于贝叶斯推理的概率模型,用于根据转发事件 的时间序列和转推的网络拓扑结构,预测一个给定推文的转发的最终数量。模型 成立的假设是用户对推文的操作遵循同一模式,即用户转发推文的概率取决于该 用户的关注者的数量以及发布初始推文的用户与该转发者在转发网络上的距离, 需要注意的是,该模型是内容无关的(Contentagnostic)。
Crane等人通过对YouTube上数百万视频的观看次数进行时序分析,发现 绝大多数视频观看行为服从泊松分布,其余视频的观看量在经历爆发性增长后服 从幂律衰减,并且可以根据衰减指数的不同将视频流行度演化趋势分类。在其基 础上,他们提出了基于弛豫响应的传染病学模型用来建模视频流行度,该模型可 视为涨落耗散定理(The fluctuation-dissipation theorem)在社交网络复杂系统中的 拓展延伸,该研究为后续的复杂系统中的时序分析研究奠定了理论框架。在该框 架基础上,Zhao等人[131]建立了自激励点过程模型刻画推特中推文的转发级联增长 过程,其中推文被转发的概率由推文的吸引力所决定,且推文吸引力为变量,随 时间变化增长或减弱。通过估测某一时刻推文的吸引力并与预设阈值作比较,可 以判断转推级联在该时刻出于超临界或亚临界状态.•若推文即时吸引力超过阈值, 则该转推级联出于超临界状态,即该转推级联将经历爆发性增长,显然在这种情 况下,最终级联规模不可预测;反之,转推级联出于亚临界状态,Zhao等人给出 了相应的最终级联规模预测算法。
学术论文引用次数的预测也是一类特殊的社交网络预测场景,不同学者发表 论文,并通过相互引用建立学术社交关系网络。Wang等人[132]利用增强泊松过程 对学术论文获得引用的过程进行建模,模型刻画了论文的适应力、论文新颖性随 时间推移的衰减效应(系统弛豫响应)以及引用过程中的优先连接机制。其中论 文的适应力为常数,论文新颖性衰减服从对数正态分布,论文被引用的概率与论 文当前的累计获得的引用次数呈正相关,从而表示优先连接机制,表征“富者更 富”效应。Shen等人[133]在上述模型的基础上添加共轭先验,从而改善模型在训练 集中的过拟合现象,此外,新模型中论文适应力服从伽马分布,有效提升了模型 的预测精度,同时,弛豫方程的灵活选取使该模型适用不同领域的流行度预测, 成为预测领域的通用框架。在该增强泊松过程框架内,Gao等人考虑到微博用 户活跃度的周期性变化特征,定义微博时间参量,建立时间映射函数强化模型预 测性能。

绪论
综上,流行度生成模型的设计过程中会考虑到内容传播、扩散特性,即流行 度生成模型的各部分对应信息扩散传播相关的因素或增长机制,如“富者更富” 效应或“优先链接原则”等,这给模型的预测结果带来了一定的可解释性,也为 更进一步实现流行度可控、相关话题引导提供相应的理论基础。同时,预测模型 的可解释性也一定程度上提升了模型的易拓展性,由于预测各环节具有可解释的 意义,模型各个参数可以应用为其它社交网络分析应用的输入。可以看出,生成 类预测模型通常是针对个体传播内容,模型参数的拟合过程中通常只需要给定内 容的传播历史,因而也便于多项预测任务实现并行化处理,为进一步实现大数据 处理分析提供了基础。
相比于特征驱动类预测方法,生成模型类预测避免了繁琐的特征提取及模型 训练过程,可以实现实时预测。在社交网络中,各类信息借助社交关系网络裂变 式传播演进,网络话题热点瞬息万变,这些都对舆情应急处置速度提出新的要求, 需要迅速感知、预测、应对各类舆情突发事件,因而生成模型具有的实时预测的 特性便显得尤为重要,有助于及时发现负面信息和正确引导网络舆论,在一些易 触发舆情的孤立事件进入网络空间后迅速预测其发展态势,为舆情引导提高决策 支持,控制负面舆情蔓延。生成模型类预测的建模过程也带来了对各类传播现象 的强假设,这些假设是对真实场景的极简描述,而且相比于特征驱动类预测方法, 模型参数只是对给定内容的当前传播历史作近似拟合,缺乏以未来的流行度为指 导的参数学习过程,因此在预测性能上受限。
针对以上流行度预测任务及预测方法的分类方法,将现有的流行度预测模型 做如下汇总,如表1.1所示。
表1.1现有流行度预测模型汇总 Table 1.1 Summary of the popularity prediction methods
        预测特征    
模型 任务类型 预测方法 数据集
       
SVM
-2012[92]
事前/域内 特征驱动类     Feedzilla
Random Forests -2009[69 事前/域内 特征驱动类     Dutch online
Random Forest -2016[93] 事前/域内 特征驱动类         Twitter
M-L/MRBF 观察式/域内 特征驱动类       YouTube
 
 
 

预测特征
模型 任务类型 预测方法时拓内用 数据集
域扑容户
-2013[87]
Digg,
YouTube
Digg
JokeBox
Twitter
YouTube
Twitter,
AMiner
Youku
Twitter
Twitter
RenRen
Facebook
Twitter,
Last.fm、
Flickr、

绪论
        预测特征    
模型 任务类型 预测方法 数据集
       
-2016[98]             Goodreads、
              Twitter
Survival model -2017[122] 观察式/域内 生成模型类     Tencent
Weibo
Hawkes
-2008[130]
观察式/域内 生成模型类       YouTube
SEISMIC
■2015[135]
观察式/域内 生成模型类         Twitter
Minimal Citation
_213[132]
观察式/域内 生成模型类         Physical
Review
Reinforced             American
Poisson Processe 观察式/域内 生成模型类         Physical
-2014_             Society
Reinforced              
Poisson Processe 观察式/域内 生成模型类 /     Weibo
•2015,]              
SocialTransfer[I01] 观察式/跨域 特征驱动类         Twitter,
YouTube
Linear regression -2014[71] 观察式/跨域 生成模型类     A1 Jazeera, Facebook
Linear
Regression102]
观察式/跨域 特征驱动类       IMDb,
Twitter,
YouTube
 
 
 
1.3论文的主要研究内容和创新点
论文的研究工作受到了国家自然科学基金项目(No.61271308) “互联网用户 偏好描述方法、形成机制与演化模式研究”、国家自然科学基金项目(No.61172072) “在线社交网络舆论传播演化模式及热点预测方法研究”、国家自然科学基金青年 基金(No.61401015) “社交网络用户行为分析及话题演化趋势预测方法研究”和

中央高校基本科研业务费专项资金资助NO.2017JBZ107)的支持。
1.6论文组织架构图
Figure 1.6 Mind map of the themes related to this dissertation
论文的主要工作、研宄重点及各章节联系如图1.6所示。主要研宄内容和创新 点如下:
1. 研究基于生成模型的流行度最终规模预测方法。考虑到先前发生的传播事 件对后续传播事件有促进激励作用,建立基于自激励点过程的信息流行度 生成模型,综合考虑消息吸引力、网络拓扑结构、系统弛豫响应等因素, 量化信息传播事件间的作用关系。在通过传播历史进行信息流行度预测的 过程中,研宄观察窗口选取与预测精度之间的关联机理,通过聚类消息吸 引力的全局动态演化模式,提出一种自适应观察窗口的挖掘方法,增加观 察式预测的精度和适应性;通过设计随机森林回归器学习得到预测比例因 子,结合特征驱动类预测方法在预测精度方面的优势,将其纳入基于生成 模型的流行度预测框架内对预测结果进行微调,从而预测结果兼具准确性 和可解释性。通过在两个真实的社交网络数据集中进行实验,验证模型的 有效性和适用性,同时,消息吸引力早期动态演化趋势与最佳观测点之间 的强相关性,观察窗口选取策略的有效性也都得到验证。本研宄有助于更 深刻地理解社交网络内容流行度的形成过程与增长机制,是进一步研究网 络观点扩散的基础。同时,本研宄为预测学的发展提供可靠理论支撑及实 证素材,有效观测历史和未来的关联性的研究促进预测学的发展,对其他 领域的预测应用具有借鉴作用。
2. 分别从“事件”粒度和“时间”粒度的角度,研究流行度演化趋势预测方 法。基于“事件”粒度,在生成模型的基础上,提出一种新型的消息转发 数动态预测方法,该方法对未来待预测时刻之前发生的转发事件的影响进 行分解,并分别根据事件强度的定义求解其对未来预测时刻的影响,两部 分影响叠加后生成Vblterra积分方程,求解即可实现消息转发数动态预测;
 

基于“时间”粒度,建立融合多个传统时序模型(ARIMA、M-L、SVR) 的预测能力的组合预测框架,各子模型对同一时间序列进行预测,并根据 各子模型在序列历史预测中的评估表现,对三类模型的预测结果赋予不同 的权重,进而生成组合预测结果,并提出相应的组合权重学习方法。该组 合预测模型可以根据各子模型的即时预测性能不断调整组合权重,从而适 应演化模式的动态变化。两类预测模型分别应用于Twitter、Last.fm、 MovieLens、Flickr及Amazon等真实的社交网络数据集,虽然用户生成内 容涵盖文本、图片、电影、音乐、图书等的形式,但是通过抽象“事件” 粒度和“时间”粒度,所提模型均实现优于己有模型的预测性能,基于时 间序列的组合预测模型的平台适用性也得到验证。本研究有助于更深刻地 理解社交网络中信息扩散过程,为进一步实现对社交网络热点话题跟踪、 研究宏观舆论演化提供基础。
建立基于表征学习的级联增量预测方法。借助深度学习端到端思想,该模 型直接从级联网络原始数据中自动学习级联的时域及拓扑结构特征,克服 传统的特征驱动方法中人工构造特征的局限性;针对级联时域特性和拓扑 结构特性在级联增量预测中呈现的互补性,提出注意力引导的时空耦合机 制,分别利用时域信息和拓扑结构信息互相监督其组合权重的生成,以实 现对级联时空信息的“结构化”,有利于更有效的模型训练,增强级联预 测模型的刻画及预测能力。在两个真实的应用场景一Twitter中推文的转发 增量预测和学术论文被引次数预测一中进行的实验表明,该预测模型在预 测准确度上优于已有的级联预测模型,此外,级联时域信息和空间拓扑信 息的互补性,时空耦合的注意力机制设计合理性也都得到验证。这些研宄 有助于更深刻地理解发生在社交网络中的级联增长过程,为进一步研宄网 络舆论的传播提供基础。
研究社交网络内容的相对流行度预测方法。首先,建立基于个体行为偏好 的二部图模型,该模型中不同类型的微观偏好被抽象为不同权值的边,边 权重函数可以量化个体交互类型和交互时间;然后,从聚合微观偏好角度 出发,建立融合社交网络流行度增长机制的正则化框架,实现宏观偏好排 序,正则化框架中,不同的正则化项分别定义二部图中推文流行度及用户 影响力评分的更新规则,刻画微观偏好的聚合过程,并为推文流行度评分 和用户影响力评分设定初始约束条件。在真实的社交网络数据集中的实验 表明,该模型可实现更好的流行度排序能力,分别表现在流行度全局排序、 对不同热度的内容的排序以及热点内容的早期预警等任务,正则化项设计 的合理性也得到验证。本研究不但有助于理解网络用户的行为模式和特

征,还对认识网络信息的聚合与网络舆论的形成有很大帮助,为社交搜索 和推荐系统等应用领域提供有利的研究工具,在经济和网络价值发掘的实 践中,都有广泛的意义和价值。
1.4论文的结构
论文的组织结构如下:
第一章为绪论,介绍了论文的研究背景和研究意义,对相关的研究方法和研 宂现状进行了综述,提出了论文的主要研究内容和框架结构。
第二章研究流行度最终规模预测方法,分析了影响信息扩散传播的因素,抽 象信息流行度增长机制,借助点过程理论建立信息流行度生成模型。研宄了观测 历史与预测精度之间的关联性,并提出一种自适应观察窗口的挖掘方法;探讨了 两类主流预测方法(基于特征驱动和基于生成模型)的融合问题。
第三章研究流行度演化趋势预测方法。基于“事件”粒度,拓展了第二章的 研究,提出了一种新型的推文转发数动态演变预测方法;基于“时间”粒度,研 究并选取几类传统的时间序列预测模型,建立基于时间序列的组合预测模型,并 提出相应的组合权重学习方法。
第四章研究基于表征学习的级联增量预测方法,借助深度学习端到端思想, 自动生成级联的特征表示,提取与级联增量相关的时域和空间拓扑结构的高维特 征,提出注意力引导的时空耦合机制融合这些特征,并应用多层感知机生成预测 模型。
第五章研究相对流行度预测方法,即流行度排序问题。借助二部图结构及正 则化理论对网络微观偏好和宏观偏好的关联性进行研究,建立了基于个体行为偏 好的二部图模型,定量描述微观偏好和宏观偏好间的映射关系,提出了基于正则 化的排序算法。
第六章总结了论文的主要工作和意义,并对未来的研究方向提出了展望。
2流行度最终规模预测
本章首先分析影响信息扩散传播的因素,抽象信息流行度增长机制,并借助 点过程理论建立信息流行度生成模型,量化了信息传播事件间的作用关系。接着 在通过传播历史进行信息流行度预测的过程中,研究观测历史与预测精度之间的 关联性,并提出一种自适应观察窗口的挖掘方法。然后探讨了两类主流预测方法 (基于特征驱动和基于生成模型)的融合问题。最后在两个真实数据集中检验模 型的预测性能。
2.1引言
社交网络是用户分享传播信息、表达情绪、交换观点意见的网络媒体应用平 台,兼具互联网去中心化、技术赋权的特点。社交网络模糊了媒体和受众的界限, 激发用户创作并分享内容,比如全球最大的视频网站YouTube全球用户己超过10 亿人,用户平均每分钟会向平台上传超过500小时的新内容。信息过剩带来注意 力稀缺,即用户的注意力是有限的,只能关注其中的一部分感兴趣或热门的内容。 根据印第安纳大学Weng等人的研宄不同内容对有限的用户注意力的竞争以 及社交网络的拓扑结构共同作用,会导致网络内容享有的关注度(即流行度)存 在巨大的异质性,少数内容获得大量关注,而大部分内容默默无闻。因而,建模 并预测用户生成内容的流行度增长趋势己经成为当前研究的热点。该研究也具有 非常重要的实际应用价值,比如准确预测内容流行度的最终规模(下文亦可简称 为最终流行度),将有助于及时发现负面信息和正确引导网络舆论,在一些易触发 舆情的孤立事件进入网络空间后迅速预测其发展态势,控制负面舆情蔓延。
当前研宄者所提流行度预测方法根据预测时间不同(在内容传播前预测或在 内容开始传播后预测),可分为事前预测和观察式预测。由于考虑内容早期传播态 势,观察式预测性能普遍优于事前预测,同时,密歇根大学的Martin等人的研究 表明[93],事前预测中起主导作用的因素是内容发布者过往发布的历史内容所收获 的流行度情况。可以看出,不论是事前预测还是观察式预测中,UGC的传播历史 都是一个重要信息,“能看到多远的过去,就能看到多远的未来” [137],当前预测 模型对有效历史的选取中缺乏指导性原则和系统性方法,只是粗粒度、启发式地 对不同历史赋予不同权重[87],这种简化制约了模型在模拟社交网络中内容流行度 增长机制方面的还原能力和预测能力。因而,如何量化传播历史与未来流行度趋 势间的关系,并进一步生成对有效历史的筛选策略是亟待解决的问题。此外,如 1.2节所述,流行度预测方法也可以划分为特征驱动类方法和生成模型类方法,两 类方法各有擅长及缺陷,详情此处不再赘述。如何结合这两类方法,将其融汇在 一个统一的模型中,在模型刻画能力与预测能力之间寻求平衡,也是需要深入探 讨的问题。
针对上述问题,本章在借助点过程理论框架的基础上,建立内容流行度生成 模型,研究观测历史与未来预测之间的联系,引入自适应观测域,自适应观测域 可根据消息的早期传播态势自动适配;提出融合特征驱动模型和生成模型的流行 度预测方法,继承吸取两类主流预测方法的优势。然后,通过在两个真实的社交 网络数据集中进行实验,验证模型的有效性和适用性,并对模型的预测性能与己 有算法进行比较。本研究有助于更深刻地理解社交网络内容流行度的形成过程与 增长机制,是进一步研究网络观点扩散的基础。同时,本研宄为预测学的发展提 供可靠理论支撑及实证素材。
2.2社交网络转发级联建模
2.2.1 社交网络内容流行度增长机制
选用推特(Twitter1)上推文(Tweet)的传播扩散为例进行研究。推特作为风 靡全球的社交网络与微博客服务平台,是互联网上访问量最大的十个网站之一[3]。 截至2018年3月,Twitter共有3.36亿活跃用户,这些用户每天会发表约3.4亿条 推文[138]。从而为研宄社交网络中内容流行度增长机制以及用户集体行为的深层驱 动机制提供了丰富的素材,同时作为典型的社交网络应用,在推特上进行的研究 很容易在其它社交平台推广应用。
在推特上,用户可以选择关注(Follow)自己感兴趣的其它用户,成为其粉丝 (Follower),建立单向关注联系。当某用户发布一条推文时,该推文呈现在该用 户粉丝的Feed流(Timeline)中,用户粉丝查阅该推文,并根据自身兴趣爱好、 推文的内容、时效性、发布者权威性及外部环境等多方面因素决定是否转发该推 文。如果选择转发该推文,则形成一次转发事件(Retweet Event),该推文将出现 在转发者(Retweeter)的粉丝的Feed流中,在转发者的粉丝再选择是否转发该推 文,依此类推,形成转发级联(RetweetCascade)。

 
 
2.1展示了推特上推文转发级联的一个实例。图中每个圆圈表征社交网络中 的用户,虚线表示Follow关系,如用户D关注用户A (Elon Musk),Elon Musk 发布一条推文后,则该推文出现在用户DFeed流,实线表示转发关系,亦即用 户D转发该推文,之后用户D的粉丝用户F在査看该推文后选择继续转发,然而 用户BE等虽然看到该推文但并未选择转发,从而图中的转发级联网络即为 MCAFG},表征一个由ElonMusk发布的推文在社交网络中触发的转发级联。
推文的转发次数反映推文信息在社交网络中的扩散范围和影响深度,本研究 参考当前学界和工业界主流的预测任务设置,将推文流行度的衡量指标设置为推 文的转发次数,即初始推文在社交网络中触发的转发级联的大小,如上述例子中 转发级联的大小为4。推文最终流行度的预测任务即是针对给定推文,依据该推文 所生成的转发级联的初期阶段相关信息,预测该推文最终可获得的转发数量。具 体数学表述为:
给定推文的发布时间为观察发布后t时间段内针对该推文的转发事件,用 认,式)表征转发事件,其中,表征第i个转发事件的发生时间,式表征第i个转 发事件中转发者的粉丝数量。其中,转发事件之间的精确时间间隔中蕴含着关于 推文传播底层社交网络的动态演化信息,转发者粉丝数是社交网络中用户拓扑关 系的极简抽象信息,表征该用户的影响力大小,决定推文的潜在转发群体,若转 发者粉丝数多,则推文被更多用户接触到,进而扩大其传播范围。推文传播过程 中的初期转发事件按其发布时间递增排序,可得到推文的初期转发事件链, 汍一1)办名),...,(/,,幻...}。用计数过程耶)表示截至1时刻推文所累计获得的转 发数量,满足贝!预测任务即是:在t时刻根据初期转发链 汍,式)办名),...,((,式)...},对该推文的最终流行度7?(〇〇)做预测。
本章节中涉及的相关数学符号与定义汇总如下,详见表2.1。
表2.1相关数学符号与定义 Table 2.1 Table of symbols
数学符号 定义
’0 推文的发布时间
t 预测时刻,即作出预测的时刻
h 第i个转发事件的发生时间
  第i个转发者的粉丝数
R(t) 截至t时刻推文累计获得的转发数量
r(k) 时间间隔k中累计发生的转发事件的数目
i?㈣ 推文的最终流行度
推文的最终流行度的预测值
m 计数过程^(0的事件强度
Pit) 推文在t时刻的内在吸引力
m 记忆核函数
cumD(t) 截至t时刻查阅推文的累计用户的数目
cumd (k) 时间间隔k中查阅该推文的累计用户的数量
L 观察窗口的大小
Best-peek 最佳观测点
Ira 推文的瞬时相对吸引力
IRA(M) 推文/ra随时间变化的时间序列
6) 预测比例因子
 
 
 
2.2.2 自激励点过程建模
由上一节推文流行度增长机制研究可知,一次转发事件的发生可以促使更多 的用户接触到该推文,增大推文的曝光度,从而提升推文被转发的概率,促进后 续转发事件的发生。转推事件之间的相互激励作用类似于地理学中余震事件的发 生,地震中主振后在同一震源区内会陆续发生震度较小的余震,其发振机制具有 某种内在联系或具有共同的发振构造。受自激励点过程模型在建模余震研究方面 成功应用的启发本节将其应用于转发级联建模中,用自激励点过程描述转发 事件之间的相互激励作用,刻画推文流行度增长机制。
本节将推文的转发次数i?(0建模为自激励点过程模型。点过程的定义详见本
书第1.2.1节,自激励点过程(Self exciting point process),也称为霍克斯过程 (Hawkes process),是一种具有特殊形式的事件强度的点过程。转发过程的事件 强度定义为
X{t) = P (7?(r + - if (〇 = 1) (2.1)
即;1(0刻画在无穷小时间间隔[〖,z+^]内发生一次转发事件的概率。经典霍克 斯过程的事件强度形式如下[1614()]:
^(〇 = //(〇+f y{t-s)dR{s) (2.2)
J—oo
其中,〆⑴是外部基础强度,表征推文的转发事件之外的因素对后续转发事 件的影响作用,如推文信息传播过程中,真实世界突发状况影响社交平台上信息 的发酵扩散,刺激或抑制其传播;K0是一个事件触发核函数,用于量化先前发生 的事件对后续事件的触发效应。为了简化模型,便于刻画流行度增长机制,在本 研究的转发级联模型中,除了初始推文外,不考虑其它外部生成事件,同时,及⑴ 为原子测度(Atomic measure),原子对应转推事件的时间,事件强度即可表 示为:
雄) = (卜0 = X^⑺州-幻 n.3)
ti<i ti<t v . /
在此,分解事件触发核函数K0。如式2.3所示,a(〇量化触发效应的作用强 度,州)为记忆核函数(Memory kernel function),量化触发效应如何随时间演变, 定义为推文呈现在用户的Feed流到被用户查阅(决定是否转发)之间的时间间隔 所服从的概率分布。作用强度^(0可进一步分解为:
= (2.4)
即每个转发事件对后续转发事件的影响包含推文自身属性和转发拓扑网络两 方面的因素。/?〇)即推文的内在吸引力(Intrinsic attractiveness),表示为在t时刻 推文被用户查阅时被转发的概率。户(0由推文内容的质量、时效性、发布者权威 性、地理位置信息等多方面因素决定,在此综合这些推文相关因素为〆0。需要 说明的是,厂《是随时间变化的,如随着时间推移,推文信息的时效性变弱,P(0 减小;此外,当某权威人士(如意见领袖、大V等)参与推文的转发,会增大相 关话题的关注度,进而〆0增大。如2.2.1节介绍,式是转发拓扑网络结构信息的 简单抽象,为第/个转发事件中转发者的影响,表示该转发者带来的潜在转发群体, 因此,转发级联模型赋予高连接度的节点更多权重。进而,转发事件强度A(0表示 为:
雄)=户(,)[徘(2 5)
关于转发事件强度义(〇,有以下的直观解释:第/个转发事件中转发者所带来 的潜在转发群体并非在推文发布后立刻查阅推文并决定是否转发,而是依照一定
概率分布的反应时间(即火0),依次查阅该推文,则是/时刻先前发生的 转发事件带来的潜在转发群体中查阅该推文的用户的到达强度,显而易见,其与 的乘积既是t时刻的转推事件强度。
记忆核函数0(0决定推文信息所在社交网络系统的弛豫响应时间,即外部刺激 (推文)输入到社交网络系统中进行传播,到所有潜在转发群体都查阅并做出转 发决定所需要的时间。从这个角度看,霍克斯模型可以被视为传染病模型和分支 过程的一般化[141],相比之下霍克斯模型増加了记忆核函数外0部分,使得对事件 增长过程中时间信息的精准刻画成为可能。在霍克斯模型现有应用中,主要使用 三类函数作为记忆核函数:用于地球物理学和社会网络学的幂率函数 我r) = (r + c;T(4 [86123];经济学分析中的指数函数阶)=一[125];传染病学研宄 中使用的瑞利(Reyleigh)函数阶)=6_卜[142]。Barabsi等人的研究表明:社交网络 中的用户响应时间服从重尾分布。其次,考虑到推特等微博客网站上信息共享的 实时性和便捷性,超过半数的响应(转推事件)出现在推文发布后的一个小时内 [143],故用户响应时间分布应该倾向短时间间隔,且该分布应是偏态且长尾,从而 刻画响应的长时依赖性和突发性。所以,在推特上,幂率核函数作为记忆核函数多W 的表现优于指数核函数和瑞利核函数,这一研究与Zadeh、Mishra等人对社交网络 中系统响应时间的研宄结果相一致[144,145]
不同的社交网络平台拥有不同的记忆核函数^⑴,即不同的用户响应时间分 布。针对作为研宄对象的推特网站,考虑到初始推文获得比转发推文更多的转发 [62],在拟合记忆核函数〆0时,本小节挑选了 15条推文,这些推文的发布者都拥 有大量的粉丝,可以假定这些推文的所有转发事件的时间分布近似于记忆核函数
m
拟合即可求得记忆核函数如下:
[c (0<5<5n)
叫軌)-㈣㈣。) (2 6)
其中c = 6.27xl(T4, 0 = 0.242, &=300夂拟合所得记忆核函数州)与本节上 文中理论分析相一致,前5分钟保持不变,随后经历幂率衰减。
2.3社交网络内容最终流行度预测
上一节建立了基于自激励点过程的转发级联模型,刻画流行度增长机制,在 此基础上,这一节应用该模型对最终流行度进行预测。首先根据转发级联初始阶 段拟合模型的参数,即推文的内在吸引力;在拟合过程中,提出并解决最优
观测区间的问题;最后,利用分支过程理论使转发级联初始形态在社交网络进行 拓展演变,从而预测级联最终形态,即最终流行度,预测过程中探讨了特征驱动 预测方法与生成模型预测方法的融合应用问题。
2.3.1转发级联模型参数估计
考虑〆0恒定不变的情况,根据事件强度4(0的定义,可知当给定转发事件 即第/-I次转发事件发生在。时,则第/次转发事件发生在(.时刻的概

率为:
R{t)
cumD(t)
其中,o^Z)(〇表征截至t时刻己查阅该推文的累计用户的数目,这些用户 在查阅的同时决定是否转发该推文。故公式2.12可理解为,t时刻的累计转发量

与累计查阅用户的商值即是该推文的内在吸引力M0。
考虑到P⑴随时间变化,引入单边核函数&(4对不同的转推事件进行加 权:
Kt(ts)dR(s)
P(t) = 77^  (2.13)
KAt-s)dcumD(S)
核函数A(幻定义为:
Kt(s) = max{\- — ,0},s >0 (2.14)
L
其中[为观测窗口(Peekingwindow)的大小,即观测点(Peekpoint)和预测 时刻t之间的距离。该核函数对观测窗口中靠近t时刻的转推事件赋予更多权重, 从而使拟合值力(0更接近真实值。
2.3.2挖掘自适应观测区间
观察窗口的选取决定哪些转发历史信息用于估计推文的内在吸引力P(/),进 而生成对推文未来流行度的预测。显然,观察窗口的选取会影响对推文最终流行 度的预测精度,二者之间的联系可由相关实例展示,如图2.2所示。预测时刻t选 10分钟,即在初始推文发布10分钟时对该推文的最终将获得的累计转发数做预测。 从数据集TWEET-SNAP (详见2.4.1节)中选取三个初始推文,图2.2中ID表示 初始推文的ID,各图分别展示不同的推文转发级联中随时间推移依次发生的转发 事件。图2.2中的内嵌图分别给出不同的转发级联中,对推文最终转发数的预测精 度随观测点的变化的趋势图,预测精度由绝对百分比误差(Absolute Percentage Error,APE,定义详见2.4.3节)衡量,APE值越小,表示预测效果越好。
从图2.2中的内嵌图可以看到,预测精度随观测点选取不同而变化,但并未呈 现单调性或其它规律性特征。定义APE值取得最小值时的观测点为推文的最佳观 测点(Best-peek),最佳观测点与预测时刻之间的区间即为最佳观测区间。由图中 可以看出,每条推文均有各自的最佳观测点,以推文(ID: 127109877667000000)为 例,其最佳观测点为125秒处(绿色五角星标识),紫色三角标识的观测点为300 秒,选择300秒为观测点是文献t135]所提出的SEISMIC模型中的观测点选取策略, 即选取转推级联初始阶段的后半部分作为最佳观测区间,显然该观测点选取策略 是一种启发式、粗粒度的选取策略,不能保障获得最优预测精度。同时,图2.2中 也分别标记了观测点选取在200秒和400秒时的预测精度,预测效果也均欠佳。 此外,从嵌入图中可观察到,通常情况下观测点的选取越靠近最佳观测点,则预 测效果愈好。综上,最佳观测点选取在推文最终流行度预测过程中发挥至关重要


的作用,现有的启发式、粗粒度的选取策略不能满足预测精度要求,因而,根据 每个级联的初始阶段确定其最佳观测点是亟需解决的问题。关于该问题的必要性 和重要性也将在第2.4.2节详细论证。
为了提出Best-peek的选取策略,本节从转发级联的初始阶段中提取如下特征: 瞬时相对吸引力(Instantaneous relative attractiveness, /ra)。将初始阶段等分为m 个时间间隔,定义K0为时间间隔i中累计发生的转发事件的数目,即
r(/) = /?(〇-观 J (2.15)
其中。和(分别为时间间隔i的起点和终点。同理,定义⑶—⑴为时间间隔 i中累计查阅该推文的用户的数量。瞬时相对吸引力(/ra)定义为:
cumd(i) / cumD{t)
/ra可以理解为推文在时间片段局部内的吸引力,同时排除推文在初始阶段全 局吸引力的影响,做归一化处理便于不同推文之间对比分析。针对推文A即可以 得到一个m维的时间序列向量结合/ra定义 可知,时间序列^的形状表征推文"的/ra随时间变化的动态趋势,即推文 在社交网络平台中分享传播时展现的特质及该特质随时间的演化情况,如推文转 发事件的爆发峰值及传播低谷的时间分布信息,时间序列_(")是对这些特质的 一种全局刻画。这些转发传播特质很显然和推文的未来传播扩散趋势及最终流行 度预测息息相关,故做出如下假设:对于每一个推文,在t时刻做预测时选取的 Best-peek与r时刻观察到的推文转发级联初始阶段的/ra演化趋势呈强相关性,可 以根据/ra演化趋势判断其Best-peek。
根据以上假设,提出Best-peek选取策略如下:得到一个训练集,训练集中的 转发级联通过实证获取各自的时间序列向量/见4以及Best-peek真实值;使用时间 序列聚类算法从训练集中的转发级联的//L4中聚类提取出/ra的时间演化模式(/ra patterns),具体而言,将训练集中的推文聚类到不同的组,每一组中的推文具有相 似的/ra时间演化趋势,即每一类/ra模式有各自的聚类质心;如果上述所提假设 成立,贝!J不同组内的推文的Best-peek也将聚集在同一时间点,即每一类/ra模式 对应各自不同的Best_peek;通过判断推文的/ra模式即可得到其Best-peek。关于 /ra模式的分析及假设的验证将在第2.4.2节详细阐述。
为了根据演化曲线的形状对时间序列/兄4进行聚类分组,本节提出了一种改 进的时间序列聚类算法(minimalist K-Spectral Clustering,min-KSC)。考虑到转发 激增或递减的时间点在选取Best-peek中的作用不可忽视,min-KSC算法与经典的 K-Spectml聚类算法相比[146],在/ra模式提取过程中不考虑时间序列向量在时 间轴上的位移。min_KSC算法中描述两个时间序列x和y之间的相似性的距离度
 
 
 
 
 
 
量定义如下:
其中|H|是欧几里德距离norm)。min-KSC算法是一种类似于K-means聚
类算法的逐点修改迭代的动态聚类算法,区别在于使用公式2.17的距离度量进行 聚类质心的迭代运算。给定/m模式的数量为尤以及时间序列向量/兄4的集合, min-KSC算法步骤如下:
1) 初始化聚类质心,在时间序列/M的集合中随机选取聚类质心
2) 利用距离度量的计算方法j〇c,>〇,将集合中的每个序列分配给和其距离
最近的质心;
3) 更新聚类质心,新的聚类质心满足
ck=argminc d{IRA(v\c)
imv)^
4) 重复步骡2和3直至收敛,即步骤2中集合中的时间序列/兄4所属类别维
持不变。
综上,当预测某一转发级联的Best-peek时,首先根据公式2.16获取序列/兄4, 然后通过计算其和/ra模式的质心之间的距离判定级联的模式,最后将/m模 式对应的Best-peek赋值给该级联。
2.3.3预测
上一节通过对转发级联的初始阶段建模可得到推文的内在吸引力P⑺,鉴于 本章预测任务为推文的最终流行度,即转发级联的最终规模。需要将转发级联在 整个社交网络中做拓展演变,因此考虑将自激励点过程和分支过程(Branching Process)理论联系起来,提出基于分支树结构的预测框架。
分支过程是对群体进行建模的马尔可夫过程,该群体中第k代中的每个个体 根据一定分布生成随机数的隶属下一代(k+1代)的个体[147]。基于转发机制的社 交网络内容传播具有类似的代际特性,原始内容发布者的好友接收到内容后依照 一定概率对其进行初代传播,初代传播者的好友又生成次代传播,依此类推。因 此,本节依照分支过程概念将t时刻之后的转发事件划分代际,将转发事件与分支 结构相关联[148]
如图2.3所示,将所有触发事件发生在t时刻之前的转发事件划归为Q代。G。 代内的转发事件触发6代的转发事件,依此类推。定义^为巧代中转发事件的总
数,则t时刻后发生的转发事件的数量的期望为1:4。
*=〇

图2.3转推事件的分支结构示意图
Figure 2.3 A branching structure of retweet event
假设推文的内在吸引力0在预测时刻t之后保持不变,则社交网络的出度 (Out-degree),即网络中用户的关注者数目服从独立同分布,期望为忒,么将在 被预测的社交网络中实证求的。进而,时间序列{^}可看作分支因子7 = /^的 Galton-Watson分支过程。当灸> 0时,
zk =7^-i (2.19)
当分支因子7<1时,{^}一个收敛的几何级数,其总和可以通过以下公式估 算:

 
   
 
   
P.20)
忑可根据定义求的:
(2-21)
其中,表征t时刻之前发生的转发事件所带来的潜在转发群体中 t时刻之后触发的部分,即这些转发事件均增加了推文的传播范围,使得更多的 用户可以査阅该推文,根据记忆核函数0的定义,该部分表示t时刻之后査阅该 推文的用户数目。这些用户査阅推文后做出是否转发该推文的选择,从而触发代 的转发事件。
综上,可得到转发级联的最终规模,亦即最终流行度预测值为
00 PlK dU
l=R(〇,izk=R(〇, -V--- (222)
*=〇 \-pd^
上式成立的前提是假定推文的内在吸引力;在t时刻之后保持不变,显然这 一假设与一些真实的推文传播过程不符,需将其预测结果做相应微调处理,从而 适应各类真实的推文传播过程。综合而言,基于如下原因考虑引入比例因子仿对

最终流行度的预测值进行微调:
1) 推文的内在吸引力〆0是时变的,例如,随着时间増长,推文时效性变弱, 〆0变小,抑或在高影响力的用户转发该推文后,将给推文带来更多的受众,并 变相地增强其推文内容的权威性,使户⑴变大;
2) 分支因子//<1不能应对推文流行度迎来爆发性增长等特殊情形,而分支因 子;/>1时,{ZA}发散,不能生成预测值;
3) 生成模型(本研究中釆用霍克斯模型)对转发事件的生成过程进行了强假 设,如霍克斯过程的事件强度函数通常被假定为触发核函数的线性求和,从而使 其不能描述真实网络中存在的非线性效应;记忆核函数外0测量社交网络系统的弛 豫响应时间,所提模型假设所有推文使用相同的记忆核函数火0,但社交网络系统 在推文的传播生命周期内具有异质性;模型使用关注者的数量刻画每个转发者的 影响力,这至多是对给定推文潜在转发群体的一个近似估计。
引入比例因子出后,公式2.22可转化为为:
(2.23)
丨一〆
关于比例因子〜的求解,受特征驱动类预测方法的启发,本节应用随机森林 算法在每个转发级联的比例因子^和其初始阶段特征集之间建立映射关系。随机 森林回归器(Random Forest Regressor)是一个由多个随机决策树组成的综合回归 器系统,是集成学习的成功范例之一[149]。随机森林回归器具体部署中应用开源库 Scikit-Leam中的相关模块[15G]
转发级联初始阶段特征集{6,巧,6},提取过程如下
F,=R(t)
F2=p(〇 (2.24)
f^K_u
u<t 1
其中,F3表征t时刻之前的转发事件带来的潜在转发群体中即将在t时刻后触 发的部分。随机森林回归器在训练集中学习训练,训练过程中,随机森林回归器 的输入为训练集中各转发级联的相关特征,输出为这些转发级联的预测比例因子
训练集中转发级联的比例因子^由真实级联大小I逆推计算并赋值。将测试 集中转发级联的特征集输入该训练好的随机森林回归器中,回归器输出的结果即 为比例因子〜的预测值。应用随机森林回归器预测比例因子^的实质是,结合特 征驱动类预测方法在预测准确性方面的优势,将其纳入基于生成模型的流行度预 测框架内对预测结果进行微调,从而预测结果兼具准确性和可解释性。
至此,可以得到对推文最终流行度的预测。对所提基于生成模型的最终流行

图2.4基于生成模型的最终流行度预测算法
Figure 2.4 Pseudo-code for our generative approach to predict the final popularity
2.4模型实验与评估 2.4.1数据集
为了便于与现有流行度研宄成果进行对比分析,实验部分在两个公开的真实 社交网络数据集中进行,两个数据集的具体介绍如下。
TWEET-SNAP[131]:该数据集可由网站公开获取、数据集包含2001年10月7


日至11月7日之间在Twitter网站上发布的所有推文及其转推事件。对于每个转发 级联,数据集包括推文ID推文发布时间,转推时间以及转推者的粉丝数。为了 便于校准模型,本研究关注所有推文的一个子集,子集中包含的推文在其整个传 播周期内至少获得100条转发。按照时间顺序将原始数据划分为训练集和测试集, 前7天发布的推文为训练集,随后8天的推文为测试集,其余天数用于推文在网 络中转发生成级联。所得训练集共包含39135条推文,平均级联长度为318.9,中 位数为200。
TWEET-EUCLID[62]:该数据集可由网站公开获取、数据集由52条手工挑选 的推文组成,这些推文涵盖广泛的主题,拥有不同级别的转发级联规模。数据集 中推文的转发数在21和1260之间。与TWEET-SNAP相比,对每一条推文,不仅 包含TWEET-SNAP数据集的相关数据,还有关于转发网络拓扑结构的相关信息, 其中包含在转发网络中转发者与初始推文之间的距离(跳数)。引入该数据集是为 了便于和Bayesian基准模型(详见2.4.3节)进行对比分析。
2.4.2自适应观测区间验证分析

在训练集中,当观测点分别选择为Best-peek和固定点(0秒、300秒、500秒) 时,其中300秒符合基准模型SEISMIC的选择策略,图2.5展示不同的观测点选 择策略取得不同的预测效果。观察图2.5可知,SEISMIC的预测效果对比将观测 点固定在0秒和500秒时有一定提升,但效果不甚明显,然而当每个转发级联选 取自己的Best-peek作为观测点时,可以显著提髙模型预测能力。选取Best-peek 的预测比固定观测点的预测精度APE中位值降低了 33%。
40000 35000 30000 25000 20000 15000 10000 5000 0
2.6训练集中推文的Best_peek在时间轴分布情况
Figure 2.6 Distribution of the Best-peek on the training dataset

 
 
o
2.7不同类型演化模式推文的Best-peek聚类效果
Figure 2.7 Distribution of the best-peek for different pattern
2.6展示训练集中的推文的Best-peek在时间轴的分布情况。从图2.6可以 看出,训练集上的推文的Best-peek散落分布在区间[0,500]上,其分布并无显著规


 
   
 
   
 
   
 
 
 
   
 
   
律。综上,每一条转发级联都有各自的Best-peek,当通过观察式预测对推文的最 终流行度进行预测时,通过推文转发级联的初始阶段推断该推文Best-peek,并选 取其作为观测点,可显著提高观察式预测的精度。
图2.8数据集中/m模式的质心图tr = 12h
图3.4不同模型预测性能对比图 Figure 3.4 Distribution of Error per hour on the test dataset
针对模型的预测性能评估,图3.4展示了当预测时刻^分别取1小时、6小时 和12小时,本小节所提模型与基准模型的预测性能对比。可以看出,不同预测时 刻本节所提模型均获得较小的单位小时绝对误差〜,即所提模型性能优于对比模

   
型。具体而言,所提模型表现始终优于RPP相比于RPP,本节所提模型Errorper hour的中位值降幅为21%~32%,表明推文传播初期的社交网络拓扑结构所提模 型中为转发者粉丝数在推文流行度演化预测中发挥的重要作用。另外,针对不 同的预测时刻I,所提模型和RPP表现均强于S_H也表明推文转发过程的时效 性因素(系统弛豫响应或推文新颖性衰减函数等在演化预测中所发挥的作用。 从图3.4中也可以看出,随着观测时间^的增长,不同模型的预测误差均不同程度 减小,所提模型相对基准模型的性能提升也减弱,同时也反映~增长预测任务难度 减小。
0 2 4 6 8 10 12 0 2 4 6 8 10 12
Time(hour) Time(hour)
图3.5预测性能与时间间隔的关系
Figure 3.5 Dependence of the error on time resolution
时间间隔么^^也是模型预测中需要考量的因素,为了研究时间间隔对流 行度演化预测的影响,本节比较了所提模型和基准模型在不同预测间隔Aw,下的 预测性能变化趋势。针对测试集中推文流行度演化的预测值,图3.5的左右子图分 别展示的单位小时绝对误差的平均值和中值随时间间隔的变化趋势,需要注 意的是,此处统一选取预测时刻t为6小时。图3.5表明,不同的预测间隔 (A_e[l,12])下所提模型预测性能均优于基准模型,另外,随着变化,各 模型的预测精度变化不大,即时间间隔^对模型性能的影响几乎可以忽略不计。
针对模型对推文累计转发数A(0预测的应用场景,此处选取预测时刻^为6 小时,分别应用本节所提模型和基准模型,根据推文发布后6小时内的传播特性, 预测推文的累计转发量随时间推移的增长变化趋势。图3.6分别通过均值绝对百比 分误差(MAPE)和准确度(Accuracy)两个指标,展示了三类模型的预测性能。 需要注意的是,MAPE值越小,则代表模型预测能力越强,Accuracy则反之。

0 5 10 15 20 0 5 10 15 20
Time(hour) Time(hour)
图3.6 ^=6A,预测结果的均值绝对百比分误差和准确度随时间f的变化
Figure 3.6 Dependence of the error on t
从图3.6中可以看出,本小节所提模型MAPE值始终小于S-HRPP,在测 试集中,所提模型的MPAE相比于RPP优化了 30%。所提模型及RPP的准确度均 始终高于S-H模型,与上文实验中的分析相一致。图3.6中右图可观察到,在 对5小时后的推文累计转发次数做预测,所提模型的准确度始终高于RPP例如, 所提模型在推文发布6小时处,预测10小时后给定推文的转发累计増量,准确度 可以达到68.7%,即对预测集中68.7%的推文都可以实现有效预测。从图中也可以 看出,预测时刻~确定的情况下,随着/的增长,所有模型的MPAE值均增大, Accuracy值均减小,即离预测时刻^愈远的推文转发情况,愈难以预测,这也和 2.4.3节的分析相一致。需要注意的是,该类预测推文累计转发增量的预测问题是 第2章流行度最终规模预测问题的拓展及一般化描述,即推文最终流行度预测问 题是推文累计流行度预测的特例,本节研究中当〖趋向于无穷大时,问题便转化为 求解推文的最终流行度。
3.3基于时间序列的流行度演化预测
上一节的实验结果表明基于自激励点过程的模型在流行度动态演化预测中达 到了预期的效果,同时验证了消息传播早期所在的社交拓扑结构在消息流行度演 化预测中发挥重要的作用。然而这类基于生成模型的预测方法依赖平台先验知识, 适用性受平台限制,可迁移性不强。此外,在一些社交网络内容流行度预测场景 下,消息传播早期的社交拓扑信息不易采集,也限制了模型的广泛应用。与之相 对应的是,消息扩散传播的时域信息方便获取,如消息流行度随时间增长变化的
时间序列便是一种各类社交网络平台可通用的时域信息表现形式,无论是平台管 理者还是第三方研究机构都可以很方便地爬取获得该类时域信息。密歇根大学的 Martin以及康奈尔大学Benjamin Shulman等人的研究[93,98]均表明时域特性在消息 流行度预测中起到主导性的作用。因此,本小节尝试基于“时间”粒度,建立内 容流行度演化趋势的预测方法。
3.3.1基于时间序列的流行度演化预测问题
假设用户生成内容z_(例如YouTube中的一段视频或Last.fin上的一首歌曲)在 发布后隔段时间采样一次流行度大小(例如播放或点赞次数),获得流行度时间序 列為={«...,<},其中火表示项目/在第灸个采样时间段内的流行度。需要注意 的是,采样间隔根据任务需求及平台传播特性,可以是每小时、每天、每周等。 预测问题的目标是项目/在下一个时间间隔内获得的流行度v(+I。预测问题的主要 任务即是根据内容的现有流行度时间序列数据预测下一刻的流行度。具体而言, 用户生成内容流行度演化趋势预测问题可以被形式化地定义为如下问题:
v«+=M(vlvi2,...9vin) (3.13)
本小节以项目/为例介绍相关预测模型,方便起见,下文省略相关符号的上标
3.3.2基于时间序列的组合预测模型
针对时间序列的预测方法大致可为三类:基于时间序列分析的预测方法、基 于回归分析的预测方法和基于机器学习的预测方法。三类预测方法各有所长,分 别适用于不同的演化发展模式,例如以ARIMA为代表的基于时间序列分析的预测 方法,作为当前广泛应用的时间序列预测方法,在针对具有显著趋势性(如持续 上涨等)及周期性(如季节性波动等)的时间序列的预测过程中取得良好的效果。 考虑社交网络中消息的传播生命周期呈现较强的异质性,即消息流行度包含不同 的演化发展趋势,受混合专家模型(Mixture of experts)的启发[152],本小节提出基 于时间序列的组合预测模型(Combined Forecasting Model Based on Time Series, COMFITS )〇
COMFITS基本思想是:分别在三大类时序预测方法中选取各自代表性的模型 (ARIMA、M_L、SVR),对同一时间序列进行预测,并根据各子模型在序列历史 预测中的表现,对三类模型的预测结果赋予不同的权重,进而生成组合预测结果。
COMFITS系统的基本框架如图3.7所示。其中各子模型(ARIMA、SVR、

M-L)的相关设计如下:
1) ARIMA (差分自回归滑动平均,Auto Regressive Integrated Moving Average ): 一种常用的基于数理统计的时间序列预测模型,最早由统计学家George BoxGwilym Jenkins提出,故也称之为B-J模型[153],由自回归模型(Auto RegressiveAR)与滑动平均模型MovingAverageMA)组成。
其中,自回归模型AR)以自身作为回归变量,令炉为滞后算子,定义为 皮则P阶自回归模型可表述为:
vw+, = axB\+x + a2B\+l +... + apBpvn+l + (3.14)
由上式可知,v+1是自身最近P阶滞后项和白噪声的线性组合,%,a2,…,&. 是自回归系数,&+1为白噪声序列,服从均值为〇,方差为,的正态分布。
滑动平均模型MA)则是将v+1表示为当前及^阶之前的随机误差的线性组 合表示,具体如下式所示:
vn+1 = en+l - pxen - fi2en_x -... - (3.15)
其中,AA…,忍是滑动平均系数&+1依然为白噪声序列。
则综合考虑自回归部分和滑动平均部分,可得到自回归滑动平均模型 (ARMA):
Vn+1 = + a2B\+\ + * * + apBPvn^\ + en+\ ~ P\en ~ Pien-\ fiqen-q+\ (3.16)
其中P和^分别为自回归阶数和滑动平均阶数,模型可表示为ARMA(p, q)。 考虑序列ARMA模型受序列平稳性制约,ARIMA建模基本思想是首先应用

差分方法对非平稳时间序列进行平稳化处理。对非平稳时间序列做次差分运算, 则可表示为ARIMA(P,d)。本研究中d取1。即令w„+1=vrt+1-v„,则ARIMA 表示为:
^W+l +W-1 + -- + SV^+1 -A^-l - - -Pqen-q,X (3.17)
2) SVR(支持向量回归,Support Vector Regression):作为支持向量机(Support Vector Machines,SVM)在解决回归问题上的推广[27154],是结构风险最小化原则
(Structural Risk Minimization, SRM)的一种实现。SVM是由线性可分情况下的 最优分类超平面发展而来,通过最大化分类间隔实现对学习机器容量的控制,进 而实现结构风险最小化准则。与SVM相类似,SVR通过核函数实现输入数据到高 维特征空间的映射,并在高维特征空间中建立输入数据和输出数据的联系。本小 节研究中,引用SVR模型预测项目/的流行度演化趋势可表示如下:
Vn+\ + ^ (3.18)
l=\
其中,是截至〃时刻项目/所获得的特征向量,此处选用流行度时间序列 於={v;乂…,v:}生成表示,通过训练返回的一组支持向量(Support Vector),对应参数批}丨 =1和6。足(x,j〇为核函数,刻画了学习算法搜索的假设空 间的结构及特点,对其选择较大程度影响SVR的性能,常用的核函数包括多项式 核函数、高斯径向基(Gaussian Radial Basis Function,RBF)核函数和 Sigmoid 核 函数等,其中高斯径向基核函数的逼近特性不仅可以实现输入数据到高维特征空 间的非线性映射,适合处理非线性问题,且易于执行t15\结合社交网络流行度演 化特点,本小节选用高斯径向基核函数作为SVR的核函数:
K(x, y) = exp{-11 x - j 11212a2) (3.19)
其中,^为核的宽度系数。支持向量机模型的求解过程会转化为凸二次优化 问题,理论上存在全局最优点,进而有效避免局部极值问题。优化过程中的惩罚 系数C作用是在经验风险和模型复杂度之前寻求平衡,惩罚系数C和宽度系数cr均 通过网格搜索(Grid search)进行寻优。
SVR作为当前广泛应用的时间序列预测方法,在捕获刻画时间序列中的非线 性作用关系时优势明显。
3) M-L (多元线性回归,Multivariate Linear Regression):作为 3.2.2.1 节所述 的S-H模型的拓展,相较于S-H模型增加了输入特征向量的维数,该模型由米纳 斯联邦大学的Pinto等人提出[87]。具体而言,从项目/流行度时间序列中提取特征 向量表示为:
vXvi,v2,…,O (3.20)
则项目/在下一个时间间隔内获得的流行度的预测值由下式求得

v,+1w*v: (3.21)
其中,0„二⑷,&...,&)为模型参数向量,在训练集c中训练:
argmin^T(^^- \) (3.22)
Icf^c Vw+I
COMFITS的关键在于对不同预测模型的组合权重的学习,通过评价各类模型 的历史预测性能,赋予其不同的组合权重,预测精度愈高的模型获得更高的组合 权重,即其在组合模型中发挥更重要的作用。设置对各模型性能评价矩阵户,表 示如下,
  PEU PEhl . *• 尸五l,m  
p = pe2, PEia . •. PE2 m (3.23)
  pe3,' 户五3,2 • .* m _  
 
 
 
其中,是模型/对时间间隔内流行度进行预测所得精度,定义为
洲“广(\厂')2 (3.24)
其中,七是模型/对时间间隔•/内流行度的预测值,t是间隔内流行度的 真实值。显然,越小,该模型预测性能越好。考虑到不同时间间隔内流行度 基数不同,不便于分析各模型不同时间间隔内表现优劣,此处对预测精度做归 一化处理得到模型权重a,
 expj-PEJ
(3.25)
/=!
由上式可知,越小,即模型/的预测误差越小,精度越高,则模型权重q 越大。同时,〇<~<1,可以理解为,当预测在间隔•/内的流行度值时,模型/作 为最优预测模型的概率。从而,流行度预测历史权重矩阵W可表示为:
\2Um
〇)2 2 ... co2 m 叫,2…气m
式中m表示在推断未来组合权重时需考虑的模型历史预测性能的节点数目, 如图3.8所示。图3.8展示流行度预测历史权重矩阵W随预测时间变化的情况,% 表示预测时间间隔A/ + 1内流行度时的历史权重矩阵,图中亦标出了相应的训练集 的大小/。
为了求得时间间隔w + 1内的最佳预测,需要生成时间间隔w + 1时的权重向量 ,叫,%]。从而问题转化为多类回归问题,应用支持向量机算法在权重向量 和历史权重矩阵%之间建立联系,具体部署中应用了开源库Sdkit-Leam中的 相关模块[^]。支持向量机的相关参数在训练集中学习得出,训练集大小为/,则


 
   
图3.8不同时刻的流行度预测历史权重矩阵
Figure 3.8 Temporal coverage of weight matrix W
训练集为,…,,该训练集涵盖了时间间隔[«-m-/ + l,《-l]内 各模型的历史预测权重。训练过程中,支持向量机的输入为%,输出为下一时刻 的最优权重组合向量。最终,应用训练好的支持向量机,输入%即可得到 的预测值。
从而,时间间隔/1 + 1内流行度的预测值^+1可以由下式求得
3
(3.27)
其中,A㈣是模型f的预测值。
3_3.3模型实验与评估
为了验证COMFITS模型的性能,本研究分别选用四个不同的社交网络数据
集,涵盖音乐、电影、视频、图书等内容模态。不同的预测场景可以验证模型的 普适性,规避模型受限于某一特定场景的问题。
3.3.4.1数据集
Last.fin:该数据集可由网站公开获取^Lastfin作为全球最大的社交音乐平台,

通过用户的音乐收听历史提供个性化推荐、联系品味相近的用户及其它各种服务, 用户可以搜素、播放、评论自己喜欢的音乐。该数据集记录2013年1月至2014 年8月之间发生的收听事件。为了便于校准模型,避免出现非常不均匀的用户分 布,将单一曲目的收听事件数目限制在20000次。对于每个收听事件,数据集包 括用户ID,收听时间,曲目ID以及专辑艺术家等相关信息。本研究将曲目的收听 事件的次数作为其流行度衡量指标。
MovieLens-20M:该数据集可由网站公开获取L MovieLens作为电影评分及推 荐系统,可以应用协同过滤技术和用户对电影的评分推荐其感兴趣的电影。数据 集包含了 1995年1月至2015年3月之间发生的评分事件。每个电影评分事件包 括用户、电影、评分以及时间戳信息。本研究将电影获得的评分的次数作为其流 行度衡量指标,针对每部电影,可获取其流行度时间序列。
Flickr:作为全球最受欢迎的图片分享网站之一2,注册用户之间可以建立好友 关系,用户可以通过收藏(Favorites)自己感兴趣的图片,同时将其分享给其它用 户。本研究所选用的数据集包含了 2006年和2007年间104天(2006年11月2曰 至12月3日,2007年2月3日至5月18日)的图片收藏事件[156]。每个收藏事件 数据集中包括了收藏时间戳,进而可生成图片收藏数的时间序列,即图片流行度 时间序列。
Amazon-book^该数据集可由网站公开获取3。作为全球商品品种最多的网上 零售商,亚马逊以网上书店起家,本研究重点关注亚马逊网站上图书的流行度, 选取某本图书获得的评论数目作为其流行度,即获得评论数越多的图书,享有更 高的网络热度。数据集包含从1996年5月到2017年7月间的评分事件。对于每 个评分事件,数据集包括评论者ID,商品(即图书)的ASIN编号,评分,评分 时间戳以及评论内容等其它相关信息。
3.3.4.2评估指标及对比模型
参照3.2节,本小节应用平均绝对百分比误差作为对一条消息的流行度的预测 效果的评价指标:

需验证COMFITS模型能否对不同的社交平台的流行度序列均提供无偏估计。 以Lastfin数据集为例,随机挑选100首曲目,针对每一首曲目,得出其测试数据 部分的真实值序列和预测值序列。为了便于对比分析,参照3.2节对序列做了相应 的归一化处理。
图3.9不同数据集下流行度序列的真实值和预测值对比图
Figure 3.9 Comparison of predicted values and ground-truth values for different dataset

如图3.9所示,红点表示COMFITS模型预测的结果,横轴对应序列预测值, 纵轴对应序列真实值,当模型提供无偏估计时,理想状况下的预测值和真实值相 同,即表征预测结果的红点落在图中蓝色对角线上。数据集MovieLens-20MFlickrAmazon-book的相应结果也展示于图3.9中。可以看出,COMFITS的预测 结果均大致散落在蓝色对角线,即COMFITS在不同的社交网络平台下均可提高无 偏的预测值。
3.10和图3.11进一步形象展示COMFITS预测流行度演化的有效性。分别 从Amazon-bookMovieLens-20M数据集中选取具有代表性的内容流行度序列, 展示COMFITS预测流行度动态演化过程的性能。以电影《Rain Man(雨人为 例,影片上映于1989年,MovieLens上关于该影片的第一次评分出现于1998年7 月4日,选取半年作为时间间隔,半年度的影片流行度即是在半年的时间中获得 的评分数目,从而得到流行度时间序列。1998年至2002年间的流行度时间数据用 于训练COMFITS,之后对2003年之后的流行度动态演化作预测,如图3.11中右 图所示,横坐标表征时间半年度),纵坐标表征《Rain Man在各年度下的流行 度。其中蓝色实线为影片真实的流行度序列,COMFITS的预测结果由红色虚线表 征。
 
1200
1000
2009 2010 2011 2012 2013 2002 2004 2006 2008 2010 2012 2014
Time(Year) Time(Year)
3.10 Amazon-book流行度预测效果 Figure 3.10 The prediction results of COMFITS on Amazon-book
Amazon-book:Water For Elephants Amazon-book-.Enders Game
o o o o o o oa
8 6 4 2
 
由于空间所限,图3.10和图3.11只展示了四个具有代表性的内容流行度的预 测结果。从图中可以看出,COMFITS可以对不同模式的内容流行度演化过程进行 预测。例如图3.10所示《Ender’s Game》一书的流行度演化呈现单峰模式,图3.11 中电影《Farewell My Concubine》的流行度演化呈现周期性波峰模式。


2004 2006 2008 2010 2012 2014 2002 2004 2006 2008 2010 2012
Time(Year) Time(Year)
3.11 MovieLens-20M流行度预测效果
Figure 3.11 The prediction results of COMFITS on MovieLens-20M
3.3.4.4预测性能评估
3.12展示COMFITS模型与基准模型的预测性能对比,采用箱线图形式表 示。可以看出,不同的数据集构成的预测情景下,即针对不同的社交应用平台 (LastfrnMovieLensFHckrAmazon)上的内容(曲目、电影、图片、图书) 的流行度预测中,COMFITS模型表现始终优于对比模型。
MovieLens-20M为例,从图3.12可以看出,COMFITS模型的箱线图具有 比ARIMASVRM-L更低的中位数和四分位数。这表明,对于绝大多数电影 获得的评价数热度预测过程中,COMFITS模型可以提供更好的预测。在 MovieLens-20M数据集中,基准对比模型中SVR表现优于其它对比模型,COMFITS 模型的预测误差的中位值比SVR优化了近8.3%,预测误差的均值比SVR优化了 16.20/〇〇
纵观所有数据集,COMFITS相比于各数据集中性能最优的基准对比模型,其 预测误差中位值降幅为6.5%^9.2%,误差均值降幅为13.6%~23.3%。该实验结果可 以解释为,社交网络平台中的用户生成内容的流行度演化趋势呈现多样性、异质 性,不同的用户生成内容的流行度受内容自身吸引力、内容发布者特性等因素影 响有不同的传播生命周期,表现为不同的内容流行度演化模式,如图3.10和图3.11 所示;同一个内容在传播过程中其流行度演化模型也不是一成不变的,也受到外 部环境等各种因素干扰而发生变化,如热点事件引起的相关内容在社交平台的关 注度骤增;不同的社交网络平台有不同的网络拓扑结构、流行度增长机制。因此, 在基于时间序列的流行度演化预测问题中,单个模型很难准确捕获流行度演化模


MovieLens-20M
ML ARIMA SVR COMFITS ML ARIMA SVR COMFITS
3.12不同数据集下COMFITS与基准模型的预测性能对比
Figure 3.12 The performance comparison in popularity dynamic prediction
式,进而导致预测误差增大。COMFITS可以通过评估各预测模型的历史性能,不 断调整组合模型中赋予不同的模型预测值的权重,更新组合模型从而适应演化模 式的变化,获得预测精度的提升。
从图3.12中也可以看出,SVR预测性能整体上优于其它基准对比模型(ARIMA 和M-L),得益于支持向量回归算法在流行度演化中非线性特征及高维模式识别中 的优势。需要注意的是,在Lastfin平台上曲目的流行度演化预测中,ARIMA的 预测误差箱线图的中位数和四分位数均低于SVR,即表现优于SVR。从图3.12即 可以看出,曲目在其整个传播周期中相较于其它传播内容显示出更强的周期性, 例如用户可能会根据自身兴趣、作息等因素定期播放某类或某首歌曲,这也是由 歌曲这类文化表达形式的特征所决定的。而作为经典的时间序列分析方法,ARIMA 在处理这类时序预测时擅长捕获这类周期性特征,进而获得了较好的预测性能。 同时,在Lastfin平台上,除ARIMA之外的基准模型SVR和ARIMA的预测误差 也相较于在其它预测场景下得到改善,表明Lastfin上曲目的流行度演化预测比其 它预测场景更容易些,尽管如此,曲目流行度的季节性和周期性仍然可能随时间

推移发生变化,因此COMFITS表现依然优于其它基准模型。综上,COMFITS模 型可以根据流行度演化态势自动调节子预测模型的权重,在不同的社交网络应用 平台上均获得了预期的效果,表现始终优于基准对比模型。
3.4本章小结
本章对上一章节的流行度最终规模预测问题进行了拓展,当一条消息进入社 交网络平台开始传播后,不仅需要预测该消息最终的传播规模,即该消息在整个 传播生命周期内获得的累计流行度,而且可以预测该累计流行度随时间演变的趋 势过程。本章基于社交网络内容传播早期态势,分别从“事件”粒度和“时间” 粒度的角度出发,考虑到内容主体、社交拓扑结构、平台系统响应等因素,生成 流行度演化趋势预测模型,定量地推断内容的扩散过程。
基于“事件”粒度,在生成模型的基础上,提出了一种新型的推文转发数动 态预测方法。该方法分解了待预测时刻之前发生的转发事件的影响,一部分为己 观测到的转发事件,一部分为未发生的转发事件(即待预测部分),并分别根据事 件强度的定义求解其对待预测时刻的影响,两部分影响叠加后生成Volterra积分方 程,求解即可实现推文转发数动态预测。
基于“时间”粒度,针对社交网络内容流行度演化过程的强异质性,单一的 时间序列预测模型很难准确捕获各类流行度演化模式,建立了融合多个模型 (ARIMA、M-L、SVR)的预测能力的组合预测框架(COMFITS)。通过应用多 类回归器和各子模型的历史预测性能,生成对未来时刻作预测的各子模型组合权 重。此外,COMFITS可以通过评估各预测模型的历史性能,不断调整组合模型中 赋予不同的模型预测值的权重,更新组合模型从而适应演化模式的变化。
两类预测模型分别应用于Twitter、Last.fm、MovieLens、Flickr及Amazon等 真实的社交网络数据集,本章所提模型均实现了优于己有模型的预测性能, COMHTS的平台适用性也得至丨J了验证。
本研宄有助于更深刻地理解社交网络中信息扩散过程,为进一步实现对社交 网络热点话题跟踪、研究宏观舆论演化提供基础。

 

4基于时空耦合的级联增量预测
在第二章所提基于生成模型的流行度预测方法以及特征驱动的预测方法中, 均需要依赖人工构造特征,如何从级联网络中自动提取特征,另外,究竟级联早 期的时域信息和空间拓扑结构信息是否共同作用级联的增长过程?本章将回答这 些问题,同时借助注意力机制探讨时空耦合问题。首先借助深度学习端到端思想, 提取与级联增量相关的时域和空间拓扑结构的高维特征,并提出注意力引导的时 空耦合机制融合这些特征,然后应用多层感知机生成预测模型。最后通过不同真 实场景数据集下的实验,检验模型性能,并对一些实验现象给出合理解释。
4.1引言
社交网络深刻影响人们的沟通、工作和娱乐方式,且大多是积极有意义的变 革,因而自诞生之日起便深受广大用户的喜爱。关于社交网络最让人着迷的是分 享传播机制,正是借助分享机制,社交网络可以将信息在几小时或几天内向数百 万用户传播。当某一用户向他的好友分享信息(例如,YouTube上的视频,Twitter 上的推文和Flickr上的照片),这些好友在看到该信息后可能选择进一步分享给各 自的好友,从而形成一个信息级联。这种信息级联在几乎所有的社交网络现象中 发挥重要作用,如病毒式行销、谣言扩散、“网红效应”及“流量经济”中都有信 息级联的影子。
信息级联预测己经成为了当前研究的热点。信息级联预测是指推断信息级联 的一些关键属性,例如级联大小和级联形状,它们指示信息在社交网络中传播广 度和深度。级联预测不仅具有一定的理论研宄价值,有助于揭示社交网络中用户 集体行为的深层驱动机制,而且,这项工作也具有重要的实际应用价值,比如通 过研究易触发爆发性传播的信息内容、发布时间等相关特征,采取相关针对措施 可以有效抑制谣言传播或者在经济领域为某些产品或服务争取更多的流量,进而 创造更大的市场。国内外相关领域学者专家及工业界都己做了大量有益的尝试[62,93,
99]

现有的级联预测方法很大程度上依赖于手工特征,或者需要对级联增长过程 做各类强假设,这些都需要一定的领域先验知识,导致针对特定平台或特定类型 级联设计的特征难以得到推广应用;另外,手工特征构建过程缺乏指导性原则和 系统性方法,手工特征集完备性和有效性也都难以验证,这些因素都限制了级联 预测方法的性能,传统的级联预测在这里遇到瓶颈。如何自动生成级联的特征表
示,从而提升预测方法的预测精度和适应性,是需要深入探讨的问题。最近,深 度学习方法的应用如火如荼,诸如卷积神经网络(Convolutional Neural Networks, CNNs) [53]和递归神经网络(Recurrent Neural Networks,RNNs)在各类复杂任 务中取得了显著的成果(如语音识别、计算机视觉、自然语言处理、音频识别与 生物信息学等领域)[34157158],一些学者受其启发做了深度学习技术在级联预测领 域应用的尝试,采用神经网络作为转化器利用各类信息特征进行级联预测,但是 这些方法普遍忽略了级联预测中时域信息的运用,然而通过前面章节的研宄可以 看出,级联时域信息在级联预测中起着至关重要的作用。所以如何在神经网络级 联预测方法中融入时域信息是亟需解决的问题。
针对以上问题,本章将提出一种基于时空耦合的注意力机制神经网络 (Spatial-Temporal-based Attention Network for Information Cascades Prediction, STAN-ICP),来解决级联增量预测问题。该模型可直接从级联网络原始数据中自动 学习级联的时域及拓扑结构特征,并利用级联时域特性和拓扑结构特性的互补性, 设计了注意力引导的时空耦合机制,增强了级联预测模型的表达能力和预测能力。 然后,通过在两个真实的应用场景一Twitter中推文的增量预测和学术论文被引次 数预测一中进行实验,并对该预测模型的性能与己有算法进行比较,并进一步验 证了级联时空特征的互补性以及注意力机制的有效性。本研宄有助于更深刻地理 解发生在社交网络中的级联增长过程,为进一步研究网络舆论的传播提供基础。
4.2具有时空耦合特性的级联预测问题
社交网络(如微博客网络或学术论文引用网络)可以用P = (V,〇来表示,V代 表网络G中顶点的集合,集合中顶点weV表征社交网络中的用户,fczVxV是边 的集合,其中的边(w,v) e £:表征用户w和用户v之间存在互动反馈关系,如用户W对 用户v发布的内容进行点赞、评论或转发引用等操作。
假设^时刻M个信息级联开始在该网络0中传播扩散,在/时刻,第/个级联 可以表示为其中,V是V的子集,表示/时刻己经参与该级联传 播的用户的集合;,…,^|}表不V中用户参与级联的具体时间; f/=f:n(V><V)代表集合V中用户间的反馈联系。在〖时刻,级联^的级联大小 <=|VI。本章首先抽取得到级联g;的特征表示为其中,V和孖1分 别代表级联的空间拓扑维度特征表示(Structurerepresentation)和时间维度特征表 示(Temporal representation),然后,利用初始级联的时空特性预测级联的大小增量, MHVJ-IVI。相比第二章中预测级联最终大小(IVJ),预测级联增量规避了 初始级联和最终级联的内在相关性,是一种更高难度的预测情景。本章的预测任

务也可以表示为学习得到特征表示}与级联增量M;间的映射函数
表4.1相关数学符号与定义 Table 4.1 Table of symbols
数学符号 定义
G 社交网络
V 社交网络用户集合
E 用户互动关系集合
’0 级联开始时刻
t 级联增量预测时刻
St f时刻初始级联网络
s 初始级联空间维度特征表示
H 初始级联时间维度特征表示
£时刻级联大小
ARt 级联增量
L 级联路径的采样长度
K 级联路径的釆样个数
9 级联网络节点的独热向量
H 可调嵌入维度
sk 第/:条级联路径的向量表示
% 〖时刻初始级联时间特征序列
s 初始级联拓扑嵌入向量
h 初始级联时间嵌入向量
c 时空耦合特征向量
 
 
 
参照惯例,本章节中将用粗体小写罗马字母表示向量,粗体大写罗马字母表 示矩阵。考虑到以级联g丨为例介绍相关预测模型,方便起见,下文省略相关符号 的上标/,相关数学符号与定义汇总为表4.1。
4.3基于时空耦合的注意力机制神经网络
STAN-ICP基于深度学习端到端思想,整体架构如图4.1所示,共分三层:底 层为时空特性嵌入层,学习得到初始级联的时空维度的初始表示{义,及'};中间层 基于注意力机制实现时空特征的融合,得到级联更具表现力和预测力的表示形式•,

最后输出层得到级联增量预测。下文依次详细阐述各层的原理及设计t
( \ Structure information   1 1
L nodes -• -♦i
 
1   f (a>-<c>-<!>-<D — Node embedding
  16
5
1 ■
i ■
 
i、 ^
⑷r細
E

5
K
sequence^ a _
1 _
. _
1
Bi-directional
      GRU
 
 Mean pooling
Intra-
attention
i   Mean pooling     MLP
  Time      
 
6RU
Incremental size prediction
 
 
tA tB tc tD
Temporal information
4.1 STAN-ICP模型架构图
Figure 4.1 Main architecture of our proposed model STAN-ICP
4.3.1 时空特性嵌入层
1)空间维度特征抽取
首先在级联图g,上通过多重随机游走,得到一组级联路径,每条级联路径不 仅可以携带消息传递者的信息,而且刻画信息流的流向路径。如图4.1中的级联路 径五―厂”,虽然用户C和用户B先于用户D传递该消息,但是通过 级联路径可以得知D所传消息来源于A然后利用递归神经网络建模该组序列数 据,进而得到级联的空间维度特征表示。
参考相关研究[10°,159],采样K条长度为L的级联路径用于表征级联g,的空间 特性。随机游走釆样过程大致如下:

① 首先依据如下公式确定路径起始点
p(rA= degc{u) + a
——E—) (4.1)
s^Vc
其中,表示顶点w在网络g中出度的大小,or为平滑量;
② 路径起始点确定后,在级联网私中如果起始点出度中有v个邻居节点,则紧 随其后的邻居节点釆样公式如下,
degc(u) + a 2 (degc(s) + a)
seNc(v)
其中,\(v)表示v个邻居出度节点的集合;
③ 上述邻居节点采样过程步骤②一直持续到序列长度达到拟定长度L或采样 至一个没有出度邻居的顶点,如某一路径釆样停止时序列长度小于拟定长度L,则 用特定符号“ + ”补齐,如图4.1所示;
④ 当级联路径数目达到拟定数目K时,随机游走采样终止。
递归神经网络(如LSTM、GRU等)在图像理解、文本翻译等序列建模问题
中表现突出,考虑到转发级联的序列性特点,此处考虑应用递归神经网络对其进 行建模。利用递归神经网络建模该组级联路径时,级联路径中每个节点表示为独 热向量表示(One-hot vector) 7V为网络G中节点总数。在将该独热表示
输入GRU之前,通过嵌入矩阵% 将其转化为低维向量表示= 是
可调嵌入维度。然后,将该独热向量表示的序列输入GRU获取顺序隐状态,其中
孕二 GRU,/rM) (4.3)
其中,采用如下图4.2所示的双向GRU结构(bi-directional GRU)模拟信息 在级联路径中的传播过程[16()]。双向GRU结合了两个方向的GRU的隐状态,即从 级联路径起点开始移动的GRU和从级联路径末尾开始移动的GUR的结合。具体 而言,其中前向GRU从左至右依次读取各节点,生成前向隐状态序列[<];同理, 后向GRU从右至左依次读取各节点,生成后向隐状态序列[以]。对于级联路径中 第/个节点,其更新的隐状态可以表示为前向和后向隐藏状态向量的串联,即:
^ ^ © htk (4.4)
其中㊉表示连接操作符。因此,可以得到第灸条级联路径的向量表示为[^]。 本着对每条级联路径信息进行压缩、从而获得更紧致的传播路径特征表示的目的 出发,假设级联路径中L个节点服从多项分布,每个节点对应权重%,…,&且满 足:则第a条级联路径的向量表示更新为:
(4.5)
/=]
需要注意的是,参数《在深度学习过程中习得。

 
4.2双向GRU示意图
Figure 4.2 Architectures of bi-directional GRU
最终,可得到级联g,的空间维度的特征表示为:方=[、…,&],& eR2"。
2)时间维度特征抽取
如图4.1所示,将级联图&映射压缩至时间轴中,可得到相应的点过程,每个 映射点代表一次消息传播事件。对传播事件f提取相应的事件特征,如事件间隔 则可得到时间特征序列石= 之后将时间特征序列7;输入
GRU,则事件/相应的隐状态为:
 
h^GRUid^) (4.6)
需要强调的是,此GRU中当前时刻输入为标量。当对每个时间步依次迭代嵌 入后,可得到一组隐状态好= [V",〜],屺eM2"。
综上,通过时空特性嵌入层可得到级联&的空间维度特征表示*5和时间维度 特征表示好。这些嵌入表示将作为下一层基于时空耦合的注意力机制模块的输入。
4.3.2 时空耦合机制
STAN-ICP中基于时空耦合的注意力机制包括两部分:内部注意力机制 (Intra-attention mechanism)Inter-gate机制。如图4.1所示,内部注意力机制分 别针对时域信息流和空间拓扑域信息流SInter-gate机制则利用二者的互补性, 将其融汇在统一的框架中,旨在从时空特性中提取更适合预测的级联特征表示。 注意力机制这一概念最早出现于神经科学和计算神经科学中[161162],例如视觉注意 力机制是指一个人关注其视觉输入的特定部分并采取相应适配行为的过程。注意 力机制近年来在机器翻译[1631图形标注[164]、智能问答等各领域任务中得到广 泛应用。
4.3.2.1内部注意力机制
1)空间维度注意力
空间维度初始特征表示X由每个级联路径的相应表示s所组成。显然,每条级 联路径对级联未来的形态有不同的影响,即不同的级联路径在消息未来的传递扩 散中起到不同的作用,取决于级联路径中节点影响力、节点时间间隔、节点间距 离分布等多重因素。通过设计空间维度Intra-attention mechanism (结构如图4.3所 示)可以得到各级联路径的影响权重,该权重反映级联网络S中各级联路径特征 向量的重要性。
©
©—flDH—^—KZ)
4.3 STAN-ICP空间维度内部注意力机制
Figure 4.3 Architecture of the Intra-attention Mechanism w.r.t. topological structure
如图4.3所示,通过均值池化(Mean pooling)将时间嵌入矩阵转换为向量表 示A便于时间特性对空间维度权重学习过程的引导:
“士 lx
m=l
(4.7)
第灸条级联路径的权重A定义为:  
exp((D(skih)
ak~ K _
^exp()(sk9h))
k^\
(4.8)
其中,雌、沁由下式计算求得:  
)(sk 9h) = Astanh(Wssk + Ush) (4.9)
上述内部注意力参数矩阵分别满足:為eMlx2〃,%和 E R2//x2/f。式屯9
 
 
 
实质上是计算每条级联路径与该级联网&的时间嵌入&的相关性。级联网g,不同 的时间特性会对级联的拓扑结构产生不同的影响。例如,偶尔发生的传播事件在 时间维度上体现为时间间隔较大等特征,相比较而言,密集发生的传播事件将为 给定消息带来更多的潜在传播扩散群体,进而促进传播事件的发生,导致生成更 复杂的级联网络。时间特性对拓扑结构的影响可以体现为主导对所采样的级联路 径的权重分配,即应用时间嵌入来指导级联路径的组合权重学习过程。最后,通 过加权池化(Weighted sum pooling)可得到级联的整体结构拓扑嵌入i为:

s = (4.1〇)
*=i
2)时间维度注意力
   
时间维度初始特征表示r由依时间顺序发生的传播事件的相应特征表示构成。 由第二章观测区间的研究可知,不同的观测历史区间内的传播事件对级联未来发 展有不同的影响作用,即每个传播事件在级联预测中有不同的权重大小。时间维 度Intra-attentionmechanism (结构如图4.4所示)目标即是学习求得不同传播事件 的权重大小,进而合成得到级联的整体时间嵌入表示。
考虑到拓扑结构特征对时间特性的作用关系,如复杂的空间拓扑结构会增大 所传信息的曝光率和被接受传播的可能,从而促进传播事件的发生,反映在时间 维度上是传播事件的聚集发生,即通常所说的“爆发性传播”(Bursting Diffusion)。 所以,考虑基于初始级联的拓扑结构特征学习求得时间维度上各传播事件在预测 级联大小时的权重。和空间特性内部注意力机制相类似,先通过均值池化将空间
嵌入矩阵转换为向量表示V,便于空间特性对时间维度权重学习的引导:
(4.11)

第^个传播事件的权重&定义为:
其中以〜,幻由下式计算求得:
co{hm, s ) = A^tanHW^ + UTs) (4.13)
内部注意力参数矩阵分别满足:%和最后,通过 加权池化(Weighted sum pooling)可得到级联的整体时间信息嵌入A为:
(4.14)

4.3.2.2 I nter-g ate 机制j
需融合结构拓扑信息嵌入i和时间信息嵌入A,生成级联私的时空耦合表示用 于级联预测。STAN-ICP中Inter-gate机制可以刻画预测级联过程中空间特性和时 间特性所发挥作用的差异性,自适应地调整两类信息流的组合权重,而不是依据 领域先验知识设置固定的权重。具体而言,级联g,的时空耦合表示c由以下公式求 得:
c = p^h + {\-/3)^s (4.15)
其中,自适应组合权重Pe(0,l)由下式求得:
j3 = a(Wch + Ucs) (4.16)
参数矩阵满足&和e 。
4.3.3 预测输出模块
STAN-ICP的输出模块为一个多层感知机(Multi-LayerPerceptron,MLP)。作 为一种前馈神经网络(Feedforward artificial neural network),多层感知机由输入层、
输出层和至少一个隐层构成,出于同一层的神经元节点之间相互没有连接,每一 神经元节点与相邻层的所有神经元节点都有连接,即多层感知机中层与层之间是 全连接的,故也称作全连接神经网络(Fully Connected Network,FCN)。除了输入 层神经元节点外,每个节点均含有一个非线性激活函数,相邻层之间的关系可由 以下公式表示:
h( =a{Whi] +bl) (4.17)
其中,斤和A-1分别是第/层和第/-1层的输出向量,fT‘和V分别为第/层的 权值矩阵和偏置矢量■为激活函数。多层感知机中输出层的激活函数根据不同 任务而设计,如分类任务中,通常选用Softmax函数,回归任务中则应用线性激活 函数。本研究中选用含有一个隐层的多层感知机,输入为级联的时空耦合表示c, 输出为级联最终增量:
AR = MLP(c) (4.18)
具体而言,隐层中选取ReLU作为非线性激活函数t/(x) = wox(0,x),贝ij:
AR = w0ReLU (Whc + bk) + b0 (4.19)
其中,% 是隐层的参数矩阵和偏置矢量参数,
和久elR是输出层参数。该全连接层可以在适度的模型复杂性的条件下,保证模型 的非线性建模能力。
4.4模型实验与评估
4.4.1 实验设置
为了对STAN-ICP的性能进行验证,将选用两个流行度预测领域内常用的级联 预测场景:预测微博客网站上推文的未来的转发增量;预测学术论文的被引用次 数。两类预测场景也可以验证STAN-ICP的普适性,规避模型受限于某一特定场景 的问题。
4.4.1.1数据集
Twitter:该数据集包含2016年9月1日至10月1日之间在Twitter网站上发 布的所有推文及其转推。为了便于校准模型,本研究关注所有推文的一个子集, 子集中包含的推文在其整个传播周期内至少获得50条转发。对于每个转发级联, 数据集包括推文ID,推文发布时间,转推时间以及转推者ID等相关信息。社交网 络G由2016年7月和8月的相关转推级联构成。为了评估模型的性能,按时间顺 序将原始数据划分为训练集、校正集和测试集,初始推文发布时间在前11天内的 转发级联组成训练集,9月12日发布的推文生成的级联组成校正集,13日至15 曰的推文触发的转发级联用于组成测试集,其余天数用于推文在社交网络P中转发 推广生成级联。
AMiner:该数据集可由网站公开获取、相关学者论文引用社交网络P由1985 年至1995年的论文引用数据构成,具体而言,当学者B引用学者A的论文,则在 学者A和学者B间建立联系。一个论文引用级联包含该论文的发表者和所有引用 该论文的学者。在学术网络中,论文之间的引用表征学术方法、学术思想的传播。 参照惯例,数据集按照时间顺序划分为训练集、校正集和测试集,1996年到2000 年发布的论文组成训练集,2001年的论文用于校正,2002年的论文组成测试集。
表4.2数据集基本统计数据 Table 4.2 Basic statistics of dataset
数据集 P中顶点数 级联数目 级联数目 级联数目 平均级联大
  (训练集) (校正集) (测试集)
Twitter 429,347 23,786 2,604 6,275 182.3
AMiner 126,422 31,257 6,139 6,071 19.1
 
 
图4.5数据集中级联大小(推文转发数、论文引用次数)分布 Figure 4.5 Distribution of cascade size (retweet counts for tweet and citations for paper)
 
Twitter和AMiner数据集的相关统计数据汇总于表4.2。图4.5展示了推特和 学术网络中信息的传播规模分布。在图中横坐标为信息的流行度(推文转发量或 论文引用次数),纵坐标为拥有一定流行度的信息所占比例。由图4.5可以看出, 在尺度下(即横纵坐标的值均取对数),数据近似一条直线,表明各数据 集中相关级联的大小均服从幂律分布。
4.4.1.2模型评估指标
回归类问题的标准度量均方误差(Mean Squared Error,MSE)可以用来评估 STAN-ICP的级联增量预测性能:
MSE = jjfd(yi-yi)2 (4.20)
其中,兑和乃分别是级联/的增量的预测值和真实值。考虑到原始增量的平方 损失评估标准很容易受到异常值的干扰,此处乃取级联实际増量的对数, 乃=feg2(A/?f+l)。
4.4.1.3对比模型
从特征驱动模型、生成模型、基于深度学习的模型三类传统的级联预测方法 中,分别选取最先进的模型作为基准对比模型,各模型简介如下:
罗63如慨-111咖1>:参照先前研究[93,98145166],从初始级联中提取手工构建的特 征(Hand-crafted features),并将这些特征输入基于L2正则化的线性回归器中。这 些特征己通过验证可以很好地反映初始级联的时域特性和空间拓扑特性。所提取 的特征包括:

① 时域特征:此类特征与初始级联中的消息采纳传播速度相关。具体包括传 播事件的时间间隔的五位数汇总信息(Five Number Summary,最小值,第一四分 位数,中位数,第三四分位数,最大值),上半部分速率(The First Half Rate,前 1/2传播事件的时间间隔的均值),后半部分速率(Second Half Rate) [98],以及信 息累计传播量[73];
② 结构特征:此类特征包括初始级联的结构特征及早期传播者所在的整个社 交网络的结构特征。具体包括每个节点的出度,初始级联&和整个网络P的连接, 初始级联g,中边的数目、叶节点数目,以及传播路径的均值和最大长度[98];
SEISMld135h当前先进的基于生成模型的级联预测方法。该模型基于自激励 点过程,根据所需消息的早期的传播活动生成最终级联大小的预测。需注意的是 该预测方法可实现实时预测,但是由于预测基于分支过程,因此仅适用于预测级 联的最终大小。相比之下,STAN-ICP模型可以扩展到预测级联大小的动态演化趋 势;
DeepCaS[1M:这是学界所提的第一个基于端到端深度学习的级联预测方案。 主要利用级联网络的拓扑结构信息和节点标识(Node Identities)进行预测。注意 力机制被设计用于组装一组随机游走的级联路径。相比STAN-ICP,Deepcas忽略 了对时域信息的挖掘应用,然而现有的研究均己验证了时域信息在级联预测中的 重要性[93,98]
4.4.1.4平台及参数设置
关于初始级联的时间长度^有三种设置,针对Twitter数据集中转推级联增 量预测,/分别取1,2, 3小时;针对AMiner数据集中论文引用次数预测,/分别 取1,2,3月。
实验平台方面,为了实例化模型,采用基于Theano后端[167>的高级神经网络 API,Kems[168]。实验硬件方面,所采用Linux服务器具有32G内存,2个4核CPU: Inter® Core™ i7-7700K CPU @4.50 GHz,GPU 为 Nvidia™ GeForce GTX TITAN 1080 Ti。
4.4.2 实验结果
4.4.2.1预测效果综合评估
表4.3展示了 STAN-ICP模型和基准模型在级联增量预测任务上的性能。可以 看出,不同数据集(Twitter和AMiner)及不同的初始级联U依次设置为1,2,3

小时或月)构成的预测情景下,STAN_ICP均获得较低的MSE,即STAN-ICP预测 性能优于对比模型。
表4.3不同模型的针对不同预测情景的性能对比 Table 4.3 Overall prediction performance
    MSE(t=l*) MSE(t=2*) MSE(t=3*)
  Features-linear 3.821 3.511 3.423
Twitter SEISMIC 3.770 2.954 3.319
  DeepCas 3.725 3.496 3.308
  STAN-ICP 2.609 2.349 2.300
  Features-linear 2.429 2.136 1.880
AMiner SEISMIC 2.417 2.282 1,852
  DeepCas 2.239 1.987 1.674
  STAN-ICP 2.172 1.672 1.534
 
 
 
p.s. t=l*,“ 在Twitter数据集中代表小时,在AMiner数据集中代表月。
具体而言,由表4.3可知,Features-linear表现差于STAN-ICP,反映了手工构 建特征的局限性。尽管Features-linear选择的手工特征均是先前研宄[98, 166]验证过 的在级联预测领域最具表现力和预测力的特征,然而所选特征集的完备性和有效 性依然难以衡量判定,预测结果对提取特征质量的高度依赖和敏感,特征对不同 预测应用场景的适用性,这些因素都不同程度限制了 Features-linear方法的预测性 能。这一劣势在和STAN-ICP的端到端方案对比下更加凸显,STAN_ICP模型可自 动学习初始级联时域特性和结构特性,并应用注意力机制形成联合表示,从而最 大限度挖掘级联早期传播的时域信息和拓扑信息,实现对未来级联发展的精确预 测。
表4.3也表明STAN-ICP模型优于当前学界最领先的生成模型SEISMIC,得益 于设计并采用注意力机制。具体而言,STAN-ICP模型应用注意力机制自适应地学 习初始级联中不同传播事件的时间属性的汇集权重,而SEISMIC在进行预测时通 过先验知识和情景假设对所有消息在初始级联内采用固定比例的Peeking区间,并 强假设Peeking区间内部传播事件的影响力权重,例如假设靠近预测点的传播事件 比远离预测点的传播事件权重高,在级联预测中发挥的作用更大。此外,SEISMIC 的模型参数拟合过程及预测过程中缺乏未来的级联大小做指导,并对信息扩散过 程做各种强假设,这些是生成模型类预测方法的通病。
在所有基准对比方法中,DeepCas取得最优的预测性能,然而STAN-ICP模型 在引入时域特性和耦合机制后,更进一步减小预测误差,一定程度验证时域信息 在级联预测中重要性,关于各类特性及注意力机制功能作用的更深入的论证研究 将在下一节讨论。
从表4.3中也可以得到适用于转推级联和论文引用级联的所有预测场景的结 论:随着观测时间增长,即初始级联部分扩大,预测误差趋于减少,表明更多可 获取的级联信息(时域或结构)可以降低预测难度。对比转推级联预测和引用级 联预测两种预测场景,可以发现转推级联预测产生的误差远大于引用级联预测下 的误差,表明转推级联预测是更难的预测场景。相比于学术论文的发表及引用过 程,Twitter网站上用户的自主性、能动性、随意性更强,用户是否转发推文的决 策,更加依赖于用户自身的心情及所处环境等非理性因素,此外,Twitter上信息 的高速流动性、外界舆论环境的不确定性等因素都不同程度为转推级联预测增加 难度。
4.4.2.2时空特征预测效果评估
为了更深入探讨研究初始级联的时域信息和空间拓扑信息对级联预测的影 响,本节比较了 STAN-ICP和Features-linear以及它们不考虑某一领域特征情况下 的变体模型。实验结果如表4.4所示,为了便于结果显示,表中用T指代时域特性, 用S指代结构拓扑特性,如“no T”表示相应方法中不考虑时域特征,同理“no S” 表示相应方法不考虑级联结构因素。
表4.4时空特性预测效果评估表
Table 4.4 Effects of temporal factor and structural factor on cascade prediction
    MSE(t-l*) MSE(t=2*) MSE(t-3*)
  Features-linear(no T) 4.106 2.823 3.715
  Features-linear(no S) 3.976 3.640 3.524
  Features-linear 3.821 3.511 3.423
Twitter STAN-ICP (no T) 3.772 3.503 3.328
  STAN-ICP (no S) 3.716 3.540 3.407
  STAN-ICP (time series T) 3.809 3.621 3.463
  STAN-ICP 2.609 2.349 2.300
  Features-linear(no T) 2.621 2.407 2.092
  Features-linear(no S) 2.561 2.312 1.986
  Features-linear 2.429 2.136 1.880
AMiner STAN-ICP (no T) 2.411 2.050 1.799
  STAN-ICP (no S) 2.307 2.186 1.838
 
 
 
STAN-ICP (time series T) 2.457 2.129 1.906
STAN-ICP 2.172 1.672 1.534
p.s. t=l*,在Twitter数据集中代表小时,在AMiner数据集中代表月。
由表4.4可知,无论是Features-linear还是STAN-ICP模型表现均优于相应的变 体模型,表明初始级联时域特性和结构拓扑特性在级联预测中的重要性。此外可 以看出,“Features-linear(noS)”方法表现优于 “Features-linear(noT)”方法,表明时 域特性在级联预测中起到更主导性的作用,这与康奈尔大学Benjamin Shulman等 人的研究相一致[98]。然而,“STAN_ICP(noT)”方法与“STAN_ICP(noS)”方法所获 得的预测性能大致相似,显示针对初始级联时域特征(级联预测中最具预测性的 信息),STAN-ICP模型仍有可挖掘利用的空间,从而进一步提高预测性能。
为此,深入研究对比了不同的时域信息挖掘整合方法。“STAN-ICP (time series T)”是将初始级联转化为时间序列表示,例如消息传播历史的观测区间为1小时, 则依时间递增依次统计每5分钟内的传播事件数目,生成时间序列表示,将该时 间序列输入时空耦合神经网络,取代原方法中点过程序列的部分。此处所选时间 序列分析方法在预测学领域广泛应用,基于数理统计和概率论理论,通过分析序列 中趋势项、周期项和随机噪声部分,建立揭示并反映系统动态结构和规律的数学模型。 从表中可以看出,STAN-ICP模型优于“STAN-ICP (time series T)”方法,这符合研 宄的预期,直觉上,初始级联中每个传播事件的时间间隔比时间序列数据蕴含更 多有预测性的信息。值得注意的是,在信息级联的初期进行预测时,“STAN_ICP(no T)”比“STAN-ICP (no S)”预测性能差,这可能时因为级联早期“简单的”拓扑结 构不足以提供足够的预测性能。
4.4.2.3注意力机制效果评估
上节验证了 STAN-ICP模型中提取应用的特征的重要性,本节探讨STAN_ICP 模型中各组成部分,特别是所设计的注意力机制各模块所发挥的作用,验证模型 设计的合理性。与上一节相类似,将STAN-ICP模型及其不同组成部分的变体模型 进行对比。实验结果如表4.5所示,为了方便结果显示,表中用“g伽”和 分别指代Inter-gate模块和内部注意力机制模块,则“no ga/e”表示去掉Inter-gate 模块,“no 洲”表示舍去内部注意力模块。由表4.5可得出,在转推级联和
引用级联两种预测场景下,针对不同的初始级联,STAN-ICP模型表现都优于相应 变体模型,证明了模型各组成部分对级联预测的积极贡献,进而验证模型设计的 合理性。

4.5 STAN_ICP及其变体模型的性能对比 Table 4.5 Contribution of different components of our proposed method STAN-ICP
    MSE(t=l*) MSE(t=2*) MSE(t=3*)
  STAN-ICP (no _) 2.956 2.811 2.513
Twitter STAN-ICP (no attention) 3.226 3.124 2.825
  STAN-ICP (no attention+gate) 3.726 3.419 3.376
  STAN-ICP 2.609 2.349 2.300
  STAN-ICP (no gate) 2,285 1.706 1.592
AMiner STAN-ICP (no attention) 2.339 1.816 1.763
  STAN-ICP (no attention^gate) 2.462 1.928 1.809
  STAN-ICP 2.172 1.672 1.534
 
p.s. t=l*,Twitter数据集中代表小时,在AMiner数据集中代表月。
 
 
4.5本章小结
本章研究了社交网络中信息级联的增长过程,着重分析并解决传统级联预测 模型中的存在的特征依赖问题,并研究了预测力来源问题,实现不同域特征的融 合应用。
本章建立了基于表征学习的级联增量预测模型STAN-ICP。STAN-ICP应用端 到端框架,自动学习级联网络的高维特征表示,不再受手工特征及领域先验知识 的制约。针对预测力来源问题,结合级联时域特性和拓扑结构特性的关联性,在 STAN-ICP中设计了注意力引导的时空耦合机制,分别利用时域信息和拓扑结构信 息互相监督其组合权重的生成,以实现对级联时空信息的“结构化”,有利于更有 效的模型训练,增强了级联预测模型的表达能力和预测能力。通过在两个实际应 用场景的级联网络数据集中的实验可知,本模型在预测准确度上优于己有的级联 预测模型,级联时域信息和空间拓扑信息的互补性,时空耦合的注意力机制设计 合理性也都得到验证。
本研究建模了级联增长过程,将深度学习技术纳入级联预测框架中,定性分 析了级联高维时空特性的作用。本研究有助于更深刻地理解发生在社交网络中的 级联增长过程,为进一步研究网络舆论的传播提供基础。
5相对流行度预测
第二、三、四章所进行的研究及预测均是以绝对流行度为研究对象,社交搜 索、内容推荐等新兴应用场景对相对流行度(即流行度排名)更感兴趣,如何通 过用户-内容交互行为预测并生成流行度排序这一网络宏观偏好?本章旨在借助二 部图结构及正则化理论对网络微观偏好和宏观偏好的关联性进行研究。首先,抽 象用户拓扑关系并建立基于个体行为偏好的二部图模型,其次,在第二章流行度 增长机制的研究基础上,抽象微观偏好聚合规则并建立基于正则化的流行度排序 算法,定量描述微观偏好和宏观偏好之间的映射关系。最后,通过实验评估模型 的预测排序能力,并对相对流行度和绝对流行度区别作进一步讨论和总结。
5.1引言
“网络、内容、用户”三位一体的社交网络中,网络是媒介,对内容进行展 示、传递和存储,用户生产和消费内容,用户消费内容的过程中,会运用评论、 转发、评分、点赞、回复等各种交互方式,这种用户和内容之间的交互是社交网 络发展的核心源动力。Web 2.0技术的发展丰富了用户交互方式,使用户参与能力 不断提升,推动了社交网络应用及其网络规模的快速发展,而网络的成熟和丰富 应用又吸引了更多用户参与到社交网络中。交互方式反映用户的个体偏好,是网 络微观偏好的一种表现方式。多数用户的共同偏好则体现网络偏好的宏观特性, 是网络整体偏好的一种反映。学界和工业界更关心网络的宏观偏好,这类宏观偏 好能够更好地表达网络用户偏好的取向和变化趋势,进而预测用户偏好的走势, 从而也更具理论和实际意义。
在以用户为主体的社交网络中,随机性、不确定性大大增强,结合网络内容 和社会网络关系的作用,用户的行为特性推动用户偏好发生变化,时刻影响宏观 偏好的演化。因此,建模微观偏好和宏观偏好之间的联系己经成为当前新的研究 热点。此外,内容流行度是用户宏观偏好的体现,当前研究主要围绕内容的绝对 流行度(即内容最终获得的转发、点击量、评分等)展幵研究。然而,时下社交 搜索、内容推荐等新兴应用场景,更关注内容的相对流行度,即不需要预测精确 的绝对流行度,只需要预测其宏观相对排名情况,很显然,这种相对流行度预测 对比绝对流行度预测,降低了预测难度,提高了易用性。因此,通过聚合微观偏 好,生成内容的相对流行度排名,定量描述微观偏好和宏观偏好间的映射关系, 揭示宏观偏好的演化特性,具有重要的理论和应用价值,这是本章重点关注的内
容。
基于此,本章建立了基于个体行为偏好的二部图模型,将微观偏好抽象为二 部图中不同权值的边。针对网络偏好的微观性与宏观性的关联问题,从聚合微观 偏好的角度出发,建立了融合社交网络流行度增长机制的正则化框架,实现了宏 观偏好排序。然后,通过在真实的社交网络数据集中进行实验,验证模型预测排 序性能。本研究有助于加深对社会化网络以及网络信息聚合规律的认识,同时也 能够为网络舆论等研究领域以及社交搜索和推荐系统等应用领域提供基础性理论 和工具。
5.2二部图建模
将社交网络用户偏好建模为二部图结构,定义社交网络中用户和用户生成内 容UGC)为二部图节点,用户和内容之间的反馈关系抽象为节点之间的边。具 体而言,基于用户偏好的二部图用G = 幻来表示,W代表网络中用户的集
合,0代表网络中用户生成内容的集合,如微博客网站中的初始推文、YouTube 网站中的用户上传视频、Instagram网站中发布的照片等。代表边的集合, 其中的边(w,〇)eS表示用户对网站内容oeO的表征个体偏好的行为,如发 布、回复、评论、点赞或转发等各类操作,这些行为蕴含了用户兴趣的多种特征, 反映用户兴趣所在。
U
 
Figure 5.1 Bipartite Graph
以当前国内主流的微博客网站一新浪微博为例进行研究。新浪微博是一个基 于用户关系的信息分享、传播以及获取信息的平台,它占据国内微博用户总量的
 
57%,以及国内微博活动总量的87%,是国内访问量最大的网站之一t169l。在微博 客网络中,注册的用户对某条微博的操作可以分为四种:“发表”、“仅转发”、“评 论并转发”、“仅评论”。为简化模型起见,考虑到“发表”、“仅转发”、“评论并转 发”对初始微博的传播贡献作用相似,在本章后续部分假定这三类操作统一为同 一类型,用“转发”表示。那么边S即可以简化为两类:“转发”(Retweet)和“评 论”(Comment)。基于此,建立如图5.1所示二部图模型,其中实线代表“转发” 操作,虚线代表“评论”操作。
边权重&的设置主要考虑到边所表示的反馈操作的类型和反馈发生的时间两 个因素,显然,转发和评论对推文传播扩散会起到不同的作用,此外,行为发生 的时间对观测推文的传播态势有不同的影响,如距离预测点愈近的微观偏好行为 相比离预测点较远的(传播早期发生的)行为在流行度预测中起到更大的作用。 关于系统弛豫响应时间对社交网络中消息传播的作用关系在第二章已进行了详细 的阐述论证,此处不再赘述,选用指数衰减函数表征行为相关的时间因素。综上, 定义边的权重%为:
(0.^08^^ (5.1)
其中,0为表示操作类型影响力的常数,即不同类型操作对初始推文扩散影响 能力,分别对转发和评论操作赋予不同权重:
A9^e
\0C,comment
此外,~为排序时刻,即进行预测的时间;~是用户w,对内容义进行转发或评 论的时间;5是边权重%随时间变化的衰减因子;对同一社交平台内流行度排序 预测中,参数a和6为常数,保持不变。需要注意的是,当用户%和内容乂间没有 连线时,%为0。且考虑到,在某些话题性较强的推文下面,评论区内经常会有 相关讨论,用户甚至会在评论区持续发表观点从而形成对话,针对这种情况,如 果用户对某条推文发表多个评论,则只建模距离排序时刻~最近的一条评论对推文 传播扩散的影响。
5.3正则化框架
上一节建立了基于个体行为偏好的二部图模型,将微观偏好抽象为二部图中 不同权值的边,本小节在其基础上,提出并设计了融合社交网络流行度增长机制 的正则化框架,实现对微观偏好的聚合,通过求解正则化函数得到流行度排序函 数— 将二部图G中的每个顶点映射为相应的实数表示,该实数打分
值分别反映推文的流行度或用户的影响力。
5.3.1 正则化框架构造
正则化项需定义微观偏好到宏观偏好的聚合规则,即构造正则化项过程中融 入社交网络流行度增长机制等域内先验知识。本研宄先前章节己对微观偏好及其 变化、用户的社交网络拓扑结构、从众特性以及社交网站推送机制等因素对宏观 偏好的影响进行了详细的研究。
考虑用户的影响力对推文传播扩散的作用,例如,一条推文如果被社交网络 中有影响力的用户(微博大V、意见领袖或其它粉丝较多的认证用户)转发或评 论后,则这条推文将获得更大的曝光度,吸引到更多的关注,从而更大概率地提 升其被进一步转发或评论的可能性;相反,一条推文只是被“草根用户”转发或 评论,则该推文很大概率只能在小范围内扩散传播。除此以外,一条推文被转发 或评论的次数越多,这条推文评分也越高,在流行度排序中位置更靠前。需要注 意的是,这一因素的作用在美国东北大学的Wang等人的工作中得到验证在 本研究的第二章中也进行了相关的实证分析。于是,引入q和K的加权度 (Weighted degrees )、和尤,作归一化处理:
(5.3)
m1
(5.4)
其中和/W分别表示二部图网络中用户和内容的数目。综上,可以构造满足这 两个约束条件的正则化项巧(/):
(5.5)
2…{扎札)
由公式5.5可以看出,当尺(/)减小时,可以缩小初始推文〇7和所有对其进行 反馈操作的用户的归一化分数差值,如前文定义,用户的归一化分数反映用户的 影响力,进而将用户影响力因素融入对正则化项巧(/)中,便于其在流行度排序中 发挥作用。特别地,当一个高影响力的用户转发或评论了某条推文后,根据尺(/) 的设定规则,也会随之增大。同时,推文的评分/(I)与加权度^成 正比,则推文获得更多的反馈操作,即^增大,则的评分也相应增 大。综上,正则化项巧(/)定义了二部图中推文及用户评分的更新规则,有效融入 推文流行度预测领域内的先验知识,刻画了微观偏好的聚合过程。
此外,对推文的流行度排序做预测,在对二部图内推文及用户评分的更新之 前,需要赋予推文流行度评分和用户影响力评分初始值,进而保持一致性,实现 对预测评分的约束。本节用 < 表示用户W/的初始评分值:

“0  lg(l + & )
(5-6)
 
其中,参照第二章中所提级联增长模型中转发者影响力的表现形式,此处也 选择用户的粉丝数量初始化用户影响力大小,用户粉丝数决定推文的潜在转发群 体,如果用户粉丝数多,则推文可以被更多用户接触到,进而扩大传播范围。因 此,备指示用户%的粉丝的总数目,针对有的用户没有粉丝的情形,通过加1处 理进行应对。
图5.2基于转发和评论数的推文初始评分
Figure 5.2 Operations in Sina Weibo
针对推文的初始评分值,如图5.2所示,考虑到推文的转发及评论数目共同反 映推文的影响力,定义该推文获得的关注度Attention)由下式构成:
ATOJ^errj^eccj (5.7)
其中,〇和^•分别表示推文的实时转发数和评论数目,需要注意的是,该评 论数也筛选掉其中的对话讨论类评论。推文所获转发数和评论数之间的相关性将 在第5.4节实证分析。推文关注度中转发数和评论数的贡献权重&和&也将在实际
数据集中训练求得。从而,本节用<表示推文义的初始评分值:
0 logjATOj)
广 (碼) (5.8)
综上,针对推文〇和用户分别引入了正则化项尽(/)和/?3(/):
^(/) = Z(/(^)-^°) (5.9)
^3 (/) = £(/(«,)-«f) (5.1〇)
其中,正则化项还可以刻画社交网络中经证实广泛存在的“富者愈富” 现象[13217G171],当在预测时刻,推文〇1如果比推文%获得更多其他用户的转发, 即推文〇1享有更高的流行度,则在后续传播发展中,推文〇1有更大的概率比推文〇2 获得更高流行度。这种现象实质上是社交网络中优先连接机制和网站的推送、推 荐机制共同作用的结果。

最后,整合这三个正则化项,可以得到正则化函数如下所示:
Q(f) = R'(f) + aR2(f),3(f)
Z(/K)'^°) +^I(/(^)-^°) (5.11)
Z J=l i=l ^ yjaj J 戶丨 *=1
其中,a和夕是正则化参数,用来平衡正则化项i?2(/)和/?3(/)在目标函数 2(/)中的权重。例如当a = 0时,最终所求的排序函数/中未考虑推文初始流行 度的约束。关于正则化项足(/)和尽(/)的有效性评估将在后续实验部分详细验 证。综上,通过在基于个体行为偏好的二部图基础上,设计正则化框架聚合微观 偏好,将相对流行度预测问题转化为约束优化求解问题,目标函数即是2(/)。
5.3.2 
 
   
 
 
 
 
正则化框架求解

则正则化函数以/)的Hessian矩阵可表示为:
丄 」
H = -D AD +I + 1T
其中,deR(w+n)x(m+n)是二部图的邻接矩阵;/为单位矩阵;
对角线上每个元素是第/个顶点的赋权度(Weighteddegree); T也是对角矩阵, 对角线上的元素满足:第/个顶点表示初始推文时,7; 第/个顶点表示用户
时,乃,=。
」 」
H = ^D2AD~2+I-^2T
= 2T + {I-D~2AD~2) (5.14)
= W + Lsym
由上式可知,对角矩阵r的特征值均为非负值,所以r为半正定。此外,矩阵 是二部图的对称归一化拉普拉斯算子,根据图谱论理论可知,二部图的对称归 一化拉普拉斯算子是半正定。所以,作为两个半正定矩阵之和,正则化函数2(/)

的Hessian矩阵//是半正定矩阵,从而证明了正则化函数以/)是严格凸函数。 针对流行度排序应用场景中对预测时效性的要求,考虑到交替迭代算法相比
于其他最优化算法具有快速收敛的特点,此处选用交替迭代算法进行正则化函数
求解。对正则化函数对变量义和%求偏导数,并使导数为0,从而求得函数 的全局最小值。最终,求得排序函数/迭代最优解为:
(5.15)
/(') = T^+T7^§ 玄冗 (5J6)
根据公式5.15便可求得推文乂的预测评分,将集合〇中内容依照预测评分进 行排序,便可求得其相对流行度,从而聚合生成宏观偏好。
5.4模型实验与评估
5A1 实验设置 5.4.1.1数据集
用于评价模型预测排序性能的数据集来自于新浪微博1,为实现微博数据准确 高效的获取,本研究采用了基于新浪微博API (Application Programming Interface) 进行数据爬取。该API由新浪微博开发,开发者可获得相关接口的访问权限,实 现分享、关注、订阅等日常行为操作,同时也可查询获取微博信息、好友关系等 数据。由于新浪微博API限制措施,特别是2014年9月API更新后,只能最多爬 取一个特定账户30%的粉丝信息,本研究所爬取的数据集包含2013年8月1日到 2013年8月31日之间的所有推文及其转推。为了便于评估模型预测性能,本研究 删除了转发数少于30的推文的初始推文,同时删除了微博数小于50的用户,剔 除了新浪微博中存在的部分僵尸用户的干扰作用。数据集包括推文ID,推文发布 时间,转推时间、转推者ID、评论时间及评论者ID等相关信息。
二部图模型中考虑到微博的转发数和评论数的共同作用,二者分别反映微博 所传递信息的扩散范围和受关注程度,共同反映微博的影响力。为进一步实证分 析微博的转发数和评论数的关系,研究其分布情况,图5.3分别显示数据集中微博 的转发数和评论数的统计分布情况。

 
图5.3数据集中微博的转发数和评论数分布 Figure 5.3 Distribution of retweet counts and comment counts
 
图中横坐标为转发数和评论数,纵坐标表示拥有相应的转发数/评论数的微博 所占比例。由图中可以看出,二者均服从幂律分布,且均具有长尾效应,即少量 微博获得大量的转发和评论,引起热议,然而大量的微博却默默无闻,获得较少 的转发和评论。
表5.1微博的转发数和评论数的相关系数
Table 5.1 Correlation coefficient between the number of retweets and the number of comments
in SinaWeibo
  Task All Top 1% Top 10%
Spearman coefficient (%) Retweet VS Comment 44.6 59.2 55.0
Retweet VS Follower 42.6 31.8 39.6
Comment VS Follower 36.2 33.1 29.7
 
 
 
为了研究微博的转发数和评论数之间的相关性,釆用斯皮尔曼次序相关系数 (下文将详细介绍)分别计算全部微博,以及转发数为前1%和前10%的微博的相 关系数,结果如表5.1所示。由表可知,微博转发数和评论数的Spearman相关系 数介于0.4〜0.6,相关度较高,此外转发数高的微博,其转发数和评论数的相关性 也较大。表中也列出了微博的转发数和评论数与发布者粉丝数之间的Spearman相 关系数,该相关系数介于0.3〜0.4,属于中度相关,表明用户的粉丝数较髙时,其 微博一般情况下也会获得较多的转发和评论,这也为5.3.1节中正则化项尺(/)的 构造提供一定的实证基础。

5.4.1.2模型评估标准
应用斯皮尔曼次序相关系数(Spearman coefficient)来评估预测排名和真实排 名之间的一致性[172]:
</> = \ — 1
m(m2 -1)
其中,夂/和^分别表示推文y在预测排名和真实排名中的排序位置。斯皮尔 曼次序相关系数是衡量两个变量的依赖性的非参数指标。它利用单调方程评价两 个统计变量的相关性。^取值范围为[-u],斯皮尔曼次序相关系数取+1时,意味 着预测排名和真实排名完全拟合正相关,斯皮尔曼次序相关系数取〇对应两个排 序之间没有相关性。
考虑到新浪微博中少量的微博占据了大多数转发次数(如图5.3所示),即吸 引多数的用户关注。在流行度排序研究及实际应用中,学界和工业界更关心的是 预测模型对排序靠前的微博的预测排序性能。因此,排序性能评估中还采用了两 个指标:热点微博覆盖率和归一化折损累计增益。
在最终转发数真实排名中选取前k个(此处选定前300条,Top-300)微博作 为热点微博,本研究评估所提出的基于正则化模型所预测生成的预测排名中,前k 个微博对热点微博的覆盖率(Coverage),覆盖率愈高,则模型对热点微博预测性 能愈强,即及时准确地预测热点微博。

同时,引入归一化折损累计增益(Normalized Discounted cumulative gain, nDCG)来深入评价模型的排序性能,侧重对排名靠前的微博的预测评估:
本节中,将|L|设置为热点微博的序列长度。nDCG取值范围为[〇,1],nDCG越 接近1,排名愈精准。
5.4.1.3对比模型
从简单的启发式预测排名、数据驱动模型、生成式模型等预测方法中,分别

选取代表性的模型作为基准对比模型,各模型简介如下:
rRank:根据预测时刻的各推文的转发数对最终流行度排名进行预测,假定当 预测时刻获得较多转发的推文未来也会获得更多转发;
aRank:根据预测时刻的各推文的关注度(Attention,定义详见上文5.3.2节), 综合考虑推文的转发及被评论量,预测最终流行度排名,假定当预测时刻关注度 高的推文在未来会获得更多转发。此处,rRank和aRank均是简单的启发式预测方 法,作为基准模型的同时,也可以对本研究所提正则化项依赖的假设条件进行验 证;
M-L[8rl:基于多元线性回归的预测模型,将预测时刻之前时间段均分为n等 份,使用先前流行度值(转发数)的线性组合预测推文在未来时刻受欢迎程度, 将受欢迎程度依照转发数生成预测排名;
TiDeH:基于生成模型的流行度增长趋势预测方法,该模型基于自激励点过程, 根据推文的早期的传播活动生成级联大小随时间演变状态的预测。需要注意的, 与M-L类似,TiDeH也是针对绝对流行度(即推文获得的实际转发数目)进行预 测,同样地,将绝对流行度排名,进而生成其预测排序。
5.4.1.4参数设置
基于个体行为偏好的二部图模型中边权重似中的参数在具体实验中根据人工 经验设置,选取5=0.83,a=l,6=0,6^0.8,必=0.2。正则化框架中超参数a和 ^则通过网格搜索(Grid search)进行寻优,从数据集中随机抽取10%作参数训练, 剩余部分用于模型评估。参考本文2.2.2节,基准模型TiDeH中记忆核函数火0的 参数在微博数据集中经拟合设置为:^6.32x10' 0 = 0.239, ^
5.4.2 实验结果
5.4.2.1排序效果综合评估
表5.2展示所提模型与基准模型的预测性能对比。显然,所提模型获得较高的 斯皮尔曼次序相关系数,即所提模型可以实现对微博的相对流行度优于其它对比 模型的预测。
由表5.2可知,简单的启发式预测方法rRank和aRank都展现了一定的预测性 能,验证了所提正则化项足(/)中所蕴含的“富者愈富”效应,证实该效应在新浪 微博信息传播中发挥作用,即当一条推文在某一时刻获得较多的转发或评论,那 么这条推文在后续传播扩散中,相比其它推文,有更大的概率获得更高的流行度。
同时,相较于rRank,aRank的斯皮尔曼次序相关系数提升了近12%,aRank中除 了考虑推文转发信息,还考虑了推文传播中的评论的作用,实验结果说明在预测 推文扩散的过程中,推文所获得的评论信息是对推文转发信息很好的补充,推文 的转发数和评论数能够综合地体现该推文所含信息的扩散传播程度和受关注程 度。
表5.2不同模型排序效果对比 Table 5.2 The performance comparison in popularity prediction
Method Spearman coefficient (%)
rRank 61.09
aRank 68.23
M-L 79.56
TiDeH 81.62
Proposed 86.91
 
 
 
表52也表明所提模型在对流行度排名进行预测的任务中表现优于基于多元 线性回归的M_L预测模型和基于自激励点过程TiDeH方法。后两个方法均是学界 针对绝对流行度预测问题提出的,即根据信息早期传播情况对信息在未来某一时 刻的绝对流行度(如推文的转发数、视频的点击量等)进行预测。显然,和本章 所研究的相对流行度预测任务对比,绝对流行度的预测更具挑战性。M-L和TiDeH 也均在绝对流行度预测任务中取得一定成效,但是考虑到这两类方法在训练集中 拟合模型时所釆用的优化标准是mRSE(Mean Relative Square Error,相对平均误 差),而mRSE标准在相对流行度预测中不适用,例如,mRSE标准更侧重对预测 时刻获得较少的转发数的推文的预测精度进行评估,因为其流行度相对增长量大 于那些己获得较多流行度的推文的相对增长幅度,这就导致用该优化标准拟合的 模型的参数在相对流行度预测任务中失去意义。
此外,从表5.2中也可以看出,TiDeH表现优于M-L,这也得益于TiDeH对 微博信息传播中社交网络拓扑信息的刻画与运用,虽然TiDeH中所采用的消息传 递者粉丝数只是社交网络中用户拓扑关系的极简抽象信息,但是仍可以表征消息 传递者影响号召力大小,进而决定信息的潜在接收和转发群体,在预测过程中考 虑这一因素显然有助于提升模型的预测精度。除此以外,类似于第四章中4.4.2.2 的讨论,TiDeH和M-L预测效果的对比也进一步验证了在流行度预测问题中,基 于点过程的方法的表现优于时间序列分析方法,即每个传播事件的时间间隔比时 间序列数据蕴含更多有预测性的信息,同时也更便于模型扩展,融入其它预测因 子,从而进一步提升预测效力。

总体而言,本章所提模型在对流行度排序进行预测的任务中表现优于其它对 比模型。考虑到本节所采用的斯皮尔曼次序相关系数评估的是预测排序和真实排 序之间的整体一致性,然而,现实应用中,可能更关注的是流行度排序中相对靠 前的消息(即热点信息),对所提模型在热点信息排序中表现的评估将在下文详细 展开。
5.4.2.2热点发现评估
针对模型对热点信息的预测发现能力的评估,旨在信息传播早期预测其最终 流行度在所有信息中的排序,识别并判断是否会成为热点信息。显然,在信息传 播愈早期作出判断,则预测更有意义。
   
 
   
在新浪微博预测场景下,如5.4.1.2所述,在最终转发数真实排名中选取前k 个(此处选前300条,Top-300)微博作为热点微博,生成热点微博集合,,本章 所提模型和其它对比模型对微博排序进行预测,生成相应的预测热点微博集合<5, 比较S/即预测热点微博对真实热点微博的覆盖率。不同的预测方法所实现的 热点微博覆盖率与预测时刻转发量在总转发量中占比的关系如图5.4所示。
obseved/all
5.4不同模型热点发现能力对比图
Figure 5.4 The performance comparison in hotspot detection
从图5.4中可以看出,本模型可以实现对热点微博的早期预警。具体而言,当 一条微博获得它最终总转发数的28%的转发时,即可以预测并准确识别Top300热 点微博集合,中63%的初始微博。图5.5中显示集合,中微博获取的转发占总转 发数比例随时间变化的箱线图。可以看出,集合中的微博在发布后一小时内便收 到了占总转发数约60%的转发,10分钟内可以获得占最终总转发数的28%的转发。


意味着,本模型可以在微博发布10分钟便可预测识别出63%的热点微博。与上节 结论相一致,TiDeH表现要优于M-L,当收到20%的转发时,TiDeHM_L所预 测的热点微博分别可以覆盖集合,的58%和51%。但是从图中也可以看出,在该 热点识别任务中,TiDeH与本模型表现不相上下,特别是当己获转发量占比高的 时候,可能的原因是,热点发现任务中对热点微博区域内部的排序性能要求低。 启发式的预测方法rRankaRank均不能在信息传播早期实现对热点微博的有效 识别,特别是和其它方法对比,劣势明显。
S.4.2.3分层流行度排序效果评估
本小结重点考察模型对不同热度的微博的预测效果。首先将数据集中的微博 按照预测时刻的转发数由高到低排序,等分为8个微博子集合,分别表示不同的 流行度等级即等级愈高,微博在预测时刻获得转发数目愈少, 则该微博流行度低。本模型和对比模型分别对不同等级流行度内的微博进行预测 排序,排序评估结果如图5.6所示。总体而言,对比其它模型,本模型在各层流行 度的微博排序中均具有优势。
由图5.6可以看出,启发式预测方法aRank在流行度等级较低时,仍保持一定 的预测能力,随着等级升高,斯皮尔曼次序相关系数显著降低,和本章所提模型 的差距逐渐拉大。直观而言,启发式预测需要一定的转发量做基础,当微博获得 的转发数较少时,启发式预测方法便不能发挥作用。
由图5.6也可以看出,流行度等级低时,即针对预测时刻己获得较多数目的转 发的微博,M-LTiDeH,甚至和本章所提模型相比较,所获得的斯皮尔曼次序

 
12345678 Rank Number
图5.6分层排序效果对比图 Figure 5.6 Evaluation on different tier
o o o o
8 6 4 2
{0/0) }u(uiuf!ta/0uuroUJJro3ds
 

 
   
 
   
 
   
相关系数相差不大,如内,M-LTiDeH与本模型的斯皮尔曼相关系数分别 达到0.76、0.78和0.80,这三类方法的相对流行度排序能力相当。造成这种结果 的原因可能是因为当微博的转发数目足够多时,在流行度预测过程中引入社交拓 扑结构、转发时域信息等因素的作用不大。由图5.6可知,随着流行度等级增大, 即微博在预测时刻所获得微博数较少时,M-L与本模型之间的斯皮尔曼相关系数 差距不断拉大,也佐证了上述解释,当微博转发数目较少时,社交拓扑结构等因 素在流行度预测中发挥重要作用。综上,针对不同等级的流行度内容进行预测, 本模型的预测性能均较优,且总体发挥平稳。

考虑到各种社交研究及应用中,最关心的是模型对高流行度的微博是否能生 成高质量的排序,从而服务于微博推送、社交搜索等应用。为此,本小节深入研 究了髙流行度的微博的预测排序,引入归一化折损累计增益nDCG)指标,从而 评估结果更侧重排名靠前的微博的相关性,实验结果如图5.7所示。从图中可以很 清晰地看出,随着k变化,本模型地nDCG值始终高于其它对比模型,特别是it < 80 时,本模型优势明显,相比基准模型TiDeH提高了近18.6%。
30 20
本小结评估了模型的局部预测能力随预测时间变化的情况,验证模型的适应 性。本模型与其它对比模型的预测性能对比如图5.8所示。由图可知,本模型及对 比模型的预测性能均随着观测时间的减少而降低,很显然,更少的观测时间意味 着可以挖掘利用的信息更少,预测难度更大。然而本模型的排序能力降幅最小, 且对其它对比模型始终保持压制,进一步突出了模型在相对流行度预测中的优势。
S.4.2.4正则化项有效性评估
本小节探讨模型中各组成部分,特别是各正则化项所发挥的作用,验证正则 化项设计的合理性。本小结比较了所提模型及其相关变体模型在预测数据集内微 博流行度排序能力。实验结果如表5.3所示,为了便于结果显示,表中“no R2表示相应模型正则化函数中不含正则化项A(/),即2(/)二巧(/) +坪3(/),同理, “no Ra表示相应方法不考虑正则化项尽C/〇。

表5.3本模型与其变体模型的预测性能比较 Table 5.3 Contribution of different regularization terms of our proposed method
Method Spearman coefficient (%)
Proposed(no R2) 81.65
Proposed(no R3) 83.90
Proposed(no R2+R3) 78.13
Proposed 86.91
 
 
 
由表5.3可得出,本模型去掉任意正则化项尽(/)或矣(/)后,皮尔曼次序系 数都会不同程度下降。正则化项尽(/)或尽(/)分别表征微博的预测时刻流行度和 用户影响力对排名预测的影响。也即是说,实验表明这两个因素都对相对流行度 预测的有积极贡献,相比较而言,预测时刻微博流行度作用更大。同时,综合考 虑这些因素后,可以取得最佳预测效果,也表明微博的预测时刻流行度和用户影 响力对模型预测能力的贡献是互为补充的。
5.5本章小结
本章研究了网络微观偏好和宏观偏好之间的关联问题,考虑到微观偏好、用 户的社交拓扑结构、内容流行度增长变化规律等因素,研究了这些因素对宏观偏 好演化过程的影响。
本章从聚合微观偏好角度出发,以相对流行度为研究对象,建立了基于个体 偏好的二部图模型。并在其基础上设计了基于正则化的流行度排序算法,模拟了 用户偏好沿着社交网络结构的传递、聚合规则。二部图模型中,不同类型的微观 偏好被抽象为不同权值的边,边权重同时融入了个体行为的时域信息。正则化框 架中,不同的正则化项分别定义了二部图中推文及用户评分的更新规则,有效融 入推文流行度预测领域内的先验知识,刻画了微观偏好的聚合过程,并为推文流 行度评分和用户影响力评分设定初始约束条件。通过在真实的社交网络数据集中 的实验,并对比其它现有模型,本模型可实现更好的流行度排序能力,同时,研 究了绝对流行度与相对流行度预测任务的差异及各自特点。
本章从聚合微观偏好角度出发,生成内容的相对流行度排名,定量描述微观 偏好和宏观偏好间的映射关系。本研究不但有助于理解网络用户的行为模式和特 征,还对认识网络信息的聚合与网络舆论的形成有很大帮助,为社交搜索和推荐 系统等应用领域提供有利的研究工具,在经济和网络价值发掘的实践中,都有广 泛的意义和价值。

6总结与展望 6.1论文总结
社交网络已成为互联网媒体中最为流行的媒体类型之一,凭借用户基数大、 信息传播快、互动功能强等特点,成为网上内容传播的中坚力量。流行度反映内 容在社交网络中获得的关注程度,这通常是一条消息是否获得病毒性传播的关键 指标。如何通过早期传播历史对未来流行度进行预测,抽象信息流行度增长机制, 挖掘信息扩散传播的因素,优化预测因子在时空维度的筛选策略,是亟待解决的 问题。然而,社交网络中丰富的内容形态及交互模式,爆炸的信息裂变速度,作 为主体的用户的高度自主性、自适应力,均为这些问题的解决增添了难度。基于 此,本文在前期大量研宄基础上,借鉴交叉学科的思想和方法,对上述问题进行 深入研究。本研宄结合信息科学、社会学理论、人工智能以及数理统计学等学科 的思想和方法,生成社交网络内容流行度预测方法,揭示社交网络中信息传播的 微观与宏观规律,建立了能够刻画这些规律的数学模型。
论文的主要研宄内容及意义总结如下:
研究流行度最终规模预测方法。首先,在分析社交网络中信息扩散传播过程 的基础上,建立基于自激励点过程的信息流行度生成模型,综合考虑消息内在吸 引力、网络拓扑结构、系统弛豫响应等因素,量化传播事件间的作用关系,即先 前发生的传播事件对后续传播事件有促进激励作用;其次,结合自激励点过程和 分支过程理论,提出了基于分支树结构的预测框架,在该框架内,消息的内在吸 引力是连接早期传播历史和未来推测值的重要纽带,在通过早期传播历史拟合消 息内在吸引力的过程中,探宄并验证最佳观测点与消息吸引力早期动态演化趋势 之间的关联性,并基于此,聚类消息吸引力的全局动态演化模式,提出自适应观 察窗口的挖掘方法,进而增加观察式预测的精度和适应性;最后,通过设计随机 森林回归器学习得到预测比例因子,该比例因子可以借助特征驱动类方法的优势, 应用同一网络下传播的其他历史消息的动态演化信息,提高预测的准确性。通过 在两个真实的社交网络数据集中进行实验,验证模型的有效性和适用性,并对预 测模型的性能与己有算法进行比较,利用推文发布后10分钟内的转发时间及转发 者的粉丝数目,所提模型对最终转发数的预测相对误差仅为14%。本研究有助于 更深刻地理解社交网络内容流行度的形成过程与增长机制,是进一步研宄网络观 点扩散的基础。同时,本研究为预测学的发展提供可靠理论支撑及实证素材,有 效观测历史和未来的联系的研究促进预测学的发展,对其他领域的预测应用具有 借鉴作用。
研究社交网络内容的流行度演化趋势预测方法。基于“事件”粒度,在生成 模型的基础上,提出一种自激励点过程驱动的消息转发数动态预测方法,该方法 对未来待预测时刻之前发生的转发事件的影响进行分解,并分别根据事件强度的 定义求解其对未来预测时刻的影响,一部分为己观测到的转发事件,一部分为未 发生的转发事件(即待预测部分),两部分影响叠加后生成Volterra积分方程,求 解即可实现消息转发数动态预测;基于“时间”粒度,建立融合多个传统时序模 型(ARIMA、M-L、SVR)的预测能力的组合预测模型(COMFITS),各子模型 对同一时间序列进行预测,并根据各子模型在序列历史预测中的评估表现,对三 类模型的预测结果赋予不同的权重,生成组合预测结果,并提出相应的组合权重 学习方法。具体而言,通过设计多类回归器学习评估各模型的预测精度,进而生 成组合权重,该组合预测模型可以根据各子模型的即时预测性能不断调整组合权 重,从而适应演化模式的动态变化。两类预测模型分别应用于Twitter、Lastfm、 MovieLens、Flickr及Amazon等真实的社交网络数据集,COMFITS均实现优于己 有模型的预测性能,COMFITS经验证可以对不同模式的内容流行度演化过程进行 预测,此外,COMFITS的平台适用性也得到验证。本研宄有助于更深刻地理解社 交网络中信息扩散过程,为进一步实现对社交网络热点话题跟踪、研究宏观舆论 演化提供基础。
研究基于表征学习的级联增量预测方法。在分析级联增长过程的基础上,提 出一种基于时空耦合的注意力机制神经网络(STAN-ICP),借助深度学习端到端思 想,STAN4CP可直接从级联网络原始数据中自动学习与级联增量相关的时域和空 间拓扑结构的高维特征,克服传统的特征驱动方法中人工构造特征的局限性,避 免繁琐的手工特征定义与提取过程,节省人力及计算成本;结合级联时域特性和 拓扑结构特性的关联性,在STAN-ICP中设计了注意力引导的时空耦合机制,包括 内部注意力机制(Intra-attention mechanism)和Inter-gate机制,该时空稱合机制可 分别利用时域信息和拓扑结构信息互相监督其组合权重的生成,以实现对级联时 空信息的“结构化”,有利于更有效的模型训练,增强了级联预测模型的表达能力 和预测能力;STAN-ICP的预测输出模块为多层感知机,可在适度的模型复杂性的 条件下,保证模型的非线性建模能力。在两个真实的应用场景一Twitter中推文的 转发增量预测和学术论文被引次数预测一中进行的实验表明,该预测模型在预测 准确度上优于已有的级联预测模型,此外,级联时域信息和空间拓扑信息的互补 性,基于时空耦合的注意力机制设计合理性也都得到验证。这些研究有助于更深 刻地理解发生在社交网络中的级联增长过程,为进一步研究网络舆论的传播提供
基础。
研究社交网络内容的相对流行度预测方法。首先,抽象用户拓扑关系建立基 于个体行为偏好的二部图模型,该模型中不同类型的网络微观偏好被抽象为不同 权值的边,边权重函数可以量化个体交互类型和交互时间;然后,从聚合微观偏 好角度出发,建立融合社交网络流行度增长机制的正则化框架,定量描述微观偏 好和宏观偏好间的映射关系,正则化框架中,不同的正则化项分别定义二部图中 推文流行度及用户影响力评分的更新规则,刻画微观偏好的聚合过程,并为推文 流行度评分和用户影响力评分设定初始约束条件。最后,提出该正则化框架求解 算法,实现宏观偏好排序。在真实的社交网络数据集中的实验表明,无论在流行 度全局排序还是针对不同热度内容的流行度排序中,该模型表现均优于现有预测 模型,此外模型在热点内容的早期预警任务中亦有上佳表现,正则化项设计的合 理性也得到验证。本研究不但有助于理解网络用户的行为模式和特征,还对认识 网络信息的聚合与网络舆论的形成有很大帮助,为社交搜索和推荐系统等应用领 域提供有利的研宄工具,在经济和网络价值发掘的实践中,都有广泛的意义和价 值。
6.2研究展望
结合论文现阶段的研究成果和研究中存在的问题和不足,未来需从以下几方 面开展深入研究:
1. 社交网络内容流行度量化指标的统一。当前社交网络内容流行度预测的已 有研宄中对流行度的量化指标呈百家争鸣之态,仍未达成共识,例如本文 中采用显式的内容点击量、转发数、收藏数等作为其流行度的度量指标, 然而后续如引入内容传播的地域特征、接收者影响力等因素参与度量指标 的生成,则会对流行度预测方法的评估产生新的影响。显然统一的流行度 量化指标有利于对各预测模型跨平台、跨领域的对比评估,同时方便各模 型的借鉴融合。因此,研究内容流行度的一般性描述,统一流行度量化指 标,是今后重点研究的工作。
2. 自适应观测窗口的优化。在通过传播历史进行信息流行度预测的问题中, 观察窗口的选取具有重要的作用,本文第二章对该问题进行了初探,提出 了一种自适应观察窗口的挖掘方法,增加了观察式预测的精度和适应性, 然而在与理想状况下最优观测区间的对比实验可以看出,该自适应观测窗 口仍有一定的提升空间,未来借助社交网络领域知识、深度学习等技术, 实现最佳观测点的启发式探索,将进一步提升模型性能,并最终揭示传播
历史和未来趋势之间的关系,这将是未来努力的方向。
3. 社交网络内容传播过程中特征量定义与量化。当前内容流行度预测研究方 兴未艾,其理论框架尚未构建完备,尤其缺乏具有明确定义的描述内容扩 散传播的特征量。然而特征量的建立和完备是一个研究领域全面展开、迈 向成熟的必经之路。在社交网络内容扩散传播中,参与个体的从众性与顽 固性、文化程度与所处社会阶级、有限理性决策能力等错综复杂且难以抽 象还原,内容本身的情感分析、倾向性判断、权威性度量等都难以刻画, 这些都给进一步发展信息流行度预测的研究设置了障碍。因此,抽象能够 刻画描述复杂行为的特征量,并通过实际网络数据进行量化,是未来的研 究方向。
4. 流行度预测模型的拓展研究。随着数据获取、处理和挖掘能力的增强,特 别是大数据语义分析与情感量化计算关键技术的发展,将有更多的特征可 用于丰富相关领域研宄的知识库并完善模型,如内容文本特征、作者所在 时区信息、更精细的作者影响力特征等。本文所提的流行度预测模型均具 有一定的拓展性,即便于在己有框架内融入新特征,如第二章基于生成模 型的最终流行度预测方法中,可以很方便地利用内容文本特征、作者时区 信息来初始化推文的内在吸引力这一参数;第四章可以应用内容文本特征 指导时域和拓扑域权值特征的学习,生成更具表现力的级联特征表示;在 第四章采用随机游走生成级联网络的初始表示,未来结合社交网络领域知 识(如传染病模型等)可进一步完善该初始化步骤。
5. 基于迀移学习的跨域预测。本文工作中,无论是推特转发、图片收藏,还 是音乐收听、论文引用,都是利用单一域内的信息对域内所传播内容的未 来流行度进行预测,即域内预测。然而社交网络间互联互通,同一事件可 能同时在不同的社交网络中传播,且不同域中的传播过程存在着关联,如 事件热度在不同域中的传递效应,某一热点事件在微博上发酵后带动其相 关内容在视频网站的点击量。因此,需要进行跨域的信息关联,在本文单 一域预测的基础上,结合其它域信息进行辅助预测,研究跨域的热点信息 迁移学习方法,这些都有待进一步研究。
6. 从静态到动态的建模。本文第四章的级联网络、第五章的基于个体行为偏 好的二部图模型均是建立在静态的网络拓扑中,然而在现实生活中,社交 网络的用户量和网络规模与日倶增,其拓扑结构也千变万化。本文的流行 度预测方法在动态网络中是否适用,动态网络中流行度演化趋势会有哪些 新的特性,静态网络的预测方法如何拓展应用至动态网络拓扑中,这些问 题均有待进一步讨论。
7. 网络舆情引导策略的研究。网络舆情研究的终级目标是探索行之有效的舆 情引导策略,本文所提出的相关模型可以根据内容的早期传播态势对未来 的流行度及流行度发展趋势作出有效的预测,推断消息的扩散范围和影响 深度。众所周知,干预状态下消息的传播路径、未来演进趋势都会相应调 整,其流行度也会偏离预期的演化趋势,因而干预和预测之间的关系如何 平衡和量化,如何预测不同的引导策略、干预手段对信息流行度的影响, 并考察其作用范围和条件,都是未来研究中需要重点关注的问题。


原文地址:https://www.xinxin168.cn/cankaowenxian/483.html,如有转载请标明出处,谢谢。

您可能在寻找参考文献方面的范文,您可以移步到参考文献频道(https://www.xinxin168.cn/cankaowenxian/)查找