所有提交的EM系统将被重定向到网上投稿系统。作者被要求将文章直接提交给网上投稿系统各自的日志。

社交网络中的热点话题感知

Kayalvizhi P1,阿诺·塞尔维2
  1. 印度泰米尔纳德邦卡鲁市V.S.B工程学院计算机科学与工程系学生
  2. 印度泰米尔纳德邦卡鲁市V.S.B工程学院计算机科学与工程系助理教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

社交网络已经成为一个非常大的网络,许多人都在讨论热点趋势,事件和日常活动,他们认为重要的与他们的朋友,家人和许多不认识的人。与报纸、电视等媒体相比,社交网络以非常快的方式传播最新的新闻,人们的原始谈话通过网络传播。该模型用于识别社交网络中讨论的热点话题。以往的社交网络热点话题查找方法存在模型性能低、系统对热点话题的检测误报率高等局限性。在该模型中,考虑了人们在社交网络中通过转发与朋友分享帖子的情况。对转发人数多、转发不规律的特定帖子进行监测,利用变化点检测技术,通过比较帖子内容,实现对热点话题的感知。

关键字

社交网络,主题检测,变化点检测

我的介绍。

人们之间的交流日益增加,通过多种沟通媒体,如电话,互联网新闻渠道,报纸等。讨论的话题可能是热门话题,也可能是他们今天的个人活动。在这项工作中,我们提出了一个概率模型,可以捕捉用户的正常共享行为。通过社交网络分享信息包括在分享每个帖子时创建的链接数量和用户在分享中出现的频率。然后该模型对未来用户行为进行预测。利用提出的概率模型,我们可以定量地衡量一个帖子在用户分享行为中所反映的新颖性或可能的影响。以往的社交网络中基于Link的异常检测和主题跟踪等方法存在一定的缺陷。本文提出的模型通过考虑新闻的分享性来避免这一问题,并分析了分享的帖子中是否包含文字、图片等主题内容。

2相关工作

在[1]中,作者只使用了用户的提及行为。在此基础上,采用序列变点检测和突发检测方法对新出现的问题进行了识别。该技术可以检测聚集异常得分时间序列中统计依赖结构的变化,并精确定位主题出现的位置。基于链路的异常检测的缺点是异常检测的质量低于其他系统,这种方法不能很好地处理实时应用中的社交流。该系统的准确率较低。该系统的时间复杂度最高,精度较低。在[2]中,基于关键字的主题检测使用了[2]用户主题检测和跟踪(TDT)中的基于关键字的分析,这种方法可能会由于考虑用于分析的文本而导致混淆。文本可能用不同的语言编写,单词的含义可能因用户的角度而异。缺点是在线检测还不能可靠地进行。需要做大量的工作来将错误减少到可管理的数量。
该模型通过分析消息的内容(可能是文本、图像或视频)并计算从分享帖子时产生的分数序列中找到的异常值分数来工作。来自社交网络的数据集是通过社交网络API获得的,例如Facebook的Facebook API。使用在社交网络中生成的个人唯一ID,在一段时间内检索涉及共享帖子的用户的名称和帖子的内容。计算出异常值,并考虑所有分享帖子的用户的总和。在此基础上进行了变点检测和突发检测。消息的内容将使用语义信息进行分析,没有任何延迟,热点主题将最终确定。

四、实现

系统设计包括系统架构图和系统模块。
A.系统设计
社交网络的数据集是通过API获得的
·分析用户的正常共享模式
•话题分享的预测是使用变化点检测来完成的
分析共享消息的内容
B.系统模块
该模型通过分析哪些帖子被许多人转发给他们的许多朋友来工作。如果一个特定的帖子得到异常分数(作为异常值),那么它的内容将使用WordNet工具进行分析,对于文本消息和带有图像和视频的消息,未来的工作可以通过提取图像特征来完成,例如颜色,纹理等,对于视频也可以这样做,并且可以分析消息的内容。所提出的模型包含以下模块。
1.培训阶段
2.变更点检测
3.分析帖子内容。
1.培训阶段
该模型的第一步是训练阶段。在训练阶段,考虑用户过去的行为,使用社交网络API从社交网络数据集中提取与朋友分享的帖子,分析用户的转发行为。这里,文章中提到的用户k的数量和id(文章中提到的用户的名字)作为集合v。这里,文章中提到的用户数量在内部受到几何分布的限制。利用k和V,我们计算联合概率分布,预测转发列表中提到的每个用户的概率。
图像(1)
2.序列折现归一化最大似然-变点检测
采用序列贴现归一化最大似然编码方法[5]从所有帖子的异常得分序列中寻找变化点,该过程经过两层处理。在第一层中,从特定时间段(2)计算的聚合异常得分集合中,利用密度函数检测异常值;在第二层中,再次利用第一层中检测到的异常值检测变化点。
让xj - 1= {x1,…,xj-1} be the aggregated anomaly score from time period 1 to j-1. The outlier is detected using the density function,
图像(2)
最后利用动态阈值优化算法,将计算得到的变化点(5)转换为二进制告警。它是通过长期动态调整阈值来提高的。
对于离散时间序列x= {xt | t = 0,1,....中的一个变量x= x(t)
图像(3)
这里n是窗口大小。它的t1和t2移动平均线之差:
移动平均线(t1, t2) =均线(t1) -均线(t2) (4)
直方图给出了移动平均线之间的差值,这个差值给出了离群值得分的爆发。
3.分析帖子内容
通过以上两种方法识别出聚合分值的变化点后,可以确定该帖子为动态的、承载热点话题的帖子,但由于异常分值仅根据转发时产生的链接计算,因此需要分析该帖子的内容。目前暂不考虑帖子内容,以确定动态主题。为了确定动态主题,我们还需要分析帖子的内容。如果帖子的内容是文本消息,那么可以使用WordNet工具[6]进行分析。WordNet是一个英语词汇数据库,其中有名词、动词、形容词被分组为同义词集,称为同义词集。根据词汇和概念的关系,这些词以同义词的形式连接起来。所有的同义词集通过语义关系连接到其他的同义词集。使用WordNet可以确定单词之间的相似性,这可以通过使用测量单词之间距离的算法来完成,并通过计算同义词集之间的边数来形成WordNet图结构。通过对帖子内容的分析,可以识别出哪些帖子承载了动态话题。

诉的结论

所提出的工作是通过考虑在当前帖子之前讨论的过去帖子,并预测用户未来的行为,来检测社交网络中讨论的动态主题。利用训练集计算当前岗位和岗位内用户的异常得分,并计算出汇总的异常得分。利用变化点检测和突发检测,检测帖子转发行为中的变化点,并分析消息的内容,检查所有被分析的变化点中是否讨论了相同的主题。动态话题定稿,期望在传统媒体发现热点话题之前发现热点话题。

参考文献




全球科技峰会