在线刊号(2320-9801)印刷刊号(2320-9798)
g . Thiyagarajan1, S.A.K. Jainulabudeen2
|
有关文章载于Pubmed,谷歌学者 |
更多相关文章请访问国际计算机与通信工程创新研究杂志
近年来,社交网络挖掘以itâ为例获得了极大的关注,itâ是一个互动平台,通过该平台,个人社区可以创建和显示用户生成的内容以及通过万维网连接人们的社会关系。社交媒体成为最强大的信息交换工具,不仅消费信息,还分享和讨论他们感兴趣的方面的信息。信息检索和文本挖掘在最近获得了更大的势头。因此,有必要对社交媒体进行挖掘,在识别用户感兴趣的模式的基础上生成有用的知识。社交媒体的优点是可以自由地用文字表达自己的想法,而不需要遵循传统语言grammarâ这最终成为挖掘社交媒体的挑战。此外,信息量太大,太动态了。这项拟议工作的目标是挖掘社交媒体,在我们的例子中是twitter。所涉及的挑战是理解用户行为和生成有关tweetâ语言的语法规则,我们还需要放置所使用的语法的接近性。我们的工作贡献提供了可视化的信息检索工具。应用该算法可以对用户行为(Tweeters)进行研究,对推文上下文进行事实分析,并识别有效的推文用户。
关键字 |
文本挖掘,主题模型,潜狄利克雷分配。 |
介绍 |
在当前的场景下,文本在新兴的网络应用中扮演着至关重要的角色,如微博、在线广告等,广告中的搜索技术只包括很少的关键词或句子。像Twitter一样的微博客服务限制了用户的信息长度,限制在140个字符以内。摘要短文本挖掘技术对于应用领域非常重要。在过去,人们已经提出了一些从博客或其他新闻中的大文本中挖掘信息的技术,当我们将这些技术应用于短文本时会导致较差的结果。短句来源在比较长文本和短文本时,由于其表现形式的高度稀疏,短句存在两个主要困难:关键词不充分,内容信息填充不充分。 |
Twitter streams、谷歌Buzz、Facebook新闻源等在线社交流已经成为重要的在线信息。成千上万的用户正在阅读状态,与他们的朋友聊天,分享信息和从事有用的技巧。然而,社交媒体上的一些对话读起来并不有趣。为了避免这种情况的发生,我们会删除对话无聊的用户,并有选择地向用户展示好的tweets模式。Twitter使用过滤用户之间的通信(简单的规则)。迄今为止,人们对社会流的兴趣模式和流行度进行了大量的研究。 |
我们的研究有四个高水平的研究问题: |
RQ1:推特用户在他们的对话中可能更喜欢什么?会有所不同吗?他们的偏好是否与其他词汇相关,并与他们的使用目的共同出现,即,他们是否将推特用户用作信息媒体还是社交媒体? |
RQ2:不同的算法在选择twitter用户行为的兴趣模式/对话时效果如何? |
RQ3:Twitter的使用目的和话题偏好会影响算法性能吗? |
RQ4:是否确保潜在话题和推特用户的行为符合他们的模式? |
为了回答这些问题,我们探索了在Twitter上提供潜在有趣模式的系统设计,这里的模式也意味着对话。由于Twitter的受欢迎程度超过了许多其他社交流平台。特别是在Facebook上,因为Twitterâ ' Â的开放api将在数据收集方面为我们提供更大的灵活性,此外,在部署这些算法的同时,还可以设计模式和选择算法。 |
推特用户对不同算法生成的图案的兴趣度进行打分。该研究允许通过比较算法在不同的推特上发展性能。本文的其余部分如下。首先,讨论现有研究如何与我们的工作相关联。然后提供Twitter的概述和Tweeters模式的复杂性。然后进行了预处理技术,接着描述了系统的设计,然后详细介绍了我们的研究和结果。稍后的结论是通过讨论我们的发现和设计意义。 |
2相关工作 |
近年来,社交流吸引了研究界在社交网络挖掘方面的大量研究。出于多种目的,社会流已在研究中得到证实。很少有论文涉及社会流。Java et al[2]专注于使用Twitter中的日常聊天对话作为Tweeters,共享信息和报告事件(新闻)。Naaman等[3]手动编码twitter消息,并为信息和社交目的建议twitter帖子的用户。在企业社交流网站Yammer中,Zhang等[4]对网站的目的进行了分析,结果发现网站给出了不同的偏好。这也导致了yammer上的大部分活动和相关内容的困难。在一些著作中分析了社交流的会话方面,Boyd等[5]讨论了Twitter中转发的会话使用,它在实际的Twitter对话中还原了不同的多样性。Honeycutt et al[6]调查了Twitter上的对话,探索并推荐对话作为解决这一挑战的重要任务。在最近的作品中,他们讨论了利用主题作为关键因素来处理社会流中的过载信息的问题。 Ramage et al [7] applied LDA (Latent Dirichlet Allocation) to find messages for reading and characterize topics in Twitter. Bernstein et al [8] utilizes topic-based browsing interface of Twitter using search engines. These works gives prior research on Topic modeling and information retrieval, this also includes salton et al [9] and Blei et al [10]. In user preferences, the potential diversity have indicated filtering and recommendation in social streams. Chen et al[11] incorporated news URLs in Twitter by social voting, topic relevance and suggests that single recommender may not satisfy usersâ needs that differs. The solution may be indicated as personalization. The exploration in interesting conversations recommends the existing body of research in following aspects: |
1)之前的研究不太关注预处理因素,本文包括了推文的拼写校正。 |
2)由于先前的研究工作侧重于单一信息,拟议的工作侧重于多条信息的连贯线索中的对话。 |
3)之前的工作侧重于社交流中的信息收集和新闻发现,而拟议的工作则侧重于对话中的推特模式,并面临使用目的和偏好的多样性。本文探讨了影响推特用户行为路径的一些因素。主题相关性,线程长度,链接强度,潜在因素,抽样推文的推理规则。 |
3系统概述 |
该体系结构展示了分析推文的方法,通过事实分类器对推文进行分类,并与隐藏的主题聚类,它还提供了理解和推文的行为,并通过检查其他推文通信技术进一步涉及推文的分类。 |
Twitter知识库包含数据集,数据集来自斯坦福大学,也通过Twitter API传输。数据集基本上包含了未直接应用于挖掘的原始信息,因此数据集必须根据数据结构进行清理。预处理任务包含了识别潜在模式的技术。通过该概念所提供的趣味性,并应用于现有数据。Tweeter的模式已经被模仿了。(受所选散列标签限制)。通过输入数据并填充数据提取器和分类器。通过简单的分类,在事实引擎上进行了识别。 |
如图1所示,通过事实引擎itâ '  ' s对处理的事实进行了分类,其中包括了对跟踪收获的推文中的模式流的重要性。作为模型,它感兴趣的是寻找模式流(在本例中为(转发流)),所需的模型涉及一个构造转发记录的方法。 |
预处理: |
基本上推特的评论都不是正式的英语结构。由于它包含用户评论,我们couldnâ ' Â不能直接应用算法/技术,就像我们在文本挖掘中应用的那样,原始推文必须根据我们喜欢应用的数据结构进行清理。这里我们做了情绪和标点符号的处理,不需要进行tweeterâÂ′Â′的性质分析,词干从词根中提取词根,停止词删除,对表达性单词进行拼写纠正。 |
B.情绪与标点符号处理: |
通过对预处理任务进行有效的预处理,可以准确地提取出相应的模式。我们使用的情绪列表一般是在tweetâ '  ' s和维基百科的情绪列表中评论的。手工标记成基本的五种情感标签。我们已经在tweetâ '  '的注释中替换了相应的标记符。例如,如果情绪是快乐的或非常快乐的,那么标记符将替换为“AhappyAâ ' ”,悲伤的或非常悲伤的标记符将替换为“AsadAâ '  '。我们在“AâÂ′”后面加上替换标签,并在“AâÂ′”前面加上替换标签,因为tweet不能和这样的替换标签混在一起进行预防。否则我们可以去掉这样的情感和标点符号,那就donâ ' Â不要用这样的tweeterâ ' Â的行为。如果可以对其进行情绪分析,我们可以对感叹、质疑、积极和消极等推文进行评分。 |
c .阻止: |
词干提取是指从词根中提取词根的过程,其最重要的特征是收集潜在的主题,是当今索引和搜索系统所支持的。词干背后的想法是,它必须通过自动处理特定的单词结尾来提高回忆,通过减少单词到词根,同时执行潜在的主题识别。我们使用了波特词干,只限制了7种形式的后缀去除,时态识别通过使用WordNet进行。 |
D.停止删除单词: |
从社交媒体twitter中提取出大量的文本信息,需要相当广泛的数据准备和深入的分析来提取有用的兴趣度模式。然而,它造成和导致了各种技术的假设,数据量大,数据质量低。为了提高数据的质量,许多作者提出了不同的技术/提取有效的停止词表的方法。停词起着重要的作用,对提高信息检索有很大的帮助。因此,在模型形成中增加了更多的模糊性,停止词donâ '  '并不携带任何有用的信息,因此不需要我们进行处理。我们创建了一个停止词列表,以实现在推文中删除,如he, she, a, the等,并在解析时忽略它们。在解析推文时,我们也会丢弃长度≤2的单词 |
E.拼写纠正: |
推文以随机的方式发布,没有重点纠正结构/格式和拼写。拼写纠错是填充内容行为分析的重要组成部分。推特用户会输入任意次数的特定字符来强调相应的推文。我们使用WordNet和拼写纠正算法形式(Bora, 2012)。在算法中,他们将一个单词替换为任何与两个单词共出现两次以上的字符(重复)。例如“loooovvveeeA¢被替换为8个字“lovvveeeA¢,“looooveeeA¢,“loveeeA¢,“looveeA¢,“loveA¢,等等。另一种形式的拼写错误发生在推特上,因为省略了拼写中的一些字符,比如“university”通常被写成“univ”。我们的系统目前不处理这类拼写错误。 |
四、应用lda方法获取微博用户行为的潜在话题 |
在本节中,我们简要地描述了LDA。因为研究社会挖掘和文本信息如何与tweeterâÂ′Â′s行为中的实体相关联,可以建模以进行深入研究。 |
A.主题模型: |
人类语言涉及隐藏的主题词主题建模处理假设单词使用中的潜在主题,当搜索者使用动物作为查询,如果作者在文档中使用单词哺乳动物,通过主题建模假设两者可能涉及相同的概念(主题)狮子。这使得主题模型可以从不可观察的单词中观察单词。将概率生成模型引入到主题模型中。式(1)表示其基于概率生成模型的文档生成过程:通过[14],确定P(d,w)的分布,进一步计算。 |
P(d,w) = P(d)P(w|d) = P(d) Σ P(w|z)P(z|d)。(1) |
P(d,w)是在文档d中观察到单词w的概率,可以分解为文档概率分布P(d)P(w|d)和文档中给定单词概率分布P(w|d)的乘积。这个等式最适合描述文档中的单词选择,首先选择一个文档,然后选择该文档中的单词。这个选择被迭代多次,这样我们就可以生成一个文档,最终生成一个完整的文档语料库。假设有一个潜在的主题z,我们可以用P(w|z)(给定主题的单词概率分布)和P(z|d)(给定文档中主题的概率分布)的乘法来重写上面的方程。这个方程通过在文档选择步骤和单词选择步骤之间添加选择步骤来描述一个额外的主题。由于一个词可能来自各种各样的潜在主题,我们总结了一组所有独立主题z的乘法术语。PLSI和其他概率主题模型使用概率P(w|z)和P(z|d)支持多个成员。 |
例如,如果P(w哺乳动物|zanimal) > P(wlion|zanimal),那么单词“哺乳动物”比单词“狮子”与主题动物的关系更密切,尽管它们都与主题动物有关。这样,我们可以通过概率P(w|z)来衡量单词w和主题z之间的关联强度。同样P(z|d)衡量的是主题z和文档d之间的关联强度。通过[14],我根据概率因子画出了L值。 |
式(2)表示PLSI的对数似然函数: |
L = log[P(d,w)n(d,w)] ..................... (2) |
其中D和W分别表示所有D和W的集合,n(D | W)表示文档中的术语频率(即W在D中出现的次数)。通过最大化对数似然函数L,我们可以最大化观察整个语料的概率,并据此估计最有可能满足式(1)的P(W |z)和P(z| D)。 |
五、潜狄利克雷分配 |
尽管PLSI具有良好的概率生成模型和统计推理方法,但它存在过拟合问题,不能很好地处理未观察到的单词。为了解决这一问题,Blei et al.[10]在PLSI中引入狄利克雷先验α和β,分别约束P(z|d)和P(w|z),其中α是维度为|z |的向量,即被检查的主题数量,α中的每个元素是P(z|d)中相应元素的先验。因此,αi越高,就意味着话题zi在语料库中出现的频率越高。类似地,β被称为维度为|W|的向量,即检查的字数,β中的每个元素是P(W| z)中相应元素的先验。因此,较高的βj意味着wj在语料库中出现的频率高于其他词。狄利克雷分布作为多项式分布的共轭先验,可以简化统计推理。在多项式分布P(z|d)和P(w|z)上加入狄利克雷先验α和β,使多项式分布平滑,避免了PLSI的过拟合问题。众所周知,PLSI是Dirichlet先验下LDA的一个具体实例[12,13]。 |
如图2所示,代表了tweeterâ '  ' s行为的简单可视化,它只是计算了个别tweeterâ '  ' s推文的时间轴。 |
六、实验及结果 |
我们从四个不同的角度来检验所提出的模型:内容生成的复杂性,预测转发的性能和生成的潜在主题的质量。 |
A.内容生成的困惑: |
数据集是基于时间轴流的,来自斯坦福大学。困惑度研究是指推特用户和推文的本质,即基于推特用户时间轴或兴趣的内容生成。 |
B.推文性质表现: |
推文的潜在行为和主题建模的目的是帮助推文用户从铺天盖地的信息流中找到感兴趣的信息。在Twitter的语境中,转发是Twitter用户最重要的兴趣信号,因为Twitter用户倾向于将他们最喜欢的推文发送给他们的关注者。此外,推文、转发的行为性质机制是判断主题模型性能的一个很好的标准。 |
C.预处理阶段表现: |
通过应用这些预处理方法来改进模式提取,因为推文是用户评论,简单的文本挖掘方法做的不够公平。因此,通过执行这样的预处理任务,可以获得更好的潜在主题。 |
D.潜在话题的质量: |
评价主题模型性能的方法是获取潜在主题的热门词,并通过经验对其进行评价。通过设计内容提取器进行实验,通过生成半监督模型和提出的模型对潜在主题进行比较。具体来说,通过将主题的数量设置为70个,然后将主题的数量设置为相当低,并为两个模型手动提取相同的显著主题。结果,内容提取器获得了11个潜在主题,其余的潜在主题要么是无意义的主题,要么是两个模型之间不相关的主题。 |
7结论及未来工作 |
在本文中,描述了一种通过推断其属性来表征单个twitter的方法。在现有的方法中,尝试用userâÂ′Â的推文或简介来推断推文用户的主题,所提出的方法通过利用推文用户的自由来推断,重点关注推文用户创建的元数据列表。在构建Twitter服务时,提出了一种“谁是谁”服务的推理方法,该服务可以自动全面地推断出一个包含热门用户在内的超过100万推特用户的精确集合。 |
本研究的主要贡献——准确推断与推特用户相关的主题的方法和服务,提供用户行为浴和模式识别的机制,通过为活跃的推特用户提供更好的可视化工具,在推特上建立搜索服务方面有许多潜在的应用。 |
参考文献 |
|