从社交网站推特矿业:知识

g . Thiyagarajan¹,S.A.K. Jainulabudeen²

系统工程师,印孚瑟斯有限,钦奈,印度
助理教授,CSE, Panimalar工程学院,印度钦奈

文摘

近年来,社会网络挖掘受到很大关注的ita年代交互式平台通过社区创建和显示用户生成内容和个人的社会关系联系人们通过万维网。社会媒体成为信息交换的最强大的工具不仅消耗信息分享和讨论他们感兴趣的方面的信息。信息检索和文本挖掘最近获得了更大的动力。因此有必要挖掘社交媒体和生成有用的知识从用户基于确定有趣的模式。社交媒体的好处是自由表达他们的思想的文本没有遵循传统语言grammara年代最终这成为挖掘社交媒体所面临的挑战。而且体积过于巨大的和动态的信息。这提出了工作的目标是我的社交媒体,在我们的案例中twitter。涉及的挑战是了解用户行为和生成语法规则与tweeta年代语言我们也需要近距离使用的语法。我们工作的贡献提供信息检索工具和可视化支持。通过应用该算法,可以对用户行为研究(高音),分析微博的背景下和识别有效的高音。

关键字

文本挖掘、主题模型、潜在狄利克雷分配。

介绍

在当前的场景中,文本起到至关重要的作用,微博等新兴应用程序在web广告在网络等,搜索技术在广告只包括几个关键字或句子。微博作为一个用户的Twitter限制消息的长度小于140个字符。矿业技术短文字是重要的应用领域。在过去的几个技术已经从大型文本提出了挖掘信息在博客或其他新闻,当我们应用这些技术在短的文本将会导致糟糕的结果。当比较短和长文本短了两个主要困难引起他们的高度稀疏表示:关键词不充分,内容信息密集的并不多。

在线社交流如Twitter信息流,Google Buzz, Facebook新闻源,已成为重要的在线信息。数千&数百万用户阅读状态,和他们的朋友聊天,分享信息和有用的技巧。然而,一些社会媒体的谈话并不有趣的阅读。为了避免这种情况,用户和无聊的谈话被选择性地显示良好的推特用户模式。Twitter使用过滤器对应用户(简单的规则)。至今为止许多研究进行了有趣的模式和流行在社会流。

我们的研究有四个高水平研究的问题:

RQ1:高音怎么可能更喜欢在他们的谈话吗?会不同吗?他们的偏好与其他使用单词和共生的目的,即。其他,无论是高音使用作为一种信息媒介社会媒介?

RQ2:功效如何对不同的算法在选择有趣的模式/对话高音行为?

RQ3:使用Twitter的目的和偏好的主题影响算法性能?

RQ4:做确保潜在的主题和推特上的行为模式?

为了回答这些问题,探讨了系统的设计,给潜在的有趣的模式在Twitter上,这也意味着对话模式。因为选择流行的Twitter和其他社交平台。特别是在Facebook因为TwitterA¢年代开放api将在数据采集为我们提供更大的灵活性,而且设计的模式和选择算法以及部署这些算法。

高音额定的有趣的模式将由不同的算法。这项研究允许通过比较算法的发展表现在不同的高音。其余的报告如下。首先,讨论现有研究如何与我们的工作。然后概述Twitter和错综复杂的高音模式。然后per-processing技术进行,其次是描述系统的设计,然后详细的研究和结果。后来我们的结论与讨论发现和设计意义。

二世。相关工作

近年来,社会流引起了研究社区在执行他们的社交网络挖掘中。为了许多目的,社会流ceeb证明了研究。社会流相关的一些文件。Java等[2]关注日常聊天对话的使用Twitter的高音,分享信息和报告事件(新闻)。乃缦等[3]手动编码的twitter信息,建议用户的twitter发布信息和社会目的。在企业社会流网站Yammer,张等[4],分析网站的目的,发现它给不同的偏好。这也导致很大一部分活动yammer &发现困难的相关内容。社会流的会话方面分析了几个工作,博伊德等[5]中讨论会话使用转发Twitter,它的判决不同品种在实际Twitter对话。Honeycutt等[6]调查在Twitter上的对话,探讨并推荐的对话作为一个重要的任务在应对这一挑战。在最近的作品中,他们讨论了解决信息过载问题的社会流利用主题作为一个关键因素。 Ramage et al [7] applied LDA (Latent Dirichlet Allocation) to find messages for reading and characterize topics in Twitter. Bernstein et al [8] utilizes topic-based browsing interface of Twitter using search engines. These works gives prior research on Topic modeling and information retrieval, this also includes salton et al [9] and Blei et al [10]. In user preferences, the potential diversity have indicated filtering and recommendation in social streams. Chen et al[11] incorporated news URLs in Twitter by social voting, topic relevance and suggests that single recommender may not satisfy usersÃ¢ÂÂ needs that differs. The solution may be indicated as personalization. The exploration in interesting conversations recommends the existing body of research in following aspects:

1),而以前的研究不太专注于预处理因素,这里包括拼写校正的tweet。

2)作为先前的研究工作着重于单一消息,拟议的工作重点是在一个连贯的线程的多个消息对话。

3)虽然以前是关注社会流信息采集和新闻发现而提出的工作重点是高音模式对话和面对多样性的使用目的和偏好。在这工作,一些因素探讨了高音的行为路径。主题相关性,螺纹长度、tie-strength潜伏因素,推理规则采样tweet。

三世。系统概述

的体系结构显示了微博的分析方法,分类的推特的推特,集群隐藏主题通过事实分类器,它还提供理解和推特的行为和推特的分类可以进一步通过检查twitter的其他技术沟通。

库的tweet包含的数据集,这是来自斯坦福大学也通过Twitter API流。基本数据集包含了原始信息没有直接申请开采,因此,基于数据结构数据集必须净化。预处理任务包含的技术确定了潜在的模式。通过这一概念所提供的有趣的可用数据和应用。推特的模式建模。(限制选择的散列标签)。通过喂养数据并填充数据提取器和分类器。通过简单的分类,识别了的引擎。

如图1,通过引擎,itA¢年代被分类处理的事实,包括重要的跟踪模式流在收获tweet。模型,感兴趣的流动模式(在这种情况下,(转发流在这种情况下),所需的模型包括一个方法来构造一个转发的记录。

预处理:

基本上Twitter在形式的评论是不正式的英语结构。时,因为它包含用户评论,我们不是¢t能够应用该算法/技术直接应用在文本挖掘,原始微博必须清理的基础上,我们想应用数据结构。这里我们有做情感和标点符号处理,没有必要进行或分析tweeterA¢年代自然,阻止一个根词从一个基地,去除停止词,拼写校正富有表现力的词语。

b .情绪和标点符号处理:

严格的模式通过预处理任务效果多好。我们使用的情绪通常是评论列表tweetA¢年代也从维基百科的情绪。手五情感标签标记为基础。我们已经取代了相应的薄铁片tweetA¢年代评论。例如,如果情绪很高兴或非常开心那薄铁片将取代„AhappyAA¢和悲伤或非常伤心„AsadAA¢。我们附加„AA¢和预谋„AA¢与更换标签,因为微博不能与这样的混合标签替代预防的目的。其他我们可以删除这样的情感和标点符号,它多纳¢t使用这种tweeterA¢s行为。如果可以进行情感分析,我们可以可以得分感叹这样的微博,问题,积极的和消极的。

c .阻止:

带来的是一个过程/派生一个根词基本词的一种形式,其最重要的功能收集潜在的主题,现在支持索引和搜索系统。背后的想法阻止,它必须通过自动化提高召回处理特定的词结束通过减少单词根”这个词,当时执行潜在主题识别。我们使用波特抽梗机,将限制只有7形式的后缀删除,紧张由使用WordNet识别。

d .停止词删除:

大量的文本信息从社交媒体twitter和它需要很广泛的数据准备和深入分析来提取有用有趣的模式。然而,它已经和首领的假设各种技术以及数据量大,数据质量要低。提高数据质量,许多作者提出不同的技术/提取有效的停止词列表的方法。停止词起着重要的作用,提高检索的信息。因此在模型中添加更多的歧义的形成和停止词小姐¢t携带任何有用的信息,因此没有使用我们的处理。我们已经创建了一个列表的停止词实现删除微博如他,她,,等,和忽视它们而解析。我们也丢弃的单词长度≤2微博在解析

e .拼写更正:

推都推在一个随机的方式,并没有集中到正确的结构/格式和拼写。拼写校正是密集的行为分析中最重要的一部分内容。高音类型特定字符的任意多次强调这些相应的推文。我们使用WordNet和拼写校正算法形式(博拉,2012)。算法的一个单词替换任何同现字符(repeation)与两个词的两倍多。例如这个词„loooovvveeeA¢被替换为8字„lovvveeeA¢,„looooveeeA¢,„loveeeA¢,„looveeA¢,„loveA¢,等等。另一种形式的拼写错误发生而微博是因为跳过一些拼写的人物如“大学”通常是写成“大学”。这种类型的拼写错误不是由我们的系统。

四。应用LDA高音的行为来获得潜在的主题

在本节中,我们简要地描述了LDA。因为研究社会矿业和文本信息与实体tweeterA¢年代行为可以被建模为洞察力。

答:主题模型:

人类语言隐藏主题词汇主题建模处理假设潜在的主题使用的单词,当搜索者使用动物作为一个查询,如果作者在文档中使用哺乳动物这个词,假设都可能涉及相同的概念(主题)狮子主题建模。这为主题模型观察单词从难以察觉的单词。概率生成模型,模型由PLSI引入话题。方程(1)代表其文档生成过程基于概率生成模型:[14],它识别P (d, w)的分布计算。

P (d, w) = P (d) (w | d) = P (d)ΣP (w | z) P (z | d)。(1)

P (d, w)的概率是观察一个词在文档中w d和可以分解为P (d)的乘法(w | d)文档的概率分布和P (w | d),单词在一个文档的概率分布。这个方程是最好的形容为一个词在文档中选择,我们选择一个文档第一然后一个单词在文档。这个选择是多次迭代,这样我们可以生成一个文档,最终整个文档语料库。通过假设存在一个潜在的主题z,我们可以把上面的方程的乘法P (w | z),词的概率分布给出一个主题,和P (z | d),在给定文档主题的概率分布。这个方程描述了通过添加一个额外的话题选择步骤文档之间的选择步骤和这个词选择的步骤。有各种各样的多个潜在的主题,一个词可能来自,我们总结术语对于乘法在一组的所有独立主题z PLSI和其他概率主题模型支持多个会员使用概率P (w | z)和P (z | d)。

例如,如果P (wmammal | zanimal) > P (wlion | zanimal),哺乳动物这个词的主题密切相关的动物比狮子这个词,虽然他们都是有关动物的话题。通过这种方式,我们可以测量的强度关联一个字w和z的一个主题概率P (w | z)。同样P (z | d)措施的强度关联文档主题z和d。[14],我画的L值基于概率的因素。

方程(2)代表了对数似PLSI的函数:

L =日志[P (d, w) n (d, w)]…………………(2)

在D和W表示一组所有D和W分别和n (D | W)表示这个词在文档中(即频率。,the number of times w occurred in d). By maximizing the log-likelihood function L, we can maximize the probability to observe the entire corpus and accordingly estimate the P(w|z) and P(z|d) that most likely satisfy Equation (1).

诉潜在狄利克雷分配

尽管PLSI配备健全的概率生成模型和统计推断方法,它遭受过拟合问题,不能够很好地应对未被注意的单词。为了解决这个问题,Blei et al。[10]引入狄利克雷先验α和βPLSI,约束P (z | d)和P (w | z),分别在α是一个向量的维度z | |,主题研究的数量,每个元素在α是一个相应的元素之前P (z | d)。因此,更高的αi意味着主题子语料库似乎比其他主题更频繁。同样,β称为向量维度W | |,检查单词的数量,每个元素在β是一个之前的对应元素P (W | z)。因此,更高的βj这个词意味着wj比句话说语料库的出现更频繁。的共轭表示之前的多项分布,可以简化统计推断的狄利克雷分布。狄利克雷先验α和β可以放置在多项分布P (z | d)和P (w | z),这些多项式分布平滑的α和β,成为安全PLSI的过拟合问题。它也知道PLSI狄利克雷先验下出现的特定实例LDA (12、13)。

如图2,代表了一种简单的可视化tweeterA¢s行为,它只是计算个人的时间表tweeterA¢年代tweet。

六。实验与结果

从四个不同角度分析该模型:内容生成的困惑,预测转发和生成的质量性能的潜在主题。

答:内容生成的困惑:

数据集是基于时间轴流,已经从斯坦福大学。研究困惑意味着推特和微博上举行的本质内容生成将基于时间轴或推特的兴趣。

b的性能自然微博:

潜在的行为推和主题建模的目的是帮助高音找到有趣的压倒性的信息来源。在Twitter,转发高音的兴趣是最重要的信号,如Twitter用户很容易把他们最喜欢的微博粉丝。此外,高音的机制的行为性质,转发是一个很好的标准来判断一个主题模型的性能。

c预处理阶段的性能:

通过应用这些预处理方法提高模式提取,因为微博用户评论简单的文本挖掘方法不够公平。因此,通过执行这样的预处理任务,获得更好的结果获得潜在的主题。

d .的潜在主题:质量

主题模型的性能的评价方法是获取最热门词汇的潜在主题和评估他们的经验。通过设计器一个实验内容比较潜在的主题通过生成半supervides模型和提出的模型。具体地说,通过设置话题的数量是70以来,大量的主题相当低,手工提取相同模型的突出主题。获得的结果,11个潜在主题内容提取器,和其他潜在的主题是无意义的主题其他主题不相关的两个模型。

七世。结论和未来的工作

本文方法是描述,描述各个高音通过推断它们的属性。在现有方法试图推断出主题的高音userA¢年代tweet或者配置文件,该方法推断利用推特的自由,关注列表的元数据创建的高音。构建服务Twitter推理方法提出了谁是谁综合服务可以推断出一套准确的将超过一百万高音自动包括流行的用户。

本研究的主要贡献,方法和服务准确地推断出主题相关的高音,机制来提供用户行为浴和识别的模式,有许多潜在的应用建立在Twitter上搜索服务,通过提供更好的可视化工具,活跃的高音。

引用

X.-H。表象,L.-M。越南和美国Horiguchi。“学习分类短而稀疏的文本和网络隐藏主题从大规模数据集合”,ACM第17届国际会议进行万维网,WWW页。91 - 100年,2008年。
阿卡什Java, Xiadon歌,蒂姆•Finin美女曾,“为什么我们twitter:了解微博客使用和社区”,ACM联合第九WEBKDD和1日SNA-KDD车间,56 - 65,2007页。
乃缦,M。,Boase, J., and Lai, C, “Is it really about me? Message content in social awareness streams”, ACM Conference on Computer Supported Cooperative Work (CSCW), 2010.
6张,燕、简科迪和玉玲,“微博在企业的案例研究:使用,价值,和相关问题”,人为因素在ACM研讨会论文集计算系统(气),123 - 132年,2010页
Danah Boyd,斯科特高德,吉拉德·罗坍”的微博,微博,转发:会话方面在Twitter上转发。一个¢ACM学报》第43夏威夷国际会议系统科学(HICSS) pp.1-10, 2010年。
Honeycutt中标价和Susan c .鲱鱼”,除了微博:通过Twitter对话与合作”,学报ACM 42rd夏威夷国际会议系统科学(HICSS) pp.1-10, 2009年。
丹尼尔·拉梅奇苏珊•杜和丹利“与话题模型描述微博”,第四届国际诉讼AAAI(人工智能发展协会)会议上博客和社交媒体(ICWSM) pp.130 - 137, 2010。
迈克尔·s·伯恩斯坦Bongwon Suh Lichan香港,吉林Chen Sanjay Kairan Ed.H。气,“Eddi:互动主题浏览社会地位流”,第23届ACM学报》研讨会上的用户界面软件和技术(尤伊斯特)pp.303 - 312, 2010。
杰拉德•索尔顿海和克里斯托弗·巴克利,“Term-weighting方法在自动文本检索”,在信息处理和管理国际期刊,24卷,问题5,pp.513 - 523, 1988。
大卫·m·布莱安德鲁·y Ng,迈克尔。乔丹,“潜在狄利克雷分配”,《机器学习研究。卷3,问题1,第1022 - 993页,2003年。
吉林,罗文奈恩,Les纳尔逊,迈克尔•伯恩斯坦Ed Chi,“短和推特:实验推荐内容信息streamsA¢。SIGCHI会议程序在计算系统的人为因素,pp.1185 - 1194, 2010。
马克Girolami和Ata张国志,”在一个等效PLSI和LDA”之间,学报》第26届国际市立图书馆会议在信息检索的研究与开发,pp.433 - 434, 2003。
马修·d·霍夫人大卫·m·布莱和弗朗西斯·巴赫,潜在狄利克雷分配的“在线学习”,先进的神经信息处理系统(少量)23卷,第864 - 856页,2010年。
Youngchul Cha Junghoo秋,“社交网络分析使用主题模型”,在第35届ACM年度市立美国pp.565 - 574, 2012。
马克Guzdial和詹妮弗,“有效的通过电脑仲介锚定论坛讨论。”,《学习科学,9卷,问题4,第469 - 437页,2000年
埃里克·吉尔伯特和Karrie Karrahalios,“预测系力量与社会媒体”,《SIGCHI会议上人为因素在计算系统中,211 - 220年,2009页。