小说的PageRank算法及其应用

好像王
孟学生,ECE称,伊萨卡康奈尔大学,纽约,美国

文摘

确定的影响的学术研究在学术界是一个重要的工作。在本文中,作者和引文网络的建立是用来确定研究的影响,分别研究论文的网络,和进一步应用进行了讨论。首先,基于Erdos1合著网络构建。htm的影响来确定鄂尔多斯的合作者。其次,基于引文数据库中的论文中,引用网络形成。第三,和基本实现方法进行了讨论。最后,优点和缺点进行了分析。

关键字

网页级别;文本分析;网络爬虫;阻尼因子;学术影响

介绍

在学术研究中,可以通过从一个研究员的影响力和影响他或她的研究论文。此外,引文和作者是重要的决定性因素。研究员的影响和影响的测量是重要的研究者自己和学术界。它可以发现存在许多测量的学术影响。学术期刊的影响因子(IF)是一个测量反映的平均数量引用最近的文章发表在杂志上,由尤金·加菲尔德,科学信息研究所的创始人在1975年[1]。此外,还有一些其他的测量,如科学引文索引(那么)[2],H-factor[3],等。此外,引文和作者数据可以构造一个巨大的网络的时候。现在由于网络科学是一个热门话题,这确实是非常有用的在许多领域,方便检测和结构的相互作用,因此,引用或合著网络可以建立更好的测量。与数据池和规模的发展,基于机器学习的算法和工具被用在许多研究领域如生物信息[4],图像处理[5],特征选择分析[6]。

一位天才的数学家,保罗鄂尔多斯,有超过500的合作者和over1400技术研究论文发表。因此,惊人的Erdoscan大型合著网络数据集是一个很好的学习。根据网页的链接结构的相似性和thecitation学术出版物,从著名的PageRank算法启发[7]提出了解决这一问题。因为我们需要找出一些合适的模型andsolutions,下面的部分是考虑:(1)建立Erdos1作者的合著者网络和分析网络的性能。(2)开发出一种测量来确定合著者的影响。然后找出网络中的研究人员有重大影响。(3)构建引文网络作为研究论文测量的影响。(4)分析方法我们使用的应用程序,并将其应用到一个完全不同的领域上。(5)讨论该方法从理解到效用。

相关工作和我们的算法

我们建议的模型是基于以下假设:(1)Erdos1中的数据。htm完成可靠。(2)来确定一个合作者的影响力和影响,我们只考虑基于给定的区域数据,尽管合著者可能有其它领域的研究人员。(3)Erdos1共同创作。htm可以显示全部的努力在这个领域的合作者。

现今,我们在互联网的时代,我们可能每天访问数以百计的web页面,页面之间的连接从一个极其巨大的网络。我们意外发现的网络链接结构更像是学术出版物的引用,引用和链接本质上是相似的。然而,仍然有一些显著的差异。例如,学术论文小心翼翼地检查和有类似的质量和数量的引用,而网页非常不均匀。幸运的是,在1999年,一个名叫PageRank的算法提出了评级网页[8]。在本文中,我们应用PageRank对合作者的影响排名。网页的网络是导演,但合作是无向。实现该算法,我们定义边缘的合著者是双向的。

答:PageRank算法

PageRank的最初目的是测量的相对重要性网页和排名。后,谷歌搜索引擎结果,所使用的算法很有名。算法的应用和修改立即成为热门话题。在下面,我们进行数学描述的PageRank。

俗话说的好,一个人知道他让公司。转移的知识网站,更多的优质网页一个网页,高质量的大概率这个页面。PageRank的核心理念是简单而有效的。基于这个想法,可以提出一个直观的公式:

(1)

在R (x)表明x ' s PageRank和B (x)是x指向的页面设置。公式(1)的想法是,一个页面的重要性的总和等于网指向它的重要性。但是存在一个缺点:无论有多少链接J,一旦J指向我,我将得到同样的重要性时J . J有多个超链接,这个想法会导致高度的条件。例如,一个新网站N只有两个超链接指向它。一个是著名的和历史的F,而另一方来自一个不知名的网站。根据公式(1),结论可能淹死,N变得更为重要。这显然是单方面的。然而,我们可以优化公式。当J有多个超链接(假设N),每个链接的重要性得到R (J) / N。因此,公式(1)进行了优化:

(2)

N (j)是链接的数量从j。图1从劳伦斯页面引用的论文[8]从一对证明秩的传播到另一个页面。从图1中,我们可以获得的信息,如果我们想要得到的结论是,N比F,我们必须要求N能够得到许多重要网站的超链接或大量未知网站的超链接,可以接受。因此,我们考虑到公式(2)表达PageRank算法的核心思想。获得标准化的结果,常系数C添加到公式(2)。然后我们进行公式(3):

(3)

最后,我们用一个生动的卡通引用从维基百科来说明网页排名算法的基本原理如图2所示。每个脸的大小成正比的总大小其他面临指向它。

提出的新算法

为了找出谁有重大影响在合作者网络,网络应该建立。因此,应该进行数据提取得到的结构网络以下部分所示。此外,我们认为511年合著者节点和边缘的合著者。然后,PageRank是应用于处理问题。

责任数据提取

自从Erdos1文件中有很多无用的信息,我们首先清理数据。合著者和他们的链接应该提取。作为网页级别的质量,我们只考虑直接连接。也就是说,如果两个合作者直接共同创作,它们之间有联系。尽管他们可能间接连接通过一个人,我们不考虑这种情况。幸运的是,数据Erdos1给出规范的方式,促进我们的工作。我们可以很容易地找到合作者经过多年的字符串匹配。然后我们还在用字符串匹配找到合作者之间的连接。最后,我们得到511合著者和3278个链接。然后我们使用Pajek画网络的结构。

在图3中,有一些在外围孤立节点。这意味着他们没有合作与其他合作者。显然,这些人并不影响。但巨大的内部节点紧张复杂的连接。此外,511个节点相比,体积小的孤立节点。这样,几个链接的节点也可以有机会通过网络有影响。

B.2影响测量

确定合著网络后,测量的影响和影响可能是问题的关键。已经有大量的学术影响力,提出了许多指标来衡量,如科学引文索引(SCI)、H-factor, g因子,一个因素,而数据在这个问题上是独一无二的。我们只有合作者的合作信息。上面这些测量不能适应问题。因此,从web页面的结构网络的启发,我们介绍网页排名的衡量,因为该算法基于PageRank值能给一个等级。此外,PageRank是拿出利用网站的链接结构产生一个全球“重要性”每个页面的排名。链接结构和合作结构在很大程度上是相同的。因此,这个问题PageRank的应用是合适的。接下来,我们应用该算法和模型检测的合作者在网络有重要影响。结果如下表所示:

B.3敏感性和稳定性分析

为了测试灵敏度和稳定性,我们选择一个合作者,BOLLOBAS,贝拉,从网络的网页排名高的价值。BOLLOBAS的影响,比高,我们可以测试的研究人员是否配合BOLLOBAS,贝拉只有一次可以把整个网络。合作者的BOLLOBAS,贝拉,张Ke分钟^ 1 4倍与网络中其他成员合作,这是一个合适的条件测试。假设,可分有一个合作Erd操作系统的介绍。因此,张,可敏被添加到网络。短的观点改变网络的结果列在表2。

详细描述了,张的秩,柯最小值是249,这是在中间。但是结果没有太大的改变。节点的波动率约为0.2%。大多数节点的等级不改变或改变一个。但张成员配合改变很多的网页排名的波动率率约为6.5%。基于最初的排名,浮动依次是1、2、3、8 - 26所示。节点中后者是一个更大的影响。

研究论文的重要性

共同创作的分析是一种方法来衡量一个科学家的影响力。但是anotherimportant方面发表研究论文。在学术领域,大多数研究人员更关心他们的论文的引文的原因,它可能揭示一篇研究论文的真正价值。因为引用来自共同创作的所有学术领域,而只是在一个小区域,我们将我们的注意力从共同创作的研究论文。

引文网络

在本节中,我们提出了基于学术研究论文的引文网络模型。网络中,我们定义文件节点和边缘的引用。根据论文之间的引用关系,形成网络。与前面的合著者的网络,我们仍然试图应用网页排名算法。

但正如之前所讨论的,网页之间有显著差异和学术出版物。的主要障碍是不同的结构。圆形不会出现在论文的引文。也就是说,两篇论文的条件相互引用不能出现。如果一个引用B, B必须晚于出版。但在网页,退出交叉引用。合著者网络也有交叉连接。这种现象会导致大问题。在某种程度上,引文网络是一个前馈网络。对网页排名没有任何好处的结构。在这个视图中,经典的PageRank算法获得的结果往往是很久以前发表的论文。 This is obviously unfair the papers that are published later but have potential academic influence. In order to eliminate the phenomenon, the model or the algorithm must be improved to fit this problem.

答:我们建议的方法

模型和算法改进以适应模型。至于我们的算法的核心思想,我们提出一个示意图,说明了算法的初步理解。

我们仍然选择NetSciFoundation的论文。pdf格式的设置基本文件。这些文件的节点是我们照顾。我们也给这些基本节点的等级。我们的工作是介绍一些其他论文引用的基本节点。这些论文被视为网络中的节点,但计算是不同的。此外,改进为目的的生成基础节点之间的交叉连接。在图5所示的结构。图所示,虽然基本节点的连接是有限的,有引用网络中节点连接几个基本节点,这可能是桥梁的基本节点。结构是显而易见的,我们讨论引用节点的函数和方法我们使用改进模型。为了更好的理解,我们把数据的详细说明。 Firstly, we take a foundational node Ri as an example. The Partial view of i R is given in Figure 6, followed with symbol definition table.

然后我们提出的方法在我们的工作和得到的迭代公式如下:

(4)

(5)

(6)

从上面的公式,如果显示其他基础的间接连接节点通过公共引用节点。在公式4中,如果正比于Ci和ki成反比。这反映了一个事实,如果一篇论文引用的另一篇论文所引用的大量作品,高有可能这篇文章更有影响力。此外,由于Ci跨度从100年到21000年,这太大,我们添加“Ln”来缩小范围。为了克服为由滥用的现象,我们懂的PageRank介绍ki分母。在我们的工作中,我们发现,如果我们使用原来的网页排名,我们可能会坏涩味。灵感来自阻尼因子的概念很大的纸|解剖学——规模Hypertextual Web搜索引擎计算机网络和ISDN系统[9],我们改革公式(2)的公式。

此外,最初的想法是解决这个问题的隔离网页,不引用任何其他页面。在我们的工作中,也存在孤立节点。是快乐的发现引入阻尼因子都工作良好的孤立节点和收敛性手术后与改进的方法。该算法收敛快。图9显示了函数显然:

b .数据收集

从古典基础报纸网站,引用可能是一个巨大的数字。可能是努力工作来收集成千上万的引文信息在一个简单的方法。首先,网络爬虫来我们的心胸。但是,后来,我们发现谷歌似乎不友好网络爬虫。因此,考虑到所有的因素后,半自动爬虫一样的程序,需要人工干预,。我们终于得到3525的原始数据。把重复的论文后,我们得到822篇论文(包括基本文件和引用文件)。也就是说,在822年网络总节点。首先,我们列出15个基本文件和被引用。根据收集到的数据,我们设计网络如下图:

c .结果和分析

改进的PageRank值的影响如表4中列出的论文。此外,第一篇论文RankPage的最大价值。也就是说,它有最大的影响。来验证我们的结论,我们发现第一篇论文是“集体动态小世界网络”已被引用21688次。然后我们在维基百科上搜索“复杂网络”,我们得到消息,两个知名和研究类复杂网络的无标度网络和小世界网络[10]。1998年,该报“集体动力学的“小世界”网络”发表在《科学的邓肯·J。瓦和Steven strogat是小世界网络模型的建立。这个信息验证论文的很大的影响。从上面的工作中,我们可以看到PageRank算法确实具有良好的质量和泛化能力。测试方法的应用程序的能力,我们实现我们的方法在美国航空公司在接下来的部分。

结论和讨论

答:进一步应用

从上面的描述,我们的方法具有很好的泛化能力了。因为我们的方法是操作的链接网络,如果在现实世界的关系可以构建一个网络,我们的方法可以选择,找出所有节点的重要性或影响排名。如果网络中所有节点的影响程度,该实用程序是不同的。例如,也在学术领域,我们可以试着接近最好的研究人员,配合快速增加的学术影响。或者我们可以选择一个著名的学校或导师,在我们的研究中我们可以做得更好。同样,我们也将有更多的机会挣两钱和良好的名声,如果我们选择合适的商业伙伴。此外,在其他领域,他们可以改变的分布节点的重要性仅仅通过改变网络中的链接。最后,我们进行测试来证明我们的模型和算法的效用。

b .最终结论

确定的影响在学院学术研究是一项重要的工作。构建合著者或引文网络是一个好方法测量。在本文中,我们分别建立合作者网络和引文网络。我们的算法是基于著名的PageRank。根据引文网络的独特条件,我们的改进模型和算法,以适应独特的问题。相比之下,美国机场的客运能力等级从维基百科,实现显示了出色的结果。以上揭示了高质量的精度和泛化能力。效用是显而易见的,我们希望我们的方法可以应用在实践中帮助做出明智的决定。在未来,我们希望使用一些数学工具如不等式[11]来优化我们的方法更好的结果。