所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

对数线性模型字符串转换使用大型数据集

Mr.G。列宁,Ms.B。Vanitha和Mrs.C.K.Vijayalakshmi
助理教授,CSE, Podhigai工程与技术学院,韦斯,Tamilnadu、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

很多问题在自然语言处理,数据挖掘,信息检索,生物信息学可以合法化尝试转换。字符串转换的任务一旦输入字符串,系统生成k最有可能发生输出字符串的输入字符串。所以本文提出了一种新颖的字符串转换概率方法包括使用对数线性模型,模型的训练方法和一种算法生成k候选人使用一个字典方法帮助是准确的和有效的方法。对数线性模型可以表示为一个输出字符串的一个条件概率分布以及一个规则集的转换条件输入字符串。学习方法对参数估计采用最大似然估计。字符串的一代是基于修剪算法保证生成最优k候选人。该方法应用于纠正拼写错误的字符串或查询。

关键字

对数线性模型、参数估计、查询再形成,拼写纠错,字符串转换

介绍

字符串转换可以制定自然语言处理,发音,拼写纠错,音译词,词引发的。字符串转换可以被定义为给定一个输入字符串和一组操作符,可以能够将输入字符串转换成输出字符串的k最有可能通过应用大量的运营商。字符串可以是字符串的话说,字符,或任何类型的令牌。每个操作符是一个转换规则,定义了与另一个字符串替换的子字符串。字符串转换可以在两个不同的执行方式,取决于是否使用一个字典。在第一种方法中,字符串的字符。在第二个方法中,一个字符串组成的单词。前者需要字典的帮助而后者没有。拼写错误是两个步骤。1)非单词错误和2)真正的单词错误。 Non word errors are those words not in dictionary.. Spelling errors in queries can be corrected in two steps: (1) Candidate generation and (2) Candidate selection. Fig 1.shows the spelling error correction in word processing. Candidate generation is used to find the words with similar spelling, from the dictionary. In a case, a string of characters is input and the operators represent insertion, deletion, and substitution of characters with or without surrounding characters.
他们是利用小编辑距离误差。候选人代关注一个词;候选人生成上下文中的词之后,可以进一步利用最后的候选人选择,[1],[2]。查询再形成搜索旨在处理这个词不匹配的问题。例如,如果查询文档只包含“妇幼保健”和“MC医院”,然后查询和文档不匹配文档不会排名高。查询再形成试图改变“妇幼保健”“医学院医院”,从而使一个更好的查询和文档之间的匹配。在任务,查询单词(字符串),系统需要生成所有类似的查询从原始查询的单词(字符串)。运营商之间的转换词等查询“前女友”→“例子”和“携带”→“持有”[3]。以前的工作在字符串转换可以分为两组。一些任务主要考虑有效生成字符串,假设模型[4]。 Other work tried to learn the model with different approaches, such as a generative model [5], a logistic regression model [6], and a discriminative model [7]. There are three fundamental problems with string transformation: (1) how to define a model which can achieve both high accuracy and efficiency, (2) how to train the model accurately and efficiently from training instances, (3) how to efficiently generate the top k output strings given the input string, with or without using a dictionary.
在本文中,我们提出一个概率方法的任务。我们的方法是新颖和独特的在以下方面。它使用(1)字符串转换的对数线性模型(歧视),(2)学习的有效和准确的算法模型,和(3)一个有效的算法生成字符串。对数线性模型定义为一个条件概率分布的一个输出字符串和一个规则集转换给定一个输入字符串。学习方法是基于最大似然估计。因此,生成的模型训练向目标字符串输入字符串给出的最大可能性。代算法有效地执行前k候选人一代使用k修剪。找到最好的k候选人修剪保证没有列举所有的可能性。

相关工作

有几个文件处理的信息处理。但是我们工作和现有的工作之间的主要区别是,我们专注于增强字符串转换的精度和效率。德雷尔[7]也为字符串转换提出了对数线性模型,用特征代表了潜在的联盟之间的输入和输出字符串。Tejada[9]提出了一种主动学习的方法估计转换规则的权重与有限的用户输入。Arasu[8]提出了一种方法可以学习一组转换规则,解释大部分的例子。也有方法寻找顶部k候选人利用n g公羊[10],[11]。小王和翟[14]上下文置换开采模式,试图取代单词输入查询使用模式。布里尔和摩尔[5]建立了一个生成模型包括上下文替换规则。Toutanova和摩尔[12]进一步提高模型将发音因素加入模型。段和徐[13]也提出了一个使用噪声信道模型生成拼写校正方法。

学习字符串转换

字符串转换生成一个字符串在另一个字符串,如“TKDE”从“交易知识和数据工程”。研究已经进行自动从数据转换模型的学习。Arasu等。[8]提出了一种方法可以学习一组转换规则,解释大部分的例子。增加覆盖规则集的主要焦点。Tejada等。[9]提出一个活跃的学习方法可以估计转换规则的权重与有限的用户输入。的类型转换规则是预定义的,如阻止前缀,后缀和缩略词。冈崎等。[6]合并规则成L1-regularized logistic回归模型,并利用模型转换为字符串。德雷尔等。[7]也为字符串转换提出了对数线性模型,用特征代表了潜在的联盟之间的输入和输出字符串。有限状态传感器是用来产生候选人。效率不是他们的主要考虑因素,因为它是用于离线应用程序。 Our model is different from Dreyer et al.’s model in several points. Particularly our model is designed for both accurate and efficient string transformation, with transformation rules as features and non-positive values as feature weights.
冈崎et al的模型主要是提出了不同的模型,虽然都是歧视模型。他们的模型被定义为一个逻辑回归模型(分类模型)P (t j s), s和t分别表示输入字符串和输出字符串,和特性表示替换规则颗(年代;t) ={1规则rk否则会转换s t 0(1)他们的模型利用了所有的规则,可以转换到t和假定只有一个规则可以应用。

提出工作

字符串转换模型

我们的方法的概述图3所示。有两个过程,他们正在学习和生成。在学习过程中,首先从训练对字符串中提取规则。字符串转换的模型构造使用学习系统,处理规则和权重。在生成过程中,给定一个新的输入字符串,产生最高的k候选人输出字符串指的模型(规则和权重)存储在规则索引。
模型由规则和权重。正式规则表示为α→β表示一个操作替换字符串的输入字符串的子串βα,α,β€{|年代= t, s = ^ t, s = t美元,美元或s = ^ t}和t€Σ*字母是可能的字符串的集合,和^和$是开始和结束的符号

步骤1:基于编辑距离的对齐

图像

步骤2:规则

方程

步骤3:上下文扩展规则

方程
图4所示。规则提取的例子
所有可能的规则来自基于字符串的训练数据对齐。图4显示了从字符级对齐characterlevel规则的推导。首先我们将输入字符串并输出字符串中的字符基于编辑距离,然后规则来自对齐。

对数线性模型

对数线性模型包含以下组件:
•一组X可能的输入。
•一组Y可能的标签。一组Y被认为是有限的。
•一个正整数d指定数量的特性和参数模型。
•一个函数f: X * Y ?Rd映射任何(x, y)的特征向量f (x, y)。
•一个参数向量v为任何x€€Rd。x, y€y,定义了条件概率模型
方程
这里exp (x) =前,方程
之间的内积是f (x, y)和v .术语是为了被解读为“在x, y条件的概率参数值v”。
现在我们更详细地描述的组件模型,首先关注的特征向量定义f (x, y),然后让直觉模型形式
方程
模型可以表示为一组期望频率,可能会或可能不会像观察到的频率。以下模型指的是传统卡方检验两个变量,每个都有两个级别(2 x 2表),评估,看看这些变量之间存在关联。
方程
Ln (Fij)=日志,将细胞频率情况下的细胞ij列联表。
μ=是整个自然对数的意思是预期的频率
λ=每个代表“效果”这一变量对细胞的频率
A和B =变量
i和j =参考类别内的变量
因此:
=的主要影响变量
= B的主要影响变量
= B和A是变量的交互作用
上面的模型被认为是一个饱和模型,因为它包含所有可能的一个和两个方式的影响。饱和模型具有相同数量的列联表,影响细胞,将细胞频率总是精确匹配观察到的频率,没有剩余的自由度。例如,在一个2 x 2表有四个细胞,在饱和模型涉及两个变量有四种效果,?,,,,因此预期细胞频率将完全匹配观察到的频率。为了找到一个更简洁的模型,将隔离效果最佳展示的数据模式,必须寻求作为一个未饱和模型。这可以通过设置参数为零的影响参数。例如,如果我们设置参数影响? ij AB为零(即我们假设变量没有影响变量对变量A, B和B没有影响剩下的不饱和模型。
方程
这个特殊的不饱和模型名为独立模型,因为它缺乏一个交互作用参数A和b之间这个模型认为,变量是无关的,不问原因。注意,独立模型类似于卡方分析和测试应该独立的假设。
方程
Ln (Fij)=日志,将细胞频率情况下的细胞ij列联表。
μ=是整个自然对数的意思是预期的频率
λ=每个代表“效果”这一变量对细胞的频率
A和B =变量
i和j =参考类别内的变量
因此:
=的主要影响变量
= B的主要影响变量
= B和A是变量的交互作用
上面的模型被认为是一个饱和模型,因为它包含所有可能的一个和两个方式的影响。饱和模型具有相同数量的列联表,影响细胞,将细胞频率总是精确匹配观察到的频率,没有剩余的自由度。例如,在一个2 x 2表有四个细胞,在饱和模型涉及两个变量有四种效果,?,,,,因此预期细胞频率将完全匹配观察到的频率。为了找到一个更简洁的模型,将隔离效果最佳展示的数据模式,必须寻求作为一个未饱和模型。这可以通过设置参数为零的影响参数。例如,如果我们设置参数影响? ij AB为零(即我们假设变量没有影响变量对变量A, B和B没有影响剩下的不饱和模型。
方程
这个特殊的不饱和模型名为独立模型,因为它缺乏一个交互作用参数A和b之间这个模型认为,联合国相关的变量,隐式。注意,独立模型类似于卡方分析和测试应该独立的假设。

字符串生成算法

高级k修剪算法有效地生成最优k输出字符串。Aho-Corasick字符串匹配算法是一个字符串搜索算法。另有称为dictionary-matching算法定位有限集合的元素的字符串(“字典”)在一个输入文本。同时匹配所有模式和算法的复杂性是线性模式的长度+搜索文本的长度+输出匹配的数量。字符串生成问题相当于找到顶部k输出字符串输入字符串。

Algorithm1:(供参考)k修剪

输入:输入字符串,规则指数Ir,候选键k
输出:前在stopk k输出字符串
1。开始
2。找到所有规则适用于年代从Lr - Corasick算法
3所示。minscore = -∞
4所示。Qpath = Stopk = {}
5。(1 ^ 0)添加到Qpath
6。虽然Qpath不是空的
7所示。皮卡的路径(pos、字符串分数)从Qpath启发式
8。如果分数≤minscore
9。继续

字符串匹配算法

一)Knuth-Morris-Pratt算法

Knuth-Morris-Pratt算法是基于有限自动机,而是使用一个更简单的方法处理字符不匹配时的情况。Knuth-Morris-Pratt算法,我们标签的象征美国应该匹配。然后我们只需要从每个州两个链接,一个链接一个成功的匹配和另一个链接失败。成功的链接将带我们到下一个节点的链,和失败链接将带我们回到前一个节点基于“模式”这个词。提供的每个成功链接Knuth-Morris-Pratt自动机导致一个新角色的“获取”文本。失败的链接不得到一个新的但重用最后字符,可以获取。如果我们到达最终状态,我们知道我们找到子字符串。

B) Boyer-Moore算法

Boyer-Moore算法不同于前两个算法,它与模式匹配的右端,而不是离开。例如,在下面的示例中,我们首先比较y和r和找到一个不匹配字符。因为r不出现在这个模式,我们知道模式可以搬到正确的一个完整的四个字符(模式)的大小。我们下一个比较的y h和找到一个不匹配。这次因为h并出现在模式中,我们必须将模式只有两个字符向右,这样h字符排列,然后我们从右边开始匹配,找到完全匹配的模式。

c . Commentz——沃尔特字符串匹配算法

Commentz-Walter算法的结合与Aho-Corasick Boyer -摩尔技术算法,这个算法提供更多在字符串转换精度和效率。在前处理阶段,它不同于Aho-Corasick算法,Commentz-Walter算法构建一个状态机的交谈模式匹配。每个模式匹配并添加机器从右边开始,将第一个字符的模式,并结合相同的节点。在搜索阶段,Commentz-Walter算法使用BM算法的概念。的长度匹配窗口的最小模式长度。在匹配窗口,Commentz-Walter扫描模式从右到左的字符从最右边的一个开始。在不匹配的情况下(或整个模式)的完整匹配它使用一个预先计算表转移到窗口转移到右边。

性能分析

接下来,我们测试了如何减少我们的方法的运行时间的变化根据三个因素:
字典大小,最大数量的转换中适用的规则和规则集的大小。
在图7中,随着字典大小,运行时间几乎是稳定的,这意味着我们的方法表现良好时,字典是大。在图8中,最大数量越来越多的适用规则转换中,运行时间增加,然后稳定下来,特别是当这个词。
在图9中,运行时间持续增长时,单词的长度变长。然而,运行时间仍然是非常小的,可以满足在线应用的要求。从所有的数据,我们可以得出这样的结论:修剪策略是非常有效的和我们的方法总是有效的尤其是当查询的长度短。

结论和未来的工作

因此我们的工作减少了信息处理的问题利用新的统计学习方法的字符串转换。该方法新颖独特的模式,学习算法、字符串生成算法和commentz沃尔特算法。commentz沃尔特算法提供了更多的准确性和效率在拼写纠错等特定应用程序和查询再形成在网络查询都用这个方法来解决。在两个大型数据集的实验结果表明,相对于传统方法,我们的方法改进了基线在字符串转换的精度和效率。我们的方法在问题发生时尤其更有用的大规模数据集。实验结果在两个大型数据集和微软拼字的挑战表明,我们的方法改进了基线的准确性和效率。我们的方法特别有用,当靠大规模发生。

数据乍一看

图1 图2 图3 图4 图5
图1 图2 图3 图4 图5

引用

















全球技术峰会