关键字 |
对数线性模型、参数估计、查询再形成,拼写纠错,字符串转换 |
介绍 |
字符串转换可以制定自然语言处理,发音,拼写纠错,音译词,词引发的。字符串转换可以被定义为给定一个输入字符串和一组操作符,可以能够将输入字符串转换成输出字符串的k最有可能通过应用大量的运营商。字符串可以是字符串的话说,字符,或任何类型的令牌。每个操作符是一个转换规则,定义了与另一个字符串替换的子字符串。字符串转换可以在两个不同的执行方式,取决于是否使用一个字典。在第一种方法中,字符串的字符。在第二个方法中,一个字符串组成的单词。前者需要字典的帮助而后者没有。拼写错误是两个步骤。1)非单词错误和2)真正的单词错误。 Non word errors are those words not in dictionary.. Spelling errors in queries can be corrected in two steps: (1) Candidate generation and (2) Candidate selection. Fig 1.shows the spelling error correction in word processing. Candidate generation is used to find the words with similar spelling, from the dictionary. In a case, a string of characters is input and the operators represent insertion, deletion, and substitution of characters with or without surrounding characters. |
他们是利用小编辑距离误差。候选人代关注一个词;候选人生成上下文中的词之后,可以进一步利用最后的候选人选择,[1],[2]。查询再形成搜索旨在处理这个词不匹配的问题。例如,如果查询文档只包含“妇幼保健”和“MC医院”,然后查询和文档不匹配文档不会排名高。查询再形成试图改变“妇幼保健”“医学院医院”,从而使一个更好的查询和文档之间的匹配。在任务,查询单词(字符串),系统需要生成所有类似的查询从原始查询的单词(字符串)。运营商之间的转换词等查询“前女友”→“例子”和“携带”→“持有”[3]。以前的工作在字符串转换可以分为两组。一些任务主要考虑有效生成字符串,假设模型[4]。 Other work tried to learn the model with different approaches, such as a generative model [5], a logistic regression model [6], and a discriminative model [7]. There are three fundamental problems with string transformation: (1) how to define a model which can achieve both high accuracy and efficiency, (2) how to train the model accurately and efficiently from training instances, (3) how to efficiently generate the top k output strings given the input string, with or without using a dictionary. |
在本文中,我们提出一个概率方法的任务。我们的方法是新颖和独特的在以下方面。它使用(1)字符串转换的对数线性模型(歧视),(2)学习的有效和准确的算法模型,和(3)一个有效的算法生成字符串。对数线性模型定义为一个条件概率分布的一个输出字符串和一个规则集转换给定一个输入字符串。学习方法是基于最大似然估计。因此,生成的模型训练向目标字符串输入字符串给出的最大可能性。代算法有效地执行前k候选人一代使用k修剪。找到最好的k候选人修剪保证没有列举所有的可能性。 |
相关工作 |
有几个文件处理的信息处理。但是我们工作和现有的工作之间的主要区别是,我们专注于增强字符串转换的精度和效率。德雷尔[7]也为字符串转换提出了对数线性模型,用特征代表了潜在的联盟之间的输入和输出字符串。Tejada[9]提出了一种主动学习的方法估计转换规则的权重与有限的用户输入。Arasu[8]提出了一种方法可以学习一组转换规则,解释大部分的例子。也有方法寻找顶部k候选人利用n g公羊[10],[11]。小王和翟[14]上下文置换开采模式,试图取代单词输入查询使用模式。布里尔和摩尔[5]建立了一个生成模型包括上下文替换规则。Toutanova和摩尔[12]进一步提高模型将发音因素加入模型。段和徐[13]也提出了一个使用噪声信道模型生成拼写校正方法。 |
学习字符串转换 |
字符串转换生成一个字符串在另一个字符串,如“TKDE”从“交易知识和数据工程”。研究已经进行自动从数据转换模型的学习。Arasu等。[8]提出了一种方法可以学习一组转换规则,解释大部分的例子。增加覆盖规则集的主要焦点。Tejada等。[9]提出一个活跃的学习方法可以估计转换规则的权重与有限的用户输入。的类型转换规则是预定义的,如阻止前缀,后缀和缩略词。冈崎等。[6]合并规则成L1-regularized logistic回归模型,并利用模型转换为字符串。德雷尔等。[7]也为字符串转换提出了对数线性模型,用特征代表了潜在的联盟之间的输入和输出字符串。有限状态传感器是用来产生候选人。效率不是他们的主要考虑因素,因为它是用于离线应用程序。 Our model is different from Dreyer et al.’s model in several points. Particularly our model is designed for both accurate and efficient string transformation, with transformation rules as features and non-positive values as feature weights. |
冈崎et al的模型主要是提出了不同的模型,虽然都是歧视模型。他们的模型被定义为一个逻辑回归模型(分类模型)P (t j s), s和t分别表示输入字符串和输出字符串,和特性表示替换规则颗(年代;t) ={1规则rk否则会转换s t 0(1)他们的模型利用了所有的规则,可以转换到t和假定只有一个规则可以应用。 |
提出工作 |
字符串转换模型 |
我们的方法的概述图3所示。有两个过程,他们正在学习和生成。在学习过程中,首先从训练对字符串中提取规则。字符串转换的模型构造使用学习系统,处理规则和权重。在生成过程中,给定一个新的输入字符串,产生最高的k候选人输出字符串指的模型(规则和权重)存储在规则索引。 |
模型由规则和权重。正式规则表示为α→β表示一个操作替换字符串的输入字符串的子串βα,α,β€{|年代= t, s = ^ t, s = t美元,美元或s = ^ t}和t€Σ*字母是可能的字符串的集合,和^和$是开始和结束的符号 |
步骤1:基于编辑距离的对齐 |
|
步骤2:规则 |
|
步骤3:上下文扩展规则 |
|
图4所示。规则提取的例子 |
所有可能的规则来自基于字符串的训练数据对齐。图4显示了从字符级对齐characterlevel规则的推导。首先我们将输入字符串并输出字符串中的字符基于编辑距离,然后规则来自对齐。 |
对数线性模型 |
对数线性模型包含以下组件: |
•一组X可能的输入。 |
•一组Y可能的标签。一组Y被认为是有限的。 |
•一个正整数d指定数量的特性和参数模型。 |
•一个函数f: X * Y ?Rd映射任何(x, y)的特征向量f (x, y)。 |
•一个参数向量v为任何x€€Rd。x, y€y,定义了条件概率模型 |
|
这里exp (x) =前, |
之间的内积是f (x, y)和v .术语是为了被解读为“在x, y条件的概率参数值v”。 |
现在我们更详细地描述的组件模型,首先关注的特征向量定义f (x, y),然后让直觉模型形式 |
|
模型可以表示为一组期望频率,可能会或可能不会像观察到的频率。以下模型指的是传统卡方检验两个变量,每个都有两个级别(2 x 2表),评估,看看这些变量之间存在关联。 |
|
Ln (Fij)=日志,将细胞频率情况下的细胞ij列联表。 |
μ=是整个自然对数的意思是预期的频率 |
λ=每个代表“效果”这一变量对细胞的频率 |
A和B =变量 |
i和j =参考类别内的变量 |
因此: |
=的主要影响变量 |
= B的主要影响变量 |
= B和A是变量的交互作用 |
上面的模型被认为是一个饱和模型,因为它包含所有可能的一个和两个方式的影响。饱和模型具有相同数量的列联表,影响细胞,将细胞频率总是精确匹配观察到的频率,没有剩余的自由度。例如,在一个2 x 2表有四个细胞,在饱和模型涉及两个变量有四种效果,?,,,,因此预期细胞频率将完全匹配观察到的频率。为了找到一个更简洁的模型,将隔离效果最佳展示的数据模式,必须寻求作为一个未饱和模型。这可以通过设置参数为零的影响参数。例如,如果我们设置参数影响? ij AB为零(即我们假设变量没有影响变量对变量A, B和B没有影响剩下的不饱和模型。 |
|
这个特殊的不饱和模型名为独立模型,因为它缺乏一个交互作用参数A和b之间这个模型认为,变量是无关的,不问原因。注意,独立模型类似于卡方分析和测试应该独立的假设。 |
|
Ln (Fij)=日志,将细胞频率情况下的细胞ij列联表。 |
μ=是整个自然对数的意思是预期的频率 |
λ=每个代表“效果”这一变量对细胞的频率 |
A和B =变量 |
i和j =参考类别内的变量 |
因此: |
=的主要影响变量 |
= B的主要影响变量 |
= B和A是变量的交互作用 |
上面的模型被认为是一个饱和模型,因为它包含所有可能的一个和两个方式的影响。饱和模型具有相同数量的列联表,影响细胞,将细胞频率总是精确匹配观察到的频率,没有剩余的自由度。例如,在一个2 x 2表有四个细胞,在饱和模型涉及两个变量有四种效果,?,,,,因此预期细胞频率将完全匹配观察到的频率。为了找到一个更简洁的模型,将隔离效果最佳展示的数据模式,必须寻求作为一个未饱和模型。这可以通过设置参数为零的影响参数。例如,如果我们设置参数影响? ij AB为零(即我们假设变量没有影响变量对变量A, B和B没有影响剩下的不饱和模型。 |
|
这个特殊的不饱和模型名为独立模型,因为它缺乏一个交互作用参数A和b之间这个模型认为,联合国相关的变量,隐式。注意,独立模型类似于卡方分析和测试应该独立的假设。 |
字符串生成算法 |
高级k修剪算法有效地生成最优k输出字符串。Aho-Corasick字符串匹配算法是一个字符串搜索算法。另有称为dictionary-matching算法定位有限集合的元素的字符串(“字典”)在一个输入文本。同时匹配所有模式和算法的复杂性是线性模式的长度+搜索文本的长度+输出匹配的数量。字符串生成问题相当于找到顶部k输出字符串输入字符串。 |
Algorithm1:(供参考)k修剪 |
输入:输入字符串,规则指数Ir,候选键k |
输出:前在stopk k输出字符串 |
1。开始 |
2。找到所有规则适用于年代从Lr - Corasick算法 |
3所示。minscore = -∞ |
4所示。Qpath = Stopk = {} |
5。(1 ^ 0)添加到Qpath |
6。虽然Qpath不是空的 |
7所示。皮卡的路径(pos、字符串分数)从Qpath启发式 |
8。如果分数≤minscore |
9。继续 |
字符串匹配算法 |
一)Knuth-Morris-Pratt算法 |
Knuth-Morris-Pratt算法是基于有限自动机,而是使用一个更简单的方法处理字符不匹配时的情况。Knuth-Morris-Pratt算法,我们标签的象征美国应该匹配。然后我们只需要从每个州两个链接,一个链接一个成功的匹配和另一个链接失败。成功的链接将带我们到下一个节点的链,和失败链接将带我们回到前一个节点基于“模式”这个词。提供的每个成功链接Knuth-Morris-Pratt自动机导致一个新角色的“获取”文本。失败的链接不得到一个新的但重用最后字符,可以获取。如果我们到达最终状态,我们知道我们找到子字符串。 |
B) Boyer-Moore算法 |
Boyer-Moore算法不同于前两个算法,它与模式匹配的右端,而不是离开。例如,在下面的示例中,我们首先比较y和r和找到一个不匹配字符。因为r不出现在这个模式,我们知道模式可以搬到正确的一个完整的四个字符(模式)的大小。我们下一个比较的y h和找到一个不匹配。这次因为h并出现在模式中,我们必须将模式只有两个字符向右,这样h字符排列,然后我们从右边开始匹配,找到完全匹配的模式。 |
c . Commentz——沃尔特字符串匹配算法 |
Commentz-Walter算法的结合与Aho-Corasick Boyer -摩尔技术算法,这个算法提供更多在字符串转换精度和效率。在前处理阶段,它不同于Aho-Corasick算法,Commentz-Walter算法构建一个状态机的交谈模式匹配。每个模式匹配并添加机器从右边开始,将第一个字符的模式,并结合相同的节点。在搜索阶段,Commentz-Walter算法使用BM算法的概念。的长度匹配窗口的最小模式长度。在匹配窗口,Commentz-Walter扫描模式从右到左的字符从最右边的一个开始。在不匹配的情况下(或整个模式)的完整匹配它使用一个预先计算表转移到窗口转移到右边。 |
性能分析 |
接下来,我们测试了如何减少我们的方法的运行时间的变化根据三个因素: |
字典大小,最大数量的转换中适用的规则和规则集的大小。 |
在图7中,随着字典大小,运行时间几乎是稳定的,这意味着我们的方法表现良好时,字典是大。在图8中,最大数量越来越多的适用规则转换中,运行时间增加,然后稳定下来,特别是当这个词。 |
在图9中,运行时间持续增长时,单词的长度变长。然而,运行时间仍然是非常小的,可以满足在线应用的要求。从所有的数据,我们可以得出这样的结论:修剪策略是非常有效的和我们的方法总是有效的尤其是当查询的长度短。 |
结论和未来的工作 |
因此我们的工作减少了信息处理的问题利用新的统计学习方法的字符串转换。该方法新颖独特的模式,学习算法、字符串生成算法和commentz沃尔特算法。commentz沃尔特算法提供了更多的准确性和效率在拼写纠错等特定应用程序和查询再形成在网络查询都用这个方法来解决。在两个大型数据集的实验结果表明,相对于传统方法,我们的方法改进了基线在字符串转换的精度和效率。我们的方法在问题发生时尤其更有用的大规模数据集。实验结果在两个大型数据集和微软拼字的挑战表明,我们的方法改进了基线的准确性和效率。我们的方法特别有用,当靠大规模发生。 |
数据乍一看 |
|
|
引用 |
- m·李,y, m .朱,m .周”探索分布相似性查询拼写校正模型为基础,“21世纪国际研讨会论文集在计算语言学和计算语言学协会第44届年会上,爵士。ACL 06年。美国新泽西州莫里斯镇:
- 计算语言学协会,2006年,页1025 - 1032。
- (一个。r·戈尔丁和d·罗斯“winnow-based上下文敏感的拼写校正方法,“马赫。学习。,vol. 34, pp. 107–130, February 1999.
- j .郭g .徐、h·李和x Cheng”统一查询和歧视模型细化,”31日年度国际市立图书馆研讨会论文集在信息检索的研究与开发,爵士。" 08年。美国纽约:ACM, 2008年,页379 - 386。
- Behm,霁,c·李和j . Lu”空间受限gram-based索引有效近似字符串搜索,”2009年《IEEE国际会议数据工程,爵士。ICDE ' 09。美国,华盛顿特区:美国IEEE计算机协会,2009年,页604 - 615。
- e·布里尔和r·c·摩尔”,一种改进的噪声信道拼写校正误差模型,”38的程序在计算语言学协会年度会议上,爵士。ACL的00。美国新泽西州莫里斯镇:计算语言学协会,2000年,页286 - 293。
- n .冈崎y鹤冈、美国Ananiadou和j .辻井”区别的候选人发电机转换为字符串,程序的会议经验方法在自然语言处理中,爵士。EMNLP 08年。美国新泽西州莫里斯镇:计算语言学协会,2008年,页447 - 456。
- m·德雷尔j . r .史密斯和j·艾斯纳,“潜变量模型弦转导与有限状态的方法,”程序的会议经验方法在自然语言处理中,爵士。EMNLP 08年。斯特劳斯堡,宾夕法尼亚州,美国:计算语言学协会,2008年,页1080 - 1089。
- Arasu, s·乔杜里和r . Kaushik“学习字符串转换的例子,”Proc。VLDB赋予。,2卷,第525 - 514页,2009年8月。
- s . Tejada c . a . Knoblock和s·明顿,”学习领域独立的字符串转换为高精度对象权重识别、“第八届ACM SIGKDD国际研讨会论文集在知识发现和数据挖掘,爵士。知识发现(KDD) 02。美国纽约:ACM, 2002年,页350 - 359。
- m . Hadjieleftheriou c·李,“高效近似搜索字符串集合,”Proc VLDB赋予。,2卷,第1661 - 1660页,2009年8月。
- b . c . Li王,杨x”Vgram:提高性能的近似查询字符串集合使用变长克,”在美国第33国际会议上非常大的数据基地,爵士。VLDB ' 07。VLDB养老,2007年,页303 - 314。
- 杨x、b . Wang和c·李,“基于成本variable-length-gram选择字符串集合来支持近似查询有效,”2008年《ACM SIGMOD国际会议管理的数据,爵士。SIGMOD 08年。美国纽约:ACM, 2008年,页353 - 364。
- c·李,j . Lu, y,“有效的合并和过滤算法近似字符串搜索,”2008年《IEEE国际会议24日数据工程,爵士。ICDE 08年。美国,华盛顿特区:美国IEEE计算机协会,2008年,页257 - 266。
- c . s, g . Li Li和j .冯“高效的交互式模糊关键词搜索,”18国际研讨会论文集在万维网上,爵士。WWW的09年。美国纽约:ACM, 2009年,页371 - 380。
- r . Vernica c·李,“高效top-k算法的模糊搜索字符串集合,“第一届国际研讨会论文集在关键词搜索结构化数据,爵士。钥匙' 09。美国纽约:ACM, 2009, pp。9-14。
|