在线刊号(2320-9801)印刷刊号(2320-9798)
利用大数据集进行字符串转换的对数线性模型
自然语言处理、数据挖掘、信息检索和生物信息学中的许多问题都可以通过尝试转换来合法化。字符串转换的任务是一旦给定了输入字符串,系统生成k个最有可能出现的输出字符串作为输入字符串的结果。因此,本文提出了一种新颖的概率字符串转换方法,其中包括对数线性模型的使用,模型的训练方法和使用非字典方法生成前k个候选的算法,这有助于该方法的准确性和有效性。对数线性模型可以表述为输出字符串的条件概率分布,以及以输入字符串为条件的转换规则集。学习方法采用极大似然估计进行参数估计。字符串生成基于剪枝算法,保证生成最优的前k个候选。该方法适用于纠正字符串或查询中的拼写错误。
Mr.G。列宁,Ms.B。Vanitha, Mrs.C.K.Vijayalakshmi