所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

NLP的融合与文本分类

Amisha Shingala1,Paresh Virparia2,Anjali Jivani3
  1. 助理教授,MCA称,SVIT,古吉拉特邦技术大学Vasad,印度古吉拉特邦
  2. Sardar帕特尔大学教授,部门的CS诉诉Nagar,印度古吉拉特邦
  3. 副教授,CSE称,巴罗达,m . s .大学的瓦尔道拉,印度古吉拉特邦
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

文本挖掘(TM)和自然语言处理(NLP)密切相关。虽然TM是不相关的语义和语法的语言,它试图链接文档或非结构化数据以这样一种方式,在一天结束的时候我们可以说这些文档语义密切相关。TM有许多子任务文本聚类、文本摘要、文本分类等。在本文中,我们正在讨论相关研究将一个简单的英语问题转换为其等效的结构化查询语言(SQL)语句从数据库中获取信息的一个新手。这个工具,我们开发了名为N-ELIDB -数据库自然语言查询接口。这是一个启发式的工具生成SQL之后,试图使用文本分类的概念分类的问题。前面的部分是一个普通用户和文本的后一部分是矿工。

关键字

NLP;文本挖掘;文本分类;文本分类;信息检索

介绍

电脑的使用增加了歧管与数据库管理系统(DBMS)的出现和互联网的黎明。日常的大多数人是互动的信息存储在数据库中,通常情况下,通过专业和预定义的编写的程序交互。这样的项目是它的局限性限制了用户和数据库之间的交互组预定义的查询。这是针对DBMS系统的基本目标/原理开发的支持特别查询。只有少数人了解数据库结构和正式的数据库语言(SQL可以从数据库检索所需的信息。
新手用户没有知识的数据库结构和正式的数据库查询语言不能检索所需的信息如果它不支持应用程序。因此,这是一个需要一个小时来提高人机界面,允许人们与数据库交互的自然语言(如英语)。现有的和有效的数据库自然语言接口(NLIDB)系统具有高潜力模拟计算机系统作为会话系统从而使它容易使用大质量的提高它的实用价值。最后,多个系统被设计和开发人员支持NLIDB。一些著名的NLIDB系统:生活,月球,银行,精灵,NLBEAN,辛迪,SQL-TUTOR, SQ-HAL,一步,等等。
因此,这项研究的目的是提供更有效的和用户友好的自然的语言查询接口数据库(N-ELIDB)系统,允许非技术用户,不知道正式的数据库语言(比如SQL),使用自己的英语语言与数据库进行交互。系统提出的通用框架,有效处理自然语言查询从数据库提取目标信息。这些语句转换为SQL查询然后被用作训练集的下一部分研究文本分类相关。
文本分类是信息检索的子任务,允许用户更容易浏览的文本集自己的利益,在类别导航层次结构。一般统计方法或使用机器学习的方法对文本数据进行分类。最受欢迎的方式是使用bag-of-words方法,向量空间模型。典型自然语言结构,例如,词法、句法和语义是完全忽视发展的分类功能。
在本文中,我们讨论如何基于NLP可以成为输入输出设计分类器可以有效地用于文本挖掘应用程序

二世。相关工作

在[14],概念查询语言/自然语言(CQL / NL)搜索过滤谓词源自概念模式构造。根据所确定的搜索谓词,CQL /问使用一组预定义的自然语言模板组成一个自然语言查询的解释。在[11]职业军人/梯子,设计了一个自然语言界面对数据库信息的美国海军船只。雷竞技官网该系统使用了一个语义语法解析和查询分布式数据库的问题。D L华尔兹[10]开发了基于程序语言的查询系统-飞机-伊利诺伊大学协调科学实验室。它进行澄清与用户对话以及回答含糊不清或定义糟糕的问题。Nalix[12]开发了一种生成交互式XML数据库自然语言查询接口。系统可以接受任意的英语句子作为查询的输入,包括聚合、嵌套、和价值连接,等等。SQ-HAL[13],系统提供数据库自然语言接口。该系统的主要缺点是,如果适当的数据库驱动程序未安装,程序将不能正常工作。 The database table names and column names have to be valid English words. It is not capable of determining relationship between tables. MASQUE [4], a system created by Androutsopoulos et, which is a powerful and portable natural language front end for Prolog databases. It answers written English questions by generating Prolog queries that are evaluated against the Prolog database.

三世。N-ELIDB架构

N-ELIDB系统有两个主要组件的操作方法如图1所示。组件是:语言组件(a)和(b)数据库组件。讨论语言组件(i)形态分析查询预处理和上下文解析,基于n元处理,停止词删除,拼写检查,域映射和知识库管理(2)词法分析识别令牌类型和检查属性令牌(3)使用斯坦福解析器和Multi-Liaison句法分析算法,使用WordNet (iv)语义分析词汇的语义表示和专有名词的决议。数据库组件进行SQL查询(i)发电机过程中间表示和查询生成的SQL查询DDL, DML & SELECT语句,和(2)SQL查询执行使用数据库适配器。
简而言之,翻译语言组件中间查询的自然语言输入一个表达式表示(差),这是后来传递给数据库组件生成结构化查询语言(SQL)的声明。生成的SQL语句执行的数据库管理系统。语言组件由形态分析、查询预处理和上下文决议,词法分析、语法分析和语义分析;和数据库组件包含SQL查询生成和执行SQL查询。
图像
图1:N-ELIDB架构
答:语言组件
语言这个词意味着语言的研究。它有主要三个方面研究包括语言形式(语法),语言的意义和语言环境。计算语言学是一个跨学科领域已知和所使用的计算机科学家自然语言的处理。语言组件处理各种形态分析等分析查询预处理和上下文决议,词法分析、句法分析和语义分析
形态学研究单词的方式建立小型meaning-bearing单位称为语素[1]。它也被称为词元化,这是一个分析的过程令牌形态为了找到他们的基本形式。例如:一个学生有两个茎的语素:一是学生和其他学生。需要两种类型的知识正确寻找单数和复数形式。它允许获取信息组成句子的单词。为此,它使用一个字典茎与根的单词形式。
自然语言输入首先经历一个预处理阶段识别域,属于输入查询。为此,它将输入,执行形态分析的词,看上去他们在字典词典检索语法和语义属性。输入查询的预处理包括:(a) stopwords去除(b)单词基础语法生成和转换成基础单词拼写检查(d) (c)识别领域,和(e)知识重用。stopwords删除、语法生成和转换基础单词和拼写检查是最简单和一般步骤,其次是任何NLP或TM算法。下一步是词法分析和语法分析。斯坦福解析器被用来提供一个表示输入句子中的单词之间的语法关系。[6]。Multi-Liaison算法[7]被用来找到对象,对象和动词的句子。
b .数据库组件
识别领域是一个非常重要的一步。程度的正确解释和处理自然语言查询的依赖存在的详尽的领域特定词汇[5]。上下文可以解决通过识别表单的域类<数据库名称> <域名> <关键词> <属性条款>如表1所示。
图像
语法的语义分析可以认为这个句子的意思由各部分的意义[2]。这里,输入是通过一个解析器以获得其句法结构。句法结构,然后,通过语义分析来确定它的语境意义。例如,语法宪法意味着句子- >名词|动词和名词的语义附件导致语义属性(专有名词,普通名词等)或一个动词。语义解释模块的输出给出了词典中的词的逻辑表达式,生成逻辑查询。这里使用的方法是一个中间查询(智商)表示它可以表达用户输入的意义而言,高水平的概念,独立于数据库结构。例如,如果用户输入的自然语言查询
“显示所有学生呆在巴罗达城”,也可以翻译成逻辑形式如:
acomp(赠1,学生2)
部(location-4能)
部(学生2、location-4)
神经网络(city-7 Vadodara-6)
prep_in (location-4 city-7)
SQL查询:select * from螺栓(城市像' %瓦尔道拉% ')
逻辑查询如上所述代表用户的问题发现的意义不同的对像(城市,瓦尔道拉),这样一个城市是一个城市和瓦尔道拉是一个城市的名字。逻辑查询解析和生成的语义解释模块,用户表达的意义的问题的一个逻辑概念。逻辑查询不直接引用数据库对象如表或列;它没有指定如何搜索数据库来获取必要的信息。为了检索用户所请求的信息,查询必须转换为查询的逻辑表达一些结构化查询语言支持的底层数据库管理系统。
我们使用WordNet识别同义,hypernymy,开发该系统的上下位关系等。WordNet的令牌不能确定是使用另一个定义的两个方法(a)词汇语义表征和(b)识别规则的人的名字,地点和日期。给出N-ELIDB GUI屏幕截图如图2所示。
N-ELIDB能够处理不同类型的查询就像那些有/没有条件、分组、连接,等。不同段落的查询,学生Anand是谁的城市列表,列表的名字的学生住在阿南德•城市地址的学生呆在巴罗达城市列表,列表的名字的学生学习在第四学期,学生的名字在5月出生,等等。
事实是,它可以处理不同类型的查询使用这就引出了下一个级别的用于创建用于文本分类的分类器。它是信息检索的子任务,允许用户更容易浏览的文本集自己的利益,通过导航类别层次结构[9]。文本分类与NLP的结合赋予了新的研究视野。
图像
图2:N-ELIDB屏幕截图

四、文本分类与NLP的结果

一般统计方法和机器学习的文本分类模型是受欢迎的。他们使用bag-of-words表示训练目标分类功能。向量空间模型在文本挖掘也很受欢迎。只有单个词tf-idf分数和距离控制措施通常使用余弦距离。典型的形态等自然语言结构、语法和语义分类函数的完全忽视发展中[8]。反过来,语义信息生成的文本分类模型尚未使用的最重要的自然语言应用程序。信息提取问题/回答和文本摘要应该利用类别信息,因为它有助于选择语言应用程序通常使用的领域知识的处理
我们试图生成分类器基于查询的类型所要求的用户由N-ELIDB转换为SQL。分类器已经预定义根据查询的性质和每个新问题由用户进行分类根据类是最亲密的。它是一种启发式方法,使得分类器成长为每新的查询要求和等价的SQL生成的。
的屏幕截图分类图3中给出。我们努力实现这个段落和小文件,目的是改善文本分类记住NLP上下文。文本分类的结合与NLP可以用于商业智能相关的应用程序,文本分析,管理信息系统,等这两个概念可以导致更好的融合,增强和优质的输出。我们现在继续这项研究文档。
图像
图3:NLP的文本分类器

诉的结论和未来的工作

已经有大量的研究工作被完成在文本挖掘以及NLP。两者之间的细线仍然是很难区分的。文本挖掘和文本分类特别是不涉及非结构化文本数据的意义,用于生成分类器。大部分时间是bag-of-words方法包括向量空间模型。这真的是一个挑战,包括语义。这个项目是一个方法对两者之间创建连接。创建更复杂的分类器基于语义和NLP分类测试数据是我们下一步的计划。

引用

  1. 安泰勒,”宾夕法尼亚大学树图资料库:概述,第1章”,纽约大学,英国,http://www.cis.upenn.edu/treebank, 2000年。
  2. 丹尼尔Jurafsky和詹姆斯·马丁,“本关于演讲和语言处理:介绍自然语言处理、计算语言学、语音识别”,培生教育,第二版,2009年版。
  3. Androutsopoulos,里奇和Thanisch P”数据库接口,一个自然语言处理手册”,209 - 240年,2000年。
  4. Anxerre P和英德尔r .面膜“模块化的英文回答查询系统”——用户手册。Edinberg大学人工智能应用研究所,1986年。
  5. 乔治·A·米勒,“WordNet:英语词汇数据库”,通信的ACM 38卷,1995 http://wordnet.princeton.edu。
  6. Marie-Catherine de马恩和克里斯托弗·d·曼宁(2008),为斯坦福斯坦福类型依赖手工修改解析器v 1.6.2在2010年2月。
  7. 女士Amisha h . Shingala Anjali Jivani女士和Paresh诉Virparia博士Multi-Liaison算法上的研究论文,发表在国际期刊《先进的计算机科学和应用程序(IJACSA),卷2,问题5,2011年5月。
  8. 拉杜vla和威廉·n·罗宾逊(2011)基于规则的自然语言技术需求的发现和分类在开源软件开发项目中,第44届夏威夷国际会议系统科学学报- 1530 1605/11 @2011 IEEE。
  9. 亚历山德罗Moschitti(2003),博士学位论文在自然语言处理和自动文本分类:互惠互利互动研究,罗马大学,2003年5月8日。
  10. D.L.华尔兹。,“An English Language Question Answering System for a Large Relational Database”, Communications of the ACM, 21, pp 526– 539,July 1978.
  11. g·亨德里克斯,大肠Sacrdoti、d . Sagalowicz和j·斯洛克姆,“开发一个自然语言界面复杂的数据”,ACM事务在数据库系统中,3卷,2号,美国105 - 147年,1978页。
  12. 李H.V. Jagadish Yunyao华海杨。2005。Nalix:“交互式自然语言接口查询XML”。在2005年美国SIGMOD。
  13. Ruwanpura:“SQ-HAL自然语言SQL翻译”,2002年5月莫纳什大学。
  14. 薄暮Oweia”自然语言查询过滤的概念查询语言”,第三十届Hawwaii学报》国际会议系统科学ISBN 0 - 8186 - 7862 - 3/97©1997年IEEE。