ISSN在线(2320 - 9801)打印(2320 - 9798)
发现文档使用小说文本检索技术之间的关系
文本分类是文本挖掘的关键技术之一,以监督的方式对文档进行分类。在本文中,我们所做的研究automaticcategorization新闻。分类算法将每个文档转换为一个向量的权重对应于一组自动提取的关键词。这个过程是进行大量的新闻,形成了多维空间的已知类别的新闻。一个未知的新闻也变成了一个向量的关键词权重,然后使用k - means方法分类。最后的文件比较基于加权关键词找到最相似的文档。
卡门Lysandra佩雷拉,Manjiri Gajanan Ghadi Manimozhi R。
阅读全文下载全文