所有提交的电磁系统将被重定向到在线手稿提交系统。作者请直接提交文章在线手稿提交系统各自的杂志。

基于集群的图像检索

Dr.A。Muthu Kumaravel
MCA、Bharath研究所的科技、钦奈,TN、印度
相关文章Pubmed,谷歌学者

访问更多的相关文章国际期刊的创新在计算机和通信工程的研究

文摘

典型的基于内容的图像检索(CBIR)系统查询结果排序的图片是一组功能相似的查询。然而,高的图像特征相似性查询可能非常不同于查询的语义。这就是所谓的语义鸿沟。我们引入一种新颖的图像检索方案基于集群的检索图像的非监督学习解决语义鸿沟问题基于一个假设:语义上的图片往往是集中在一些特征空间。线索试图捕捉语义概念通过学习的方式相同的语义相似的图像和图像检索集群而不是一组有序的图像。集群的线索是动态的。特别是,集群的形成依赖于图像检索的查询因此;集群给算法以及用户的语义相关的线索来导航。线索是一个通用的方法,可以结合任何实值对称相似性度量。因此它可能是嵌入在许多当前CBIR系统。 Experimental results based on a database of about 60,000 images from COREL demonstrate improved performance.

关键字

基于内容的图像检索、图像分类、联合国监管下学习,谱图聚类

介绍

互联网的稳定增长,存储设备价格的下降,越来越池可用的计算能力使得有必要和可能的有效操作非常大的数字信息的存储库(CBIR)旨在开发技术支持有效的搜索和浏览大图数字图书馆基于自动提取图像特征。虽然CBIR仍不成熟,之前已经有大量的工作。由于空间限制,我们只审查工作最相关的,这绝不代表理解列表。

以前的工作

在过去的十年里,许多通用的图像检索系统已经开发出来。例子包括Q-BIC系统[6],Photo book系统[16],Blobworld系统[3],视觉寻求和Web系统[20],Pi-cHunter系统[5],NeTra系统[14],火星系统,典型的CBIR系统和简单系统[22]视图查询数据库中的图像和图像(目标图像)的集合特性和排名查询图像和目标图像之间的相关性特征相似性比例非ethiless,图像的意义是很少selfevident图像与高特性相似性查询图像可能非常不同于查询的解释由一个用户。这被称为语义鸿沟,这反映了之间的差异相对有限的低层次图像特征描述能力和丰富的用户语义。根据程度的改善用户在检索过程中,一般情况下,提出了两类方法减少语义鸿沟:相关性反馈和图像数据库使用统计分类预处理。relevancefeedback——基于允许用户与之交互检索算法通过提供信息的图片他或她认为相关查询(5,17)。基于用户反馈,给更好的近似认知主体性。实证结果表明相关性反馈敌人某些应用的有效性。然而这样的系统可能会增加负担用户尤其是比布尔的反馈信息是必需的。统计分类方法组图像在语义上有意义的类别唱低层次视觉特征,这样semantically-adaptive搜索方法适用于每个类别可以应用(18日,21日,22日和12)。例如,WebQuery系统[18]类别图像到不同的集群基于异构特性。Vailaya等。[21]假期图像组织成一个层次结构。 At the top-level, images are classified as indoor or outdoor. Outdoor images are then classified as city or landscape that is further divided into sunset, forest, and mountain classes. The simplicity system [22] classifies photograph, and thus narrows down the searching space in database. ALIP system uses categorized images to train hundreds of two-dimensional multi resolution hidden Markov models each corresponding to a semantic category. Although these classification methods are successful in their specific domains of application, the simple ontology built upon them could not incorporate the rich semantics of a sizable image database. There has been work on attaching object on region -term- cooccurrence. But as noted by authors the algorithm relies in semantically by an algorithm is still an open problem in computer vision[19,23].

动机

图1显示了一个查询返回的图像和前29目标im-agers CBIR系统[4]中描述的查询图像上左角落。从左到右和从上到下,排名目标图像的相应的相似性度量值的减少。从本质上讲,这可以被视为一个一维的可视化查询的图像数据库在附近使用相似度度量。如果查询和多数的图像在“附近”有相同的语义,然后我们将期待好的结果。但目标图像可能是完全不同的从查询图像的语义鸿沟。例如在图1中,目标图像属于多个语义类,占主导地位的包括马、鲜花、高尔夫球员,和车辆。然而,大多数的顶级比赛属于很小数量的不同语义类,这表明一个假设,查询附近的图像比图像不同的语义。或者,换句话说,图片往往是语义上聚集。因此,检索方法,它能够捕捉这种结构性的关系,可能使语义上更有意义的相似性度量。类似的假设已经被研究在文档检索提出了强有力的支持证据。 This motivates us to tackle the semantic gap problem from the perspective of un supervisse learning. In this paper , we propose an algorithm, CLUster-based rEtreival of images by unsupervised learning(CLUE), to retrieve image clusters instead of a set of ordered images: the query and neighboring target images, which are selected according to a similarity measure, are clustered by an unsupervised learning method and returned to the user. In this way, relations among retrieved images are taken into consideration through clustering and may provide extra information for ranking and presentation. CLUE has the following characteristics:
•它是一个基于集群的图像检索方案,可以作为替代检索一组有序的图像。集群的图像从一个无监督学习过程不仅基于功能是相似的。从这个意义上讲,线索的目的是捕获底层概念如何图像相同的语义是一样的和现在的导航的用户语义相关的线索。
•similarity-driven方法,可以建立在几乎任何对称实值图像相似性度量。因此,我们的方法可以结合许多其他检索方案,包括相关反馈方法与动态更新模式相似的措施。
•它提供一个动态的和本地的可视化图像数据库使用集群技术。创建集群,这取决于图像检索的查询。因此,集群有潜力成为密切适应查询图像的特征。此外,通过约束的图像检索查询的社区形象,集群线索提供了一个当地的近似所产生的语义结构的整幅图像数据库。尽管数据库的整体语义结构可以非常复杂,很难确定由一个计算机程序,局部可能会被一个简单的近似描述,如集群。这是在当前图像与数据库中统计分类方法,并推导出语义类别就整个数据库在预处理阶段,所以是全球性的、静态的,独立于查询。

论文的大纲

本文的其余部分组织如下。第二部分描述的一般方法论的线索。第三节提供了实验结果。我们在第四节结束,一起讨论未来的工作。

检索图像的集群

系统概述

为了简化解释,我们称之为CBIR使用线索集群基于内容的图像检索(CBICR)系统。从数据流的角度,一般CBCIR系统可以表现为图2所示。检索过程开始与查询图像的特征提取。目标图像的特征(图片数据库中)通常是预先计算的文件和存储特性。使用这些特性与图像相似性度量,查询图像和目标图像之间的相似之处是评估和排序。接下来,收集目标图像接近查询图像选择查询的社区形象。聚类算法被应用于这些目标图像。最后,系统显示图像集群根据用户的反馈和调整相似度模型。
CBICR和CBIR系统的主要区别在于两个处理阶段,选择相邻的目标图像和图像聚类,线索的主要组件。典型的CBIR系统绕过这两个阶段,直接输出sort-ed结果显示和反馈阶段。图2表明,线索是相似度排序。这意味着线索可能是嵌入在一个典型的CBIR系统不管所使用的图像特征,分类方法,是否有反馈。因此在接下来的部分,我们重点讨论线索的一般方法,并给出假定相似度度量。

选择相邻的目标图像

数学上定义一个点的附近,我们首先需要选择一个距离的测量。图片,可以被定义为一个相似的距离测量(一个更大的值表示一个较小的距离)。因为简单的代数操作可以将相似度度量转换为不同措施,不失一般性,我们假设两个im-ages之间的距离是由对称不同测量(i, j) = d (j, i)≥0,名字d (i, j)之间的距离图像i和j简化符号。
接下来,我们提出两个简单的方法来选择一个collec-tion邻近目标查询图像的我:
1。固定半径的方法(农场)所有目标图像在一些固定的£对我。对于一个给定的查询图像,社区目标图像的数量取决于£。
2。最近邻居法(NNM)首先选择k最近的邻居我的种子。为每个种子然后发现最近的邻居。最后,邻近目标图像选择所有的不同的目标图像在种子及其r最近的邻居。
如果距离度量,这两种方法会产生类似的结果在适当的参数(£,k和r) .How-ever)的距离,尤其是三角形选择两种方法可能会相当不同的参数。这是由于违反了三角不等式:两幅图像的距离可能是巨大的,即使他们都是非常接近一个查询图像,NNM用于这项工作。与纳相比,我们的实证结果表明,通过适当的选择的k和r NNM往往会产生更多的结构化集合下目标图像的距离)。另一方面,农场,因为额外的时间来寻找最近的邻居k种子。价格可以减少时间复杂度的额外的存储空间。

和光谱图分区加权图表示。

数据表示通常是第一步来解决聚类问题。在计算机视觉领域被广泛使用两种类型的表示。一个叫做几何表示法,数据项映射到一些真正的赋范矢量空间。另一个是图表示。它强调两人智慧的关系,但这通常缺乏几何表示有一个主要的限制:它要求图像映射到分赋范矢量空间。这是一个非常严格的约束。例如,在基于区域的算法(4、13、22),图像通常被视为区域的集合。地区的数量可能有所不同在向量空间中,一般是不可能这样做,因为除非图像之间的距离度量图像,在这种情况下,嵌入可行。然而,许多距离图像)的原因
因此,本文采用邻近目标图像的图形表示。由一组n图像加权无向图G = (V, E):节点V = {1,2,…。,n} represent images, the edges E={( i,j):i,j€V are formed between every pair of nodes, and the non-negative weight wi,j of an edge (i,j), indicating the simil-rity between two nodes, is a function of the distance(or similarity) between nodes (images) i and j. Given a distance d (i,j) between images i and j.The weights can be organized into a matrix W, named the affinity matrix,width the ji-th entry given by wij. Although it is a relatively simple weighting scheme, our experimental results have shown its effectiveness. The same scheme has been used in [8, 19]. Supports for exponential decay from phycolo-gical studies are also provided.
图表示下,聚类可以作为一个图表n-aturally制定分区问题。A-mong许多用图算法,本文使用规范化的削减(Ncut)图像聚类算法[19]。大致说来Ncut方法试图组织组内节点分成组,相似性高,和/或图之间的相似度很低。与许多其他光谱年龄partiotioning方法相比,这种年代平均剪切和平均培养基上,Ncut方法经验证明是在图像分割[19]相对强劲。Ncut方法可以被递归地应用超过两个集群。但是这导致了问题:1)应该划分的子图吗?2)当过程应该停止吗?在本文中,我们使用一个简单的启发式。每一次的最大数量的子图指出节点分区。绑定时的进程终止集群的数量达到或Ncut价值超过某个阈值T。

找到代表图像

最终,系统需要向用户显示图像cl-usters .Unlike典型的CBIR系统中,显示特定数量的最高目标图像匹配用户;CBICR系统应该能够提供一个直观的可视化的集群结构附加离子对所有检索到的目标图像。在第一层,系统显示所有集群的表示图像的集合。第二层次,系统显示所有集群中的目标图像由用户指定。但是仍然存在两个问题:1)如何organ-ze这些集群?2)如何找到一个代表形象为每个集群?集群的组织将在2.5节描述的第二个问题,我们定义了一个集群的代表形象的形象最类似于集群中的所有图片。这句话可以说明如下图表示的数学图像G = (V, E)与关联矩阵,让图像簇的集合{c1, c2,…cn}是一个分区
诉的节点的Ci形象代表
Σwjt
基本上,每个集群,我们选择的图像的最大金额在集群相似之处。

集群组织

本质上是一个递归Ncut分区分层分裂聚类过程,生成一个树。田径运动的图2显示了一个由四个Ncuts生成树。以来第一个Ncut分裂成H和B H no-des比B,第二Ncut分区H G和。接下来,我进一步划分,因为它是比H和c .第四Ncut应用于并给出最后四个集群(或离开):G、F E、D。
上面的例子表明树木的自然组织集群。尽管如此,这里的树组织可能误导用户,因为没有任何的保证树之间的通信和图像的语义结构。此外,组织形象集群成树结构将大大复杂的用户界面。在这个工作中,我们采用一个简单的线性组织集群的遍历顺序:安排一棵二叉树的叶子的顺序遍历(左子先访问)。两个集群由一个Ncut的顺序迭代是决定仲裁规则:1)让H和B两个集群由一个Ncut ge-nerated d1 (d2)之间的最小距离查询图像和所有图片在H (B);2)如果d1 < d2 H的左子,否则,B是左子结点。在遍历顺序和仲裁规则下,查询图像以来最左边的叶子一个集群包含查询图像总是会分配给左子结点。为了一致性,图像在每个集群也距离升序排列的组织一个查询。

实验

用户界面

我们的实验CBICR系统使用相同的特征提取方案和UFM相似性度量的[4]。系统实现与通用图像数据库(从COREL),其中包括大约60000的图像。系统非常简单的基于cgi的查询接口。它提供了一个随机的选项,将会给用户一组随机的图像从图像数据库开始。此外,用户可以输入图像的ID作为查询或提交任何图片在互联网上查询通过输入图像的URL。一旦收到查询图像,系统显示的缩略图列表每个集群代表一个图像。根据(1)缩略图发现,使用2.5节中描述的算法和排序。用户可以查看相关的集群中的所有图片点击缩略图。
定性评估系统的性能超过60000 COREL图像数据库,我们随机选择5个查询图像与不同的语义,也就是说,鸟类,汽车,食品,历史建筑和足球比赛。对于每个查询的示例,我们检查查询结果的精度取决于图像语义的相关性。这里只有图片在第一个集群,查询图像所在,被认为是。这是因为在第一个集群的图像可以被视为共享同一similarity-induced语义的查询图像根据集群组织。
由于线索是建立在UFM相似性测量,一个典型的CBIR系统的查询结果,使用UFM简单系统相似性度量[4](我们称之为系统UFM简化符号),也包括比较。我们承认图像语义的相关性取决于用户的角度来看。图中指定的标准,因此,我们的相关性,可能完全不同于那些使用系统的用户。由于空间限制,只有11匹配每个查询显示。我们还提供相关图片的数量在第一个集群(线索)或前31场。
与UFM相比,线索提供了查询语义上更精确的结果在图4中给出。这是合理的因为线索比UFM利用图像相似性的更多信息。线索图像分组到集群基于这样的成对间隔within-cluster相似度高;和群组之间相似性较低。结果似乎表明,在某种程度上,线索可以一起组语义相似的图像。

系统的评价

提供一个更客观的评价和比较,线索是测试的一个子集COREL数据库,由10图像类别,每个包含100张图片。类别是非洲、海滩、建筑、公共汽车、恐龙,大象、鲜花、马、山脉、和食品分别与1到10。在这个数据库中,知道两个图片是相同的语义。因此我们可以定量评估和比较的性能方面的线索的美好形象集群和检索精度。特别的美好形象测量聚类通过集群中分布的图像语义检索和图像被认为是正确的匹配当且仅当它是相同的类别查询图像这些假设是合理的,因为10类别选择,以便每个描绘了一个独特的语义主题。

善良的图像聚类

理想情况下,线索能够生成图像集群每个包含的图像相似甚至相同的语义。的混淆矩阵是一种衡量集群的数量需要的数量等于截然不同的语义,这在实践中是未知的。

查询示例

图像
虽然我们可以迫使线索总是生成10集群在这个实验中,实验的设置将被完全不同的一个真正的应用程序。所以我们使用纯洁和熵衡量集群的美好形象。
假设我们有一组图片属于c独特的类别(或语义)用1,c(在这个实验c≤10根据收集的图像由NNM)图像组m Cj集群时,j = 1, . .m .Purity Cj被定义为
图像
在哪里图像由图像Cj属于类别k和| Cj |代表一组的大小。每个集群可以包含图像不同的语义。纯度为主要语义类的比例大小在集群的集群大小本身。纯洁的价值总是在图像与一个更大的值意味着集群是一个“纯净”的主要语义类的子集。熵是另一个集群质量度量,定义如下:
Σ图像
由于熵认为语义类的分布在一个集群中,这是一个更全面的衡量比纯洁。请注意,我们有归一化熵值在0和1之间。纯度测量相反,附近一个熵值0意味着集群主要由1类别,而一个熵值接近1意味着集群包含所有类别的均匀混合物。
图像
每一个图像在1000 -图像数据库和查询测试。查询图像在一个语义范畴,以下统计计算:mi的意思,平均值和标准偏差(STDV) h的意思是(我)。此外,我们为每个查询计算Pnnm和Hnnm,分别是纯洁和熵的图像,由NNM和的均值Pnnm和Hnnm查询图像在一个语义范畴。结果总结在表1(第二和第三列)和图5。表1的第三列表明,集群的大小并不在一个类别差异很大。这是因为使用的启发式递归Ncut:总是把最大的集群。应该观察到图5的线索提供了优质集群在附近的一个查询的形象。与纯洁和熵产生的图像集合NNM,集群的质量由递归生成Ncut平均所有类别的最大改进除了5级,NNM产生相当的纯收藏离开小改进的余地

知道结果

图像
(一)9场比赛的11。
图像
(b) 7场比赛9。

UFM结果

图像
15(5)匹配
图像
图像
11 (b) 4场比赛
这图:比较的线索和UFM。查询图像左上角每个图像块的图像。下面的下划线数字图像数据库中的图像的ID数字。图像的左栏,其他数字集群ID(图像边框是集群)的代表形象。图像的右列,另两个数字之间UFM测量的值查询图像和图像匹配,图像中区域的数量。
日出(a) (b)球(c)鹦鹉(d)历史建筑。

检索精度

图像检索、纯度和熵本身可能无法提供全面的估计系统性能即使他们衡量图像质量的集群。因为会发生什么是语义的集合狂躁地纯图像集群但没人分享相同的语义与查询图像。因此,你需要考虑语义这些图像查询集群和图像之间的关系。为此,我们引入的正确分类率和平均精度
我们称之为一个查询图像被正确分类如果查询类别集群主导查询图像。正确分类率,Ct图像类别t被定义为图像的百分比在正确分类的类别t作为查询。这表明可能第一个集群的主要语义查询语义是一致的。第四列的表1列出了估计10个类别的CT用于我们的实验。注意,随机分配一个主要类别的查询图像集群将Ct值约为0.1
从一个系统用户的角度来看,Ctmay不是最重要的性能指标。即使第一个集群,查询图像所在,不包含任何图像语义相似查询图像,用户仍然可以考虑其余集群。所以我们使用精度。
衡量可能的用户会发现图像属于查询类别内一定数量的比赛。这里的精密计算的百分比图像属于的类别查询图像在100年第一次检索图像。召回=精度这特殊的情况,因为每个类别有100图片。NNM中的参数将是30,确保相邻图像生成的数量大于100。如2.5节中所述,集群的线性组织可能被视为一个结构化的集群按升序排序查询图像的距离。因此前100名检索图像根据集群的顺序。然后定义一个类别的平均精度t作为查询图像分类的精度。
图像
类别t然后定义为平均查询图像的精度测量类别t。图比较的平均精度与UFM获得的线索。很明显,提示执行比UFM 9 10个类别中(他们系在剩下的一个类别)。总体平均精度为10个类别是UFM 0.538为线索和0.477。

速度

线索一直奔腾III 700 mhz PC上实现运行Linux操作系统。比较速度的线索UFM[4],这是实现和测试在同一台计算机上,100个随机查询演示网站发布。线索需要平均0.8秒/查询相似度量评价、排序和聚类,而UFM需要0.7秒评估相似之处和对结果进行排序。数据库的大小是000的测试。虽然线索比UFM慢,因为额外的计算成本NNM和递归Ncut,执行时间仍然是在实时图像检索的宽容。

结论和未来的工作

介绍了线索,一种新颖的图像检索方案,基于一个非常简单的假设:语义相似的图片往往是集中在一些特征空间。线索的诱惑来检索图像语义连贯的集群的无监督学习相同的语义的图像是一样的。实证结果表明,这种假设似乎是合理的,当接近目标图像查询图像正在考虑中。线索是通用的方法,它可以结合任何实值对称图像相似性度量(公制或摘要)。因此它可能是嵌入在许多当前CBIR系统。线索的应用数据库60,000年通用图像表明,线索可以提供语义上更有意义的结果比现有的CBIR系统使用相同的系统用户相似性度量。数值评估显示良好的集群质量和提高检索精度。
线索也有一些局限性。
•当前使用的启发式递归Ncut总是分为两部分最大的集群。这是一个低的规则。但它可能将一个大型和纯集群分成几个集群即使存在一个小的集群和语义上更加多样化。
•当前集群方法找到代表形象并不总是给人一种语义准确的结果。在图4 (a)的示例中,一个期望形象是一只鸟形象代表。但是系统选择羊的形象。
•如果邻近的目标图像的数量大,缺乏统一的矩阵变成了检索速度的关键。不会导致当前加权的稀疏统一矩阵。
一个可能的未来方向是整合线索与基于关键字的图像检索方法。其他图理论聚类技术需要检测可能的性能改进。线索可能结合非线性降维技术。线索对图像的理解也可能有用。作为未来的工作,我们打算运用线索搜索、浏览和学习的概念,从数字图像对亚洲艺术和文化遗产。

数据乍一看

图1 图2
图1 图2

引用


















全球技术峰会