排名的具有里程碑意义的图片

B.Chandirika¹,S.Selvarani²

头&副教授,MCA,法蒂玛学院马杜赖,印度
大学助理教授,MCA,法蒂玛,马杜赖,印度

文摘

一个里程碑是一个可识别的自然或人为特性用于导航,附近的一个功能,突出的环境,经常可见的很长一段距离。在现代使用,也适用于较小的结构或功能,已成为当地或国家的象征。本文提出了一种方法挖掘具有里程碑意义的图像严重污染图像集合从互联网收集,达到更大的准确性等传统问题的具有里程碑意义的认可。人,尤其是游客,有兴趣观看全球各地的地标位置的照片。从现有的图片集,自动识别地标方法只基于元数据,只有内容或使用两者的融合。某些计算机视觉技术也被用来为选定的地点选择标志性的图像。社会标签相关的时空信息很容易插入一般具有里程碑意义的识别的技术。摘要图像挖掘技术应用于相应的元数据来确定独立排名的图像。在第一阶段的处理,图像是集群基于全球外观描述符,使用特定的几何约束和集群细化。使用结构与运动技术,然后系统寄存器标志性的图像有效地生产具有里程碑意义的不同方面。 To improve coverage of the scene, these aspects are subsequently extended using additional, non-iconic views. Photographs relevant to each landmark tag were retrieved and distinctive visual features were extracted from them. The results for landmarks include names, geographic hierarchy and its visual features

关键字

具有里程碑意义的图像、集群、排名、视觉功能,标签

1。介绍

地球上越来越多的城市和景点每天从各种数码相机拍照,观看位置和角度、天气和光照条件;越来越多的被用户和标记照片上传照片分享网站。主要目标是有效地识别所有的照片实际上代表感兴趣的里程碑,并组织这些照片展示的空间和语义结构的地标。特别受欢迎的服务,比如Flickr[1]为视频图像和YouTube[2]已经彻底改变了网络媒体资源的可用性。有一些挑战,如污染、多样性和规模。

污染:在处理具有里程碑意义的图片集,观察到关键字和标记是准确的只有大约50%的时间。一大部分的输入图像包含的“噪音”,或图像无关利益的概念。

多样性:污染的问题不谈,即使是“有效的”描述的地标的程度的多样性。地标性建筑可能有多个方面,他们可能被拍到在一天中不同时段和不同天气条件下(图1)。这个数字代表了多样性的照片描绘“自由女神像”。有副本的雕像在纽约,拉斯维加斯、东京和巴黎。的外观图片建立在不同时间和天气条件。进一步复杂化的图片是仿(例如,人们打扮成雕像)和non-photorealistic表示。

规模:照片注释的典型集合与landmark-specific短语成千成千上万的图片。

特别是,用户提供的注释和元数据往往是不准确的[3]和噪声;照片是不同的质量;和大量仅使内容很难浏览和代表的方式提高而不是降低添加更多的照片了。此外,希望获取长尾理论”的地标,是不可能对每一个地标来训练分类器。这些挑战可以克服使用提供了数以千计的媒体为地标,提高代表的质量定位搜索。

图2。从Flickr图片返回的一个例子。是简单的,所有的图像视觉上非常相似,已从一个相对相似的位置[4]

解决具有里程碑意义的问题,首先,标签(短文本标签与图像相关的用户),然后元数据来检测标签位置和位置代表地标或地理特征。然后,视觉图像的分析与发现地标完成提取代表每个里程碑式的图像。这两个过程是有利的,因为视觉处理计算昂贵,常常难以捉摸,吵了。然后减少组给出图像作为输入生成一套多元化和代表的图像基于识别的一项具有里程碑意义的“规范化观点”(5、6)。使用各种图像处理方法,聚类完成的里程碑式的图片,以及产生这些图像之间的链接包含相同的视觉对象。基于聚类和生成的链接结构,顶部代表图像对于每一次这样的观点被选中。蔡et al .[7]的工作,例如,试图匹配具有里程碑意义的基于视觉特征的照片,之后改变的一组图像基于其位置上下文。在[3]中,作者调查了使用检测地标“搜索模型”的照片。在该应用程序中,重点是使用基于文本的关键词搜索的web图像收集训练数据集合。第一部分详细描述的过程是在[8],和由地理集群步骤之后得分步骤为每个标签在每个集群。 The second part of our proposed landmark identification is identifying individual tags. This set of tags and their location clusters is the input for our image analysis effort of creating representative views.

二世。通用系统架构和功能

我们的视觉位置的一般方法总结框架如图1所示。首先,给定一组图像(及其提取视觉特征)与一个里程碑,可视化聚类可以在执行组图片和各种常见的具有里程碑意义的观点。然后,一组启发式可以应用在这些视觉集群命令他们根据他们的代表性的地标。在每个集群可视化,排名根据他们的个人图像代表性也可以做。最后,一组总结图像提取通过选择排名最高的排名最高的集群和丢弃低级的集群和低级的图片。埃颜色和纹理特征可以捕捉典型的周期性空间布局照片。例如,在臀部塔的照片,白色的结构为中心对蓝天的预期。然而,许多其他地方也有类似的模式。局部特征描述符可以帮助识别现实世界对象的实际结构元素,并确保目标对象实际上是包含在照片;然而,这些局部描述符也很难帮助我们识别常用摄影作品描绘这些地标。 By combining these two types of descriptors, it can be ensured that the photos selected have both the expected photographic composition and actually contain the target landmark.

三世。处理步骤

图像聚类:

视觉特性可以用来发现的图片在一个给定的一组照片具有里程碑意义。希望集群将暴露的不同视图具有里程碑意义的:不同的角度,不同的部分结构,甚至外部和内部照片。聚类可以使用集群算法执行标准和直接的方法。全球(颜色和纹理特性,当地(筛选)特性不是用于集群由于高维度,但后来整合集群排名和图片。在任何集群的应用程序,选择正确的数量的集群是重要的,以确保合理的聚类结果。

几何验证和标志性的图像选择:

几何验证也可以选择标志性形象的选择。不同的集群技术可用于选择。空间和基于内容的集群网络和加权质心特征层次空间聚类、基于标签的位置,也不适合在每个图像具有里程碑意义的界限是未定义的,和基于距离的聚类技术集团标签从无关的地标。

重聚簇和排名:

低层次的集群可以被丢弃和隐藏的用户,因为他们认为包含lessrepresentative照片。几个启发式可以用来识别代表集群,假设这样的集群(1)应该包含来自许多不同的用户(即照片。,there is a broad interest in the photos from this cluster), (2) be visually cohesive (the same objects are being photographed or the same type of photos taken) and (3) contain photos that are distributed relatively uniformly in time.

集群得分机制:

•用户数量:用户的数量代表的照片从一个集群。这个指标可以用来代替照片的数量,以避免从单个用户情况很多照片偏见的结果。

•视觉一致性:描述的视觉特性来测量距离intra-cluster(集群中的照片之间的平均距离),和inter-cluster距离(照片之间的平均距离在集群和集群外的照片)。inter-cluster距离比intra-cluster距离计算和使用。高比率表明集群紧密形成,显示了一个视觉上一致的视图,而低比率表明,集群是嘈杂的,不得视觉连贯的,或类似于其他集群。

•集群连接:筛选功能可以用来可靠地建立联系不同的图像包含视图的一个位置。如果一个集群的照片与其他许多照片在同一个集群,集群可能代表,这些链接可能意味着一个相似的视图或对象,出现在许多照片。度量是基于平均每个集群中的照片的链接数量。

•日期的变化:标准差的日期在集群中的照片被考虑。偏好给集群高可变性的日期,因为这表明的观点是持久的兴趣。低变异性日期表明,集群中的照片拍摄大约在同一时间,集群可能相关的事件,而非地理特性或地标。

代表性的图片:

代表图像将展览品质的混合物:(1)代表图像将非常类似于其他集群中的图像,(2)代表图像将高度不同的随机图像在集群之外,和(3)代表图像将commonly-photographed当地结构从内部设置。

重建迭代过程

•低级自相似:测量图像是否相似集群中其他图像,所有的图像的质心在全球(颜色和纹理)低级特征空间和等级图像但质心的距离。每个功能维度统计规范化的意思是零,单位标准差和重心是每个特征维度的均值。每个集群内的图片然后排名的欧几里得距离重心。

•低级歧视建模:衡量一个给定的图像之间的不同在一个集群和图片以外的一个集群,一个歧视学习方法可以应用通过集群内的图像是pseudo-positives pseudo-negatives和外的图像集。最近的工作表明,这种轻量级的歧视模型(融合低层自相似性)可以大大提高图像的性能排名的应用[10]。

•逐点链接:上述低层次的自相似性和区别的建模方法使用全局低层特征和主要捕获全球出现复发和模式。这些指标不一定捕捉是否两个图像实际上是相同的现实世界的场景,或包含相同的对象。给定的任意两个重叠图像可以通过识别发现在这些图像兴趣点之间的对应关系。

代表图像为每个标签可以使用四种不同的提取技术:

1。Tag-Only:这种方法作为系统性能基线,随机选择10图像与相应的标签的数据集

2。标签位置:在第二个基线,系统可以随机选择10图像与相应tagthat属于集群标记提取的位置

3所示。Tag-Visual。图像是由我们的系统,运行上述视觉分析在所有照片。

4所示。Tag-Visual-Location:选择图片,通过运行可视化分析如上所述提取的照片,在一个集群。

四。结论

可以学到丰富的位置信息和地标自动从用户贡献了媒体在网络上共享。特别是,可能出现利益的集合地点从地理空间的拍摄模式。有意义的标记,表示这些位置和地标可以从标签,用户经常与图像。最后,视觉地标模型和地理特征可以通过采矿学许多个人获取和共享照片,可能生成的摘要frequently-photographed视图通过选择典型视图的地标和拒绝离群值。

诉未来的工作

几个复杂问题仍然来自地标性建筑的本质,以及用户标签适用于照片的方式。例如,一些地理标志可以作为一个点的照片,而不是照片的目标;这些照片往往与地理标记具有里程碑意义的照片的来源。例如,屁股塔frequently-photographed具有里程碑意义的,但许多与标记相关的照片屁股塔实际上是旧金山的天际线的照片,从塔顶的观景台。同样,博物馆和其他建筑物,预期的代表观点外分离的观点,以及识别的内部架构方面。用户可能还照片特别的艺术品和其他非代表性等地标建筑的内部视图。未来的工作可能探索最好的方法将这样一个系统整合到一个标准的基于web的图片搜索引擎。还解决方案应该合并的结果与传统的基于web的结果,新的结果演讲技巧可以用来利用视觉的知识集群和地图位置。一些答案比其他的更容易,但它肯定是很有希望的。

引用

Flickr.com, yahoo !公司http://www.ickr.com。
Youtube.com,谷歌(google inc .) http://www.youtube.com
l·肯尼迪S.-F。Chang和i Kozintsev搜索或标签吗?:预测基于搜索的性能自动图像分类器”,《第八届ACM国际研讨会上多媒体信息检索,249 - 258页,2006年。
马克·休斯,加雷斯·j·f·琼斯,“数字视频处理中心”,都柏林城市大学,诺埃尔·e·奥康纳,清晰传感器网络技术中心,爱尔兰,都柏林城市大学都柏林9日“图像模型具有里程碑意义的分类调查”
西蒙,n . Snavely和s·m·塞茨,“现场总结在线图像集合”,ICCV’07:学报11 IEEE计算机视觉国际会议上,IEEE, 2007。
美国帕尔默、e·罗斯奇和p .追逐“标准透视和知觉的对象。关注和表现“第九,135 - 151页,1981。
C.-M。蔡,a . Qamra和e . Chang”程度:从上下文推断图像元数据和内容”,IEEE国际多媒体会议和博览会,2005年。
埃亨,m .乃缦r·奈尔和j·杨,”世界资源管理器:可视化综合数据系统没有从非结构化文本集合。在第七学报”,ACM和ieee cs联合数字图书馆会议上,2007年5月。
拉胡尔Raguram·吴Changchang·Jan-Michael弗拉姆·斯维特拉娜Lazebnik,“建模和识别具有里程碑意义的图像集合”,用标志性的场景图,DARPA协助项目,NSF资助iis - 0916829, iis - 0845629, cns - 0751187,和其他美国政府资助
弗拉姆,,Pollefeys, M.: RANSAC, (quasi-)degenerate data (QDEGSAC), CVPR. Volume 1. (2006) 453–460