本文旨在阐述未来的图象搜索引擎架构及工作方式。
名词:
素材:经过加工,截选有效区域,用于特定类别图象特征归纳的图象。
对象:由图象中分离出来,需要识别的局部图象。
引擎:使用特征库组织图象索引的方法。
特征尺度:特定类别图象尺度范围。
图象分解:利用一些识别技术将图象分解为若干区域使对象与背景分离开来(可能会涉及硬件的发展,比如能测距及识别景深信息的双头摄像机)。
特征:用于特定类别图象内部区分的关键点,全部关键点构成该引擎下的特征库。
索引:某个图象所包含的特征值及其组织结构。
目录:按一定方式组织的一群索引。
我看到一个短片里的一个画面:一个女孩子坐在沙发上,天花板上的吊灯很漂亮。
我点暂停,让画面定格,然后右键执行搜索,打开的新窗口里,一些闪亮的轮廓线勾出各对象边缘,我点击吊灯,软件给出搜索结果,tag分别为“商业”、“资讯”等,我从“商业”tag里找我需要的信息。
图象到图象的搜索,图象分解过程是很重要的人机对话,机器要理解人,人必须给足够的互动信息。
图象识别引擎由核心标准组和外围分级引擎开发组织共同维护。
核心标准组负责与分级引擎的接口,以及目录的维护。
分级引擎开发组织则各自负责各自领域的识别技术研究,包括对象的识别(判定其是否在本领域范围内)、特征的抽象、特征库及引擎的推广。比如说商品图片可能在拍摄过程中就主动使用某个或某几个引擎对图象进行识别以生成该引擎下的索引,以方便该商品出现在网络上时用户得知其信息。
分级引擎定期向核心标准组提交特征库和更新的引擎识别算法,并向有关厂商提供。
核心标准组负责客户端软件的维护,包括各分级引擎算法和特征库的更新,图象分解算法的更新,图象搜索引擎目录的维护。以及用户查询结果的目录输出。
用户选定图象,框定目标,然后客户端计算出图象索引,上行到搜索引擎。
搜索引擎根据收到的用户索引,给出吻合程度高的目录。
用户点击以后,根据用户的点击(投票)对分级引擎的工作给予判断,并调整分级引擎的权重。
在起步阶段,图片所在网页的文字信息也可以提取特征(关键字)作为引擎算法的一部分。
这个链接是未来图像搜索工作方式http://blog.sina.com.cn/s/blog_59191ea601009qnl.html
关键不是算法,是素材采集,比如说,做个蔬菜比价应用,让人可以先把各种蔬菜图上传,你看到没买过的菜,拍一下,就出现价格比较、菜谱之类信息,还有口味评价……要有吸引用户的应用来让用户主动上传素材……