一种基于知识库的图像对象自动识别方法--技术前沿--论文--机器视觉网

摘要：针对图像分析与对象识别的原理及图像数据的特征，采用ADO数据库访问技术，提出了一种图像对象的自动识别方法。首先建立对象视觉特征知识库，然后读取图像数据进行图像分析，通过相似度计算来确定各区域的对象名，最后将分析结果写入数据库，识别结果显示到界面上，从而实现数据库中图像对象的自动识别。实验结果表明了该方法的有效性。
关键词： 图像分析；对象识别；ADO；知识库

1引言

随着计算机技术应用领域的不断扩展，计算机自动模式识别方法也取得了令人满意的结果。数字图像处理技术、模式识别的数学运算方法都取得了突破性进展。本文模拟人类识别一个对象的过程，首先建立一个图像对象视觉特征知识库来作为计算机关于各对象的知识，在利用计算机对图像进行分割和特征自动提取的基础上，利用对象视觉特征知识库进行图像对象的自动识别。

2对象的视觉特征知识库建设

对象识别的任务是将图像分割出来的对象与文本提取的对象名对应起来。为此，需要建立对象的视觉特征知识库，其中存放的是一些对象模型，描述了这些常见对象的颜色、纹理、形状等视觉特征，即在一定的知识领域内根据人们对对象的认识，列出对象必须具有和可能具有的视觉特征和特征值（主要是颜色、纹理和形状特征）。表示形式为：Attribute= 。其中ai=Ф或特征值，Ф表示任意值。特征值可以用数值或文字表示，如颜色可以用颜色名或RGB值表示。表示ai的“∧(与)”、“∨(或)”逻辑范式，其中 “∧”表示 “同时具有”，“∨”表示“可以具有其中若干项”。
人类识别一个对象，主要是根据观察到的对象的外部视觉特征，以及对象的功能属性。对于功能属性，在一幅图像里以及相应Web页面里是很难提取得到的，所以这里，主要将对象的基本视觉特征（颜色，形状，纹理）入库，建立的对象视觉特征知识库。表1是研究中建立的知识库的结构：

该视觉特征知识库包括五个属性：
a．ID属性：数值类型，标识一个对象在知识库中的位置。
b．object_name属性：文本类型，记录对象名。
c．texture属性：文本类型，记录该对象的纹理特征。
d．form属性：文本类型，记录该对象的形状特征。
e．color属性：文本类型，记录该对象的颜色特征。
视觉特征知识库是对象识别系统中不可或缺的组成部分，此知识库的内容质量和正确性在很大程度上决定了图像对象识别的成败以及识别率的高低。同互联网的状况相同，人类的知识结构和容量都在飞速膨胀，所以知识库也需要有良好的适应能力。知识库需要在使用当中不断更新，补充新的内容，去除旧的内容。这样才能够像人类一样不断学习知识，提高机器的智能性。

3图像识别函数库的编写

图像识别函数库是实验系统中一个重要的数据类，用于对图像进行各种需要的操作。图像识别函数类（RecogDlg）对基本的图像读写和处理操作进行了封装，方便对图像进行分析和识别。
Imgout内部实现了图像的一些基本操作，主要功能包括：
(1) 图像格式转换：Imgout的图像读写操作采用的是DIB(Device Indepentent Bitmap) API函数库，支持BMP文件格式。图像库数据库中存储的图像都是从网页中下载的，大都是JPG、GIF等格式，需要将其转换为24位BMP位图。
(2) 图像缩放：互联网上的图像从格式到长宽比都千差万别，为了提高运算速度，将大于特定尺寸的图像缩小，以便对缩小后的图像进行处理。
(3) 图像分类：采用分级分类方法。对图片类图像利用颜色数区分为照片和图画,利用Hough 变换检测图像边缘，根据图像边缘中的直线比例区分人造物与自然物、图表与绘画，利用图像边缘的平均模糊度区分简笔画和工笔画。
(4) 图像主色调提取：采用在HS*B颜色空间中利用颜色直方图极大值法，进行颜色聚类和图像主色调提取，作为图像整体的颜色特征。
(5) 基于边缘的图像分割：首先用Roberts算子进行边缘检测得到灰度边缘图像，再用相对阈值法二值化得到二值边缘图像，对二值边缘图像进行边沿连接和消噪，最后提取面积较大的5个区域作为图像分割后的主要区域，包括图像背景区域和图像主体区域。
(6) 特征提取：对图像分割后得到的区域分别提取其颜色、形状、纹理、方向、位置、大小等特征。利用图像主色调提取算法[1]，提取区域的主色调作为其颜色特征；根据形状的特点，利用不变矩[2]等形状特征描述参数，对于简单的形状采用单个形状参数直接识别，对于较复杂的形状，采用BP神经网络[3]和支持向量机[4]进行模糊分类；纹理特征，则采用小波变换和Gabor滤波器等方法进行提取，利用BP神经网络和支持向量机两种分类器进行纹理分类；将区域的最小二阶矩轴[5]（最小惯量轴在二维平面上的等效轴）作为物体在图像中的方向；图像中物体的位置用物体的面积中心来表示；统计边界内部（也包括边界上）的像素的数目作为图像中物体的面积。
(7) 对象识别：是试验的关键。通过前面的图像分割，图像的对象区域就相应地分离出来了，但每个区域对应什么样的图像对象名仍然不能确定，需要利用从Web网页中提取的文本信息和图像分析与提取的视觉特征，结合图像对象视觉知识库进行识别，对每个目标区域冠名，实现图像对象的识别功能。
(8) 计算缩微图：一方面，在将图像数据以BLOB的形式存储在数据库中之前，将图像进行规一化，得到固定长宽的小图片，使图像库瘦身。另一方面，缩放后的图像便于基于图像内容的搜索引擎的缩略图显示。

4图像对象识别设计

在前面的基础之上，建立了图像对象识别的实验系统。从识别算法和系统框架进行论述，最后对图像对象识别的实验结果进行分析。

4.1系统框架

以Visual C++ 6.0作为开发工具，后台数据库系统采用Access 2003，采用面向对象的体系结构，具有较好的可移植性和可扩展性。系统结构图1所示：

4.2识别算法

将图像分割得到的区域及其提取的视觉特征记为Ⅰ，从Web网页中提取的图像对象名及其视觉特征描述词记为Ⅱ，知识库中图像对象名及其视觉特征记为Ⅲ。则对象识别的步骤如下：
首先，根据Ⅱ名，在图像对象视觉特征知识库中找到Ⅲ名，将两者的视觉特征整合，即用从Web网页中提取的Ⅱ的确定的视觉特征描述词替代Ⅲ的泛化形式（与或逻辑式）的视觉特征值，将整合的对象及其视觉特征记为Ⅳ。例如，在Web网页中的与图像相关的文本中有“白鸽子” 这个词，从中提取图像对象名 “鸽子”和颜色特征词“白”，即object=鸽子；color=白。图像对象视觉特征知识库Ⅲ中关于鸽子的知识表示为：object=鸽子；color=Ф∨褐∨白∨黑；texture=Ф∨羽毛；form=Ф∨椭圆∨凹多边形∨月牙形。则两者整合成：object=鸽子，color=白，texture=Ф∨羽毛，form=Ф∨椭圆∨凹多边形∨月牙形。
如果图像对象视觉特征知识库中没有从Web网页中提取的图像对象名，则先通过对象名词典来解决同类对象的查找。如果在对象名词典中也没有找到同类的对象名，或者找到的同类对象名没有在对象视觉特征知识库中出现，则此对象识别失败。
其次，计算Ⅰ与Ⅳ的每个视觉特征的相似度[6]

4.3识别结果

首先借助多媒体搜索与分析程序[7]，用“小学语文”作为关键词从网上搜索并下载了25000幅中文网页中的图像，保存至小学语文_Multimedia0数据库中。其中约1/3为“自然景物”、“动物”类图像，其余为人物、产品、绘画等类图像。从网页中图像的相关文本中提取每幅图像的主题词、对象名和对象的视觉特征词等，并基于主题词和视觉特征对图像分类。通过图像分析，提取图像的主色调比较容易，但分割图像，提取区域的形状、纹理等视觉特征，识别图像主体，对任意图像处理则很困难。因此，对全部的各种主题的25000幅图像进行分割和主体识别，识别的平均正确率平均约22%，尽管如此，基于知识库的图像对象识别对提高基于图像主题和主体特征的图像检索仍有重要意义。
实验表明，多媒体搜索与分析程序是否从网页中提取出主体对象名对识别的结果有很大影响，提取出对象名要比没有提取出对象名的识别率高。图2（a）、图2（b）分别是两种情况下的识别结果。该方法对于图像内容比较简单的自然风光、典型动物类图像、主体对象突出的图像以及Web文本描述清晰的图像，图像分割效果比较好，视觉特征识别的准确率较高，图像对象的识别率相对较高。

5结语

图像对象识别难度与是否有好的分割算法、是否建立更丰富的对象视觉特征知识库、是否有好的识别算法有很大的关系。其中图像分割的有效性，即能不能准确地将图像中的主体对象分割出来，对后期的识别结果将产生直接的影响，图像分割后，才能对目标进行提取和测量[8]。识别算法再完善，如果连对象都没有分割出来，识别结果也是不准确的。本文采用边缘分割方法，若配合纹理特征进行图像分割，分割效果会大有改善，这是作者今后的一个研究方向。

参考文献

[1]孟祥增等.一种利用颜色词检索图像的方法.中国图形图像学报.2005.3.
[2]章毓晋.图像处理和分析[M].北京：清华大学出版社,1999.3.
[3]李宏男.孙鸿敏.基于小波分析和神经网络的框架结构损伤诊断方法.地震工程与工程振动.2003.10.1.23(5).
[4]徐芳.燕琴.基于支持向量机的航空影像纹理分类研究.武汉大学学报信息科学版.2003.10.5.28(5).
[5]何东健编.数字图像处理[M].西安电子科技大学出版社.2003年.
[6]孟祥增.钟义信.基于知识的WWW图像中主体的识别.计算机工程与应用.2004.20.
[7]鹿文鹏. 面向Web的多媒体语义信息提取方法研究与实现 [D].山东师范大学硕士学位论文,2002.
[8]L.Lucchese, S.K.Mitra. ADVANCES IN COLOR IMAGE SEGMENTATION. Global Telecommunications Conference- Globecom’99.