Digital image and video are largely used in various areas such as medicine, entertainment, education, digital broadcasting, digital library, and multimedia communication. With such vast amount of image, more efficient storage, indexing and retrieval of visual information are strongly required. While manual image annotations can be used to a certain extent to help image search, the feasibility of such an approach to large databases is a questionable issue. Content based image indexing and retrieval provide not only eliminating manual processing for image indexing but also automatic indexing according to image contents.
Among contents based features, texture is a fundamental objective feature, which provides significant information for scene interpretation and image classification. An image can be considered as a mosaic of textures and texture features associated with the regions can be used to index the image data. For instance, a user browsing an aerial image database may want to identify all parking lots in the image collection. A parking lot with cars parked at regular intervals is an excellent example of a textured pattern when viewed from a distance, such as in an air photo. Similarly, agricultural areas and vegetation patches are other examples of textures commonly found in aerial and satellite imagery. Examples of queries that could be supported in this context could include “Retrieval all Landsat images of Taejon which have less that 20% cloud cover” or “Find a vegetation patch that look like this region”. To support image retrieval or browsing, an efficient representation of textures is required.
In this paper, we propose a texture featuring technique defined in radon space, a texture descriptor based on human visual system (HVS), and a rotation- and scale- invariant similarity matching technique based on image retrieval. Texture descriptor is calculated by human visual filter bank designed in radon space.
To verify the performance of the proposed algorithm, computer simulations and experiments with MPEG-7 texture material were performed. And then it is shown that the proposed algorithm outperform other algorithms considered in MPEG-7, such as [4,5,15].
최근의 디지털 관련 기술의 발달과 네트워크 환경의 급격한 개선으로 인해 비주얼 멀티미디어 데이터들은 급격히 증가하고 있다. 이러한 급증하는 데이터들을 기존의 매뉴얼한 방법에 의해 관리 및 검색하는 것은 한계에 이미 도달하였다. 이에 따라 영상의 내용 특성에 기반한 효율적이며 효과적인 내용기반 영상 검색 기술의 개발이 요구되었다.텍스처는 영상의 중요한 내용특징의 하나로 내용 기반 비주얼 데이터베이스의 관리 및 검색 시에 반드시 필요한 기반 정보이다.
본 연구에서는 정지영상에서의 텍스처 특징 추출 및 표현 기술, 회전 및 크기 불변의 알고리즘 개발 등을 목표로 한다. 제안된 알고리즘의 성능 평가는 MPEG-7 CE로 제안되어 있는 방법들과 비교에서 수행하였다. 이때 실험데이터는 MPEG-7 실험 데이터 셋을 사용하였다.
텍스처는 영상의 균일 또는 불균일한 특성을 나타내는 내용 정보로서, 일상에서 흔히 접하는 옷감이나 벽돌의 무늬 등에서 쉽게 확인할 수 있다. 이러한 텍스처 정보는 최근 30 여년간 폭 넓게 연구되어 왔다. 그 결과 영상 편집 및 검색, 의료, 우주 항공, 대기 영상, 지질 관측 등의 다양한 분야에서 이용되고 있다. 이러한 텍스처 정보를 분석하려는 많은 시도들에서 과거에는 화소 간의 확률 분포, 방향성필터, 마르코프 랜덤 필드를 이용한 방법들이 연구되었으며, 최근에는 휴먼 비주얼 특성에 기반한 가보 필터와 웨이블릿 변환을 이용한 방법들이 주로 연구되고 있다.
본 연구에서는 휴먼 비주얼 특성에 기반하여 영상의 텍스처 특징을 추출하는 것과 함께 추출된 텍스처 특징에서 회전 및 크기 불변의 텍스처 영상을 검색할 수 있는 새로운 방법들을 제안하였다.
제안한 알고리즘에서 영상의 검색 과정은 라돈 변환, 휴먼 비주얼 필터에 의한 특징 추출 그리고 마지막의 유사도 측정의 3부분으로 구분된다.
먼저 라돈 변환은 2차원 영상 신호 f(x,y)를 1차원의 projection 신호$P_\theta(R)$로 변환하는 것으로, 임의의 각 간격 $\theta$에서 영상을 투사하여 1차원의 projection 들을 얻어내는 과정이다. 라돈 영역에서의 주파수 특성은 “central slice theorem”에 의해 설명된다. “central slice theorem”은 $P_\theta$($\lambda$)을 $P_\theta(R)$의 R에 대한 1차원 퓨리에 변환이라 할 때, 2차원 영상의 퓨리에 변환 정보 $F(\omega_x,\omega_y)$와 $P_\theta(\lambda)$가 동일한 주파수 특성을 갖는 것을 설명한다. 이러한 “central slice theorem”에 의해 주파수 영역에서 각 central slice가 영상의 projection과 직접적으로 관련되기 대문에 라돈 영역에서 휴먼 비주얼 특성의 방향성 필터의 사용할 수 있게 된다. 이와 함께 라돈 변환에 의해 주파수 영역에서의 영상은 저주파 영역에서 변환 전보다 많은 샘플 데이터를 가지게 되며, 고주파 영역에서는 적은 샘플 데이터를 가지게 된다. 이것은 휴먼 비주얼 특성과 관련된 저주파 정보 변화의 강조와 고주파 정보 변화의 중요도 감소로 설명되며, 따라서 라돈 변환이 수행된 영상 정보는 휴먼 비주얼 특성을 가지게 된다.
텍스처 특징 추출과정은 라돈 영역에서 각 방향과 지름 방향으로 주파수 영역을 분할하여 얻은 휴먼 비주얼 필터를 이용하여 정의된다. 이때 휴먼 비주얼 필터는 지름 방향에서 5개 영역으로 옥타브 분할로 나누며, 각 방향에서는 x-, y-축을 포함하는 30도의 각으로 균등 분할을 한다. 그림 3.3.은 이때 사용되는 $5\times6$의 휴먼 비주얼 필터를 보인다. 그림 3.3에서 보이는 필터의 주파수 분할은 저주파 정보에 민감하며 고주파 정보에 둔감한 일반적인 인간의 시각 특성에 부합하므로 휴먼 비주얼 특성에 기반한 텍스처 특징을 효과적으로 추출할 수 있다. 이러한 과정에서 텍스처 특징의 추출은 주파수 영역에서 라돈 데이터와 각 휴먼 비주얼 필터와의 곱에서 구해지는 에너지와 에너지의 편차들, 그리고 입력 영상에서 계산되는 평균 화소값과 편차로 정의된다.
위의 과정에서 정의된 텍스처 특징들에서 Mahalanobis distance measure를 이용한 유사도 측정 과정이 수행된다.
MPEG-7 실험 데이터를 이용한 제안한 알고리즘과 기존 방법과의 객관적인 성능 비교에서 제안한 알고리즘은 회전 및 크기 불변의 알고리즘을 포함한 다양한 실험 데이터에서 전반적으로 우수한 성능을 보였으며, 또한 영상에서 특징 추출시 0.15초 이내의 빠른 특징 추출시간을 보였다. 이러한 빠른 특징 추출 시간은 기존 방법이 특징 추출 시 입력 영상과 필터와의 convolution에서 야기되는 많은 계산량을 필요로 하는 것에 비해 제안된 알고리즘은 주파수 영역에서 특징을 추출하기에 상대적으로 큰 계산량을 감소하기에 가능한 것이다.
현재 제안 알고리즘은 MPEG-7에서 XM으로 채택되어 있으며, 향후 알고리즘의 보완 및 주관적 평가의 수행을 통해 객관적인 성능 및 시각적 인지도의 향상을 도모할 것이며, 이를 통해 국제 표준(IS)을 위한 지속적인 연구가 수행될 것이다.