Digital video is an emerging media type that can contain and deliver the spatiotemporal nature of this world. With the help of advanced computer and network technologies, massive amount of digital video materials have been rapidly produced and disseminated. Content-based video retrieval is one of crucial facilities required to support various kinds of video applications including video on demand, surveillance systems, and so on, which can benefit from the large number of digital video materials.
To provide content-based retrieval functionality, video data needs to be properly modeled and indexed based on its contents. In the efficient and effective content-based video modeling, it is natural to incorporate a video abstraction so as to select essential video content from various kinds and aspects of content features. Motion is such a kind of content feature, which is unique to video, that an effective content-based video retrieval system must allow users to search video materials by motion.
While required, motion in video is very difficult to deal with. This difficulty is largely due to the projective formation of the video and the temporal vagueness in human motion recognition. In the existing approaches, the latter ahs been dealt with by adopting the notion of temporal independence, while the former has often been handled by adopting the point motion model. Motion in video is then modeled in the form of point trajectory, where motions such as rotation, approach and dispersal cannot be represented. Moreover, only the spatial aspect of the motion takes part in the relevance decision under the temporal independence, where different motions with similar spatial information can hardly be discriminated.
In this paper, we propose a framework for motion-based video indexing that can serve as a basis for motion-based video retrieval. To deal with the former difficulty mentioned above, we adopt the affine motion model to describe the instantaneous state of a moving object, which is a popular model in the motion estimation era. Every motion in video is then modeled in the form of multidimensional sequence, whose element describes cumulative motion state with regard to some reference frame. Moreover, we adopt the notion of dynamic time-warping to deal with the latter difficulty of temporal vagueness. The similarity between motion states is devised to reflect the cost of transforming the one into the other, and dynamic time-warping distance is adopted as the overall motion similarity.
By modeling as above, the problem of searching video clips by motion becomes an instance of the problem of searching similar multidimensional sequences. When combined to dynamic time-warping distance measure, the problem of searching similar sequences is difficult to solve efficiently. Conventional approaches rely on the filtering framework to alleviate the well known drawbacks of dynamic time-warping distance, which mostly target unidimensional sequences so to lack the consideration on dimensionality. We propose several novel filtering measures that can be utilized in the filtering framework, leading the efficient solution for our problem. A few number of evaluations based on the synthetic sequences present the efficiency of our proposed method.
In the implementation of the motion-based shot retrieval system, the extraction of motion feature is crucial. Another important functionality to address is the shot discrimination, as the input video material is generally a concatenation of shots. We present surveys on each of the following successively: shot discrimination, motion estimation, frame segmentation and region tracking, and describe our choice of implementation to complete the system.
동영상은 시간에 따른 영상의 시각적 변화를 이용하여 사람들에게 시공간적 정보를 전달하는 매체이다. 급속히 증가하는 동영상 자료들로부터 사용자가 원하는 정보를 전달하는 동영상 자료를 찾기 위해서는 컨텐트(content)에 기반한 동영상 검색 방법이 필요하다. 움직임은 동영상이 전달되는 가장 기본적인 시공간적 정보이며, 컨텐트에 기반한 동영상 검색 기능을 제공함에 있어서 자주 고려된다. 샷(shot)은 움직임의 연속성을 보장하는 동영상의 가장 큰 단위이며, 움직임에 기반한 동영상 검색의 검색 단위로 적합하다.
움직임에 기반한 샷 검색 기능을 제공하기 위해서는 적절한 움직임 모델(model)을 바탕으로 샷들을 움직임에 따라 색인할 필요가 있다. 사용자의 검색 요청은 사용자가 질의한 움직임과 유사한 움직임을 포함하는 샷들을 색인에서 검색함으로써 처리된다. 기존의 움직임 기반 샷 검색 방법들은 객체의 실제 움직임을 모델링하는데의 어려움과 대체로 시간적으로 부정확한 움직임 질의를 처리하는데의 어려움으로 인해 사용자의 질의에 대해 때때로 적절하지 못한 결과를 반환한다.
본 논문에서는 이러한 문제점을 해결하기 위해서 영상에 나타나는 객체의 움직임을 보다 효과적으로 표현할 수 있는 움직임 모델과 이를 바탕으로 사용자가 질의한 움직임과 유사한 움직임을 시간적으로 유연하게 검색하는 움직임 검색 방법을 제안하였다. 움직임-기반 샷 검색 시스템의 한 부분으로서 제안된 움직임 모델은 움직임의 표현 방법과 움직임의 유사도로 나뉘어진다. 실제 움직임은 영상 평면으로 투영되면서 객체의 형태 변화를 수반하며, 이러한 형태 변화는 다양한 공간 변환으로 표현될 수 있다. 제안된 모델에서는 객체마다 움직임에 의한 형태 변화를 영상의 각 프레임 마다 공간변환의 일종인 어파인(affine) 변환으로 표현한다. 객체의 움직임은 시간에 따른 객체의 형태 변화로 볼 수 있으므로 6차원 값인 어파인 변환 파라미터의 순서열로 표현된다. 움직임에 의한 형태 변화의 유사도는 어파인 변환 파라미터들의 가장 유클리드 거리로 정의되며, 움직임의 유사도는 시간적으로 유연한 움직임 검색을 허용하기 위해 동적시간 정ㅇ합 방법을 이용하여 형태 변화의 유사도를 종합함으로써 계산된다.
동적 시간 정합을 사용한 순서열 검색의 경우 성능을 위해 일반적으로 주어진 질의와 유사하지 않은 순서열을 미리 걸러내는 필터링(filtering)방법이 사용된다. 필터링 방법의 성능은 필터링을 위한 계산값과 실제 유사도 사이의 차이에 좌우되며, 기존의 방법들은 차원에 따라 이 차이가 증가하는 문제 때문에 다차원 순서열의 경우 나쁜 성능을 보인다. 제안된 검색 방법은 기존 방법들에 비해 순서열을 구성하는 요소들이 많이 반영되는 값을 사용하여 필터링을 수행한다. 임의로 생성한 다차원 순서열을 기반으로 성능 평가를 수행한 결과, 제안된 방법은 순서열의 차언이 증가하는 경우에도 필터링 성능이 감소하지 않음으로써 기존 방법들에 비해 좋은 성능을 보였다.