서지주요정보
Object representation and segmentation methods for industrial applications = 산업 응용을 위한 물체 표현법 및 분할 방법론
서명 / 저자 Object representation and segmentation methods for industrial applications = 산업 응용을 위한 물체 표현법 및 분할 방법론 / Seong-heum Kim
저자명 김성흠 ; Kim, Seong-heum
발행사항 [대전 : 한국과학기술원, 2018].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8032430

소장위치/청구기호

학술문화관(문화관) 보존서고

DEE 18001

휴대폰 전송

도서상태

이용가능

대출가능

반납예정일

초록정보

In this dissertation, we address the question of how framing and labelling processes of our cognitive abilities can be computationally modelled for various industrial applications. Over the past decades, industrial jobs increasingly require too repetitive tasks that often needs very high accuracy. In the cases that a labour could not work, or the conditions for a human to work is not available, our focus is to introduce and demonstrate a new approach for artificial workers to perform the same tasks with better representation and segmentation methods. To be specific, we are interested in automating typical image editing tasks in media applications as well as a robotic assembly task in smart manufacturing. For the first sub-task, we investigate multi-view object representations for highly accurate foreground-background separation in digital content creation. By linearly increasing the dimension of available information, we take advantage of a geometric relationship between different viewpoints. On top of exploring unique 2D appearance models from a single viewpoint, we analyze how much the multi-view representation has some benefits for robust initialization and segmentation. For image editing, matting regions can be adaptively detected along the object boundaries based on information theory. Our final results are high-quality alpha mattes geometrically consistent across all different viewpoints. In addition to use multiple camera viewpoints, we study a new photometric object representation using a multi-band information such as RGB and NIR channels, and develop a semantic segmentation system for smart vehicle applications. Among all the input data, we observe salient information is critical in visual recognition. In the next sub-task, we present a CNN-based ranking system for automatically selecting natural bases and salient views of virtual 3D objects with arbitrary poses. Based on a large number of well-aligned 3D shapes and category-labelled 2D images, the data-driven solution needs category learning process for upright orientation and salient views of 3D models. Since direct annotations for the web data is not adequate, we make reasonable assumptions to come up with a way of utilizing category-labelled data for the supervised learning. Even in the slightly different context, our system fully utilizes the big data preserved by humans, thus the selected salient views for thumbnails or previews of 3D models are more appealing to humans than the other views from conventional view selection algorithms. We define a good view is a recognizable view, but we also analyze what is recognizable is actually category-specific. Lastly, we develop deep representations of industrial components with simulated images and from data-specific salient viewpoints. While CNN-based representations replacing all the hand-designed features, it requires a huge amount of human annotations. Hence, we introduce a photo-realistic simulation space in the near-infrared band that minimizes the domain differences between real and simulated appearances. By doing so, we can learn BRDFs of various industrial components and their fine-grained shape variations from real-world and simulated data, and improve the recognition performance with mixed data. Based on our experimental results, we discuss how the simulated samples interpolate real-world samples and stabilize the training process. In addition, we select category-independent and category-specific viewpoints on target objects and analyze the benefits in recognition performance. After modifying the state-of-the-art CNN architectures for detection and semantic segmentation methods, we demonstrate component retrieval and pixel-level localization in the context of robotic assembly automation. For all the sub-tasks, the purpose of this dissertation is to provide theoretical grounds and experimental confirmation in our new approaches to object representations and segmentation methods. After overcoming several technical issues in challenging conditions, we qualitatively and quantitatively validate the methods with various examples, and demonstrate interesting applications for each industrial field.

본 논문에서는 우리의 시각 능력이 어떻게 계산적으로 모델링 되어 산업에 응용될 수 있을지에 대해 다룬다. 지난 수년간의 산업 발전에서, 노동의 형태가 매우 반복적이면서 높은 정확성을 요구하는 것으로 고도화되고 있다. 이와 같이 인간이 수행하기 어려운 노동 조건에서 작업을 수행하기 위한 비전 시스템들이 제안되며, 각각의 구체적인 목표에 따라 물체를 표현하는 방법과 개체 별로 이들을 분할하는 방법에 대해 논한다. 이러한 방법론으로 미디어 분야에서 영상을 편집하기 위한 반복적인 작업을 자동화한다거나 다양한 부품을 조립하여 제품을 생산하는 제조 산업 응용 문제 등에 적용해 볼 수 있다. 첫번째 주제에서는, 디지털 콘텐츠 생성을 위해 다시점 물체의 정교한 전배경 마스크를 구한다. 다양한 시점으로 관찰된 물체를 동시에 추출하는 방법론을 위해 제안되는 다시점 표현법에서는 물체의 3D를 복원하기 위해 배치된 여러 카메라 시점의 기하학적 정보와 함께 각 시점 별로 획득되는 고유한 2D 시각 패턴을 동시에 고려하며, 이러한 표현법이 물체 분할을 위한 초기화, 최적화에 어떤 효과를 가지는지 분석한다. 또한 고품질의 영상 편집을 위해 추정된 물체 경계를 따라 매팅이 필요한 영역을 적응적으로 탐지하게 되며, 최종적으로 모든 시점에서 기하학적으로 일관된 알파 마스크를 출력하게 된다. 이와 같이 여러 개의 시점 정보를 동시에 활용하는 것처럼, 광학적으로도 여러 대역, 예를 들어 RGB와 NIR 채널 정보를 함께 고려하는 표현법을 검토하여, 지능 자동차 응용에 적용한다. 여기서 우리는 많은 입력 정보에서도 특히 두드러진 정보가 인식에 중요한 역할을 한다는 것을 관찰하게 된다. 두번째 주제에서는, 3D 콘텐츠 저작 도구로 심층 구조 기반의 랭킹 시스템을 통하여 자동으로 임의의 물체 자세의 자연스러운 지면과 두드러진 시점을 선택한다. 인터넷에서 수집되는 정렬된 3D 모델과 카테고리가 잘 분류된 2D 이미지를 통한 본 데이터 기반 접근법은 물체의 카테고리를 학습하는 과정을 통해 물체 지면에 대한 올바른 법선 방향과 3D 모델의 두드러진 시점을 배우게 된다. 여기서의 정확한 라벨 데이터는 충분한 양의 수집이 어렵고, 이를 각 데이터의 카테고리 라벨로 대신하여 교사 학습을 수행하게 된다. 다소 다른 문맥에서 학습된 결과지만, 제안하는 방법론은 사람들에 의해 보존되는 데이터를 최대한 활용하고, 따라서 선택된 시점들은 기존의 시점 선택 알고리즘을 통한 시점들에 비해 사람에게 더욱 호소력이 있다. 동일한 물체라도 시점에 따라 인식되는 정보량이 동일하지 않음에 주목하며 좋은 시점을 인식할 수 있는 시점으로 정의하지만, 인식 가능한 것은 결국 카테고리를 학습하는 과정과 밀접히 연결된다는 것이 분석된다. 세번째 주제에서는, 산업 부품을 위한 심층 구조 모델들과 이를 시뮬레이션 데이터로 학습하는 방법론, 두드러진 시점을 활용하는 방법론을 살펴 본다. 최근 심층 구조 표현법이 거의 모든 인식 분야에서 독보적인 표준을 제시하면서, 각 응용 분야에 대한 데이터 수집이 큰 이슈가 되고 있다. 이러한 배경에서, 실제 물리 세계와의 차이를 최소화할 수 있는 시뮬레이션 공간을 세워, 산업 부품의 BRDFs 매질과 부품의 세밀한 형태 차이를 학습하는데 효과적으로 활용한다. 또한 실사를 정교하게 모방한 시뮬레이션 샘플들은 실제 샘플들을 보간하며, 학습에 긍정적인 효과를 주는 것으로 관찰된다. 추가적으로 부품 인식에 유리한 시점들을 선택하고, 인식 성능에 의미 있는 변화를 확인한다. 최신 심층 구조를 개선하여 부품 판별 및 분할 방법론에 활용하고, 관찰된 산업 부품의 정확한 모델을 검색 및 픽셀 수준의 위치 추정을 통한 자세 추정으로 로봇 조립 응용에 적용한다. 모든 주제에서 본 논문이 목표하는 것은 산업 응용을 위해 물체 표현 및 분할을 다루는 각 접근법에 대한 이론적 근거와 실험적 확인이다. 도전적인 조건에서 여러 기술적 이슈를 극복한 후, 우리는 제안하는 방법론을 질적, 양적 실험으로 검증하고, 각 산업 응용 분야마다 흥미로운 결과들을 보여준다.

서지기타정보

서지기타정보
청구기호 {DEE 18001
형태사항 x, 105 p. : 삽도 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 김성흠
지도교수의 한글표기 : 권인소
지도교수의 영문표기 : In So Kweon
학위논문 학위논문(박사) - 한국과학기술원 : 전기및전자공학부,
서지주기 참고문헌 : p. 93-102
주제 Object representation
Semantic segmentation
Matting refinement
Best view selection
Robotic assebly automation
물체 표현법
분할 방법론
영상 매팅
최적 시점 찾기
로봇 조립 자동화
QR CODE qr code