서지주요정보
Toward reliable microprocessors in nanometer-scale technologies = 나노스케일 공정에서의 고신뢰성 마이크로프로세서 설계 기법
서명 / 저자 Toward reliable microprocessors in nanometer-scale technologies = 나노스케일 공정에서의 고신뢰성 마이크로프로세서 설계 기법 / Seokin Hong.
발행사항 [대전 : 한국과학기술원, 2015].
Online Access 원문보기 원문인쇄

소장정보

등록번호

8029702

소장위치/청구기호

학술문화관(문화관) 보존서고

DCS 15031

휴대폰 전송

도서상태

이용가능(대출불가)

사유안내

반납예정일

리뷰정보

초록정보

For the last four decades, the continued scaling of CMOS process technology is one of the major driving forces of the semiconductor industry. As technology is advanced to the next generation, transistors become smaller, faster, and cheaper. Thus, the advance in the process technology gives opportunities for chip architects to develop high performance microprocessors. However, as microprocessors integrate more transistors, which are smaller and weaker, and become more complex, they are expected to experience more hardware faults. Thus, the cost-effective fault tolerance techniques are required to continue the success of the semiconductor industry. This dissertation proposes the cost-effective techniques to enhance the reliability of microprocessors in nanometer-scale technologies. In a microprocessor, there are a number of components. Among them, this dissertation focuses on the development of the fault-tolerance techniques for execution units and on-chip cache memories which are most frequently used and most vulnerable to hardware faults. In order to detect transient faults in the execution units, a simple fault detection technique, called TECA, is proposed by exploiting frequent small operand values of instructions and frequently used shift operations. The conditions of the applicable instructions for the proposed technique are explored. The applicable instructions are protected by duplicating operands in ALU directly while other instructions are protected using time redundancy. To tolerate permanent faults in the arithmetic/logic unit, a novel fault detection, diagnosis, and isolation technique, called LIZARD, are proposed. In the proposed technique, two half-word ALUs are employed instead of a single full-word ALU, to perform computations with concurrent fault detection. When a fault is detected, the two ALUs are partitioned into four quarter-word ALUs. After diagnosing and isolating a faulty quarter-word ALU, LIZARD continues its operation using the remaining ones, which can detect and isolate another fault. Even though LIZARD uses narrow ALUs for computations, it adds negligible performance overhead through exploiting predictability of the results in the arithmetic computations. In addition, the architectural modifications, required when employing LIZARD for scalar as well as superscalar processors, are presented. This dissertation also addresses process variation-induced permanent faults in the on-chip caches. The process variations cause large fluctuations in the access times of SRAM cells. Caches made of those SRAM cells cannot be accessed within the target clock cycle time, which reduces yield of processors. To combat these access time failures in caches, many schemes have been proposed, which are, however, limited in their coverage and do not scale well at high failure rates. In this dissertation, a new L1 (first level) cache architecture employing multi-cycle cell access and subarray-level parallel access is proposed. Multi-cycle cell access eliminates all access time failures in L1 caches. Subarray-level parallel access minimizes the performance impact of the multi-cycle cell access. For further performance improvement, architectural techniques are proposed. Finally, a simple-yet efficient technique is proposed to enhance the reliability of multi-level cell STT-RAM based on-chip cache memories. STT-RAM (Spin-transfer torque random access memory) is an emerging non-volatile memory technology that provides fast access time and low standby power with small feature size. Recently, MLC (multi-level cell) STT-RAM is proposed to enhance the data density of STT-RAM. However, the read stability and writability of MLC STT-RAM can be significantly reduced at nanometer-scale technology nodes due to process variations and random thermal fluctuations. To enhance the reliability of read operations of MLC STT-RAM, three-valued MLC STT-RAM is proposed. By reducing the data representation levels of a MLC cell, its read stability is significantly enhanced. In additions, to enhance writability, a reliable write mechanism is proposed. In this mechanism, a write operation is performed with a high current and terminated as soon as the data is written. Altogether, the hardware-fault tolerance techniques introduced in this dissertation enhance the reliability of the microprocessors with low costs. These cost-effective fault-tolerance techniques make possible to develop reliable microprocessors and increase their yield at unreliable process technology nodes. Since it is expected that the process technology becomes more unreliable, this is a key requirement to continue the advance in the process technology and microprocessors.

지난 40여 년간 반도체 생산 공정이 지속적으로 미세화 됨에 따라 반도체 산업은 급속도로 성장하였다. 생산 공정이 한 단계 더 미세화 될 때마다 트랜지스터는 더 작아지고 더 빨라졌으며 생산 단가는 낮아졌다. 이는 고성능 마이크로프로세서의 개발이 가능토록 하는 토대가 되었다. 하지만, 집적되는 트랜지스터의 수가 크게 늘고 이들 트랜지스터의 결함률이 높아짐에 따라 마이크로프로세서는 하드웨어 오류에 취약해 졌고 이로 인해 신뢰성은 더 낮아졌다. 마이크로프로세서의 신뢰성을 저하시키는 하드웨어 오류는 크게 일시적 오류(Transient fault)와 영구적 오류(Permanent fault)로 나누어진다. 일시적 오류는 저장되었던 데이터가 일시적으로 바뀌거나 로직이 잘못 작동하는 것으로 중성자선에 의한 소프트 에러(Soft error)가 주원인이다. 영구적 오류는 하드웨어가 지속적으로 오동작하는 것으로 공정 변이(Process variation), 공정 결함(Manufacturing defect), 마모(Wearout) 등에 의해 발생한다. 본 학위논문에서는 이러한 하드웨어 오류로부터 마이크로프로세서의 신뢰성을 향상시킬 수 있는 비용 효율적인 기법을 제안한다. 먼저 산술논리연산기에서 발생하는 일시적 오류를 검출하는 기법에 대해 논의 한다. 이 기법은 대부분의 프로그램에서 산술논리연산의 입력값이 매우 작다는 특징과 특정 쉬프트연산이 빈번하게 수행된다는 특징을 활용한다. 입력값의 크기가 작을 경우 하위 부분을 상위에 복제한 뒤 연산을 수행하고 그 결과값의 상위 부분과 하위 부분을 비교하여 오류 발생유무를 확인한다. 또한 자주 수행되는 쉬프트연산만을 지원하는 작은 크기의 쉬프터에서 쉬프트연산을 수행한 뒤 일반 쉬프터의 결과와 비교하여 오류발생유무를 확인한다. 이를 통해 오류 검출을 위한 하드웨어 비용을 크게 줄일 수 있음을 보인다. 두 번째로 영구적 오류에 강인한 산술논리연산기 설계 기법에 대해 논의한다. 하드웨어를 영구적 오류 에 강인하도록 설계하기 위해 일반적으로 3중화 기법(Triple modular redundancy)이 사용되지만 이 기법은 너무 큰 하드웨어 비용을 필요로 한다. 본 학위논문에서 제안하는 설계 기법은 산술논리연산 결과값의 상위 부분을 대부분의 경우 예측가능하다는 특징을 활용하여 하드웨어 비용을 최소화한다. 즉, n-비트 산술논리연 산을 수행하기 위해 n/2-비트 연산기 두 개를 사용하여 결과값의 하위 부분을 계산하고 상위 부분은 간단한 예측회로를 통해 구한다. 이때 두 연산기의 결과값을 비교하여 오류를 검출하고 오류가 발생한 부분을 사 용하지 않도록 연산기를 재구성한다. 이 후 산술논리연산기는 n/4-비트 산술논리연산기로 동작하여 동일한 방법으로 연산 및 오류 검출을 수행한다. 본 논문에서는 제안된 영구적 오류에 강인한 산술논리연산기를 포함하기 위한 마이크로프로세서 아키텍처에 대해서도 논의한다. 세 번째로 공정변이에 의한 영구적 오류에 강인한 온칩 캐쉬 메모리에 대해 논의한다. 반도체 공정이 미세화될 수록 공정 변이가 심해져 SRAM의 접근시간 편차가 점점 커진다. 이에 따라 SRAM(Static random access memory)으로 구성된 온칩 캐쉬에서 접근시간 오류가 많이 발생하게 되고 이는 프로세서의 수율을 크게 떨어뜨리게 된다. 이러한 문제를 해결하기 위해 본 학위논문에서 제안하는 온칩 캐쉬 구조는 멀티사이클 셀 접근기법(Multi-cycle cell access)과 서브어레이 단위 병렬 접근기법(Subarray-level parallel access)을 통해 설계된다. 멀티사이클 셀 접근기법을 통해 접근시간 오류를 원천적으로 차단하고 서브어레이 단위 병렬 접근기법을 통해 멀티사이클 셀 접근기법에 의한 성능 감소를 최소화한다. 이와 더불어 제안하는 온칩 캐쉬 메모리를 포함하기 위한 마이크로프로세서 아키텍처에 대해서도 논의한다. 마지막으로 멀티레벨 셀(Multi-level cell) STT-RAM(Spin-transfer torque random access memory) 에 기반한 온칩 캐쉬 메모리의 신뢰성 향상 기법에 대해 논의한다. STT-RAM은 크기가 매우 작고, 접근 시간이 SRAM에 근접할 정도로 빠르며, 누설전력(Leakage power)이 매우 적어 SRAM을 대체하여 온칩 캐쉬 메모리에 사용될 것으로 예상되고 있다. 최근에는 데이터 집적도를 높인 멀티레벨 셀 STT-RAM이 제안되었다. 하지만공정변이로인하여이셀의읽기및쓰기동작의신뢰성이매우낮은실정이다. 본 논문에서 제안하는 기법은 멀티레벨 셀의 데이터 집적도를 다소 낮춰 읽기 동작의 신뢰성을 크게 높인다. 이와 더불어 쓰기 동작을 높은 쓰기전류로 수행하고 원하는 값으로 쓰여진 시점에 바로 종료되도록 하여 쓰기 동작 신뢰성을 높인다. 반도체 생산 공정 미세화에 따른 수율 및 신뢰성 저하 문제는 향후 반도체 산업의 발전을 저하시키는 요인으로 작용할 가능성이 크다. 따라서 이를 효율적으로 해결하는 기법의 중요성은 더욱 커질 것이다. 본 논문에서 제안하는 기법들은 모두 저비용으로 마이크로프로세서의 신뢰성을 크게 높인다. 이 기법들은 계속되는 반도체 생산 공정의 미세화에 따른 마이크로프로세서의 수율 및 신뢰성 저하 문제를 해결하는 데 크게 기여할 수 있을 것이다.

서지기타정보

서지기타정보
청구기호 {DCS 15031
형태사항 xi, 135 p. : 삽화 ; 30 cm
언어 영어
일반주기 저자명의 한글표기 : 홍석인
지도교수의 영문표기 : Soontae Kim
지도교수의 한글표기 : 김순태
학위논문 학위논문(박사) - 한국과학기술원 : 전산학과,
서지주기 References : p. 114-128
QR CODE

책소개

전체보기

목차

전체보기

이 주제의 인기대출도서