Computer Architecture - Ch1

컴퓨터 아키텍처 Chapter 1: 정량적 설계와 분석의 기초 | Complete Guide 2026
COMPUTER ARCHITECTURE · CHAPTER 1

정량적 설계와 분석의 기초
Fundamentals of Quantitative Design and Analysis

Hennessy & Patterson의 고전 Computer Architecture: A Quantitative Approach의 핵심을 2026년 최신 기술 트렌드와 함께 정리합니다. 컴퓨터 설계의 근본 원리부터 암달의 법칙, RISC-V 혁명, 2nm 공정 경쟁까지.

📋 목차 (Table of Contents)
  • 01  서론 — 65년의 혁신, 그리고 전환점
  • 02  컴퓨터의 5가지 클래스
  • 03  컴퓨터 아키텍처 정의 — ISA를 넘어서
  • 04  병렬성의 분류 — Flynn's Taxonomy
  • 05  기술 트렌드 — 무어의 법칙과 그 이후
  • 06  전력과 에너지 — 현대 설계의 최대 도전
  • 07  비용 트렌드 — IC 제조의 경제학
  • 08  신뢰성 — MTTF, 가용성, 그리고 중복성
  • 09  성능 측정 — 벤치마크의 세계
  • 10  정량적 설계 원칙 — 암달의 법칙
  • 11  🔥 2026 업데이트 — 2nm, RISC-V, 칩렛
  • 12  결론 — 핵심 정리와 시사점

🚀 01. 서론 — 65년의 혁신, 그리고 전환점

컴퓨터 기술은 최초의 범용 전자 컴퓨터가 만들어진 이후 약 65년간 놀라운 발전을 이루었습니다. 오늘날 500달러 미만으로 구매할 수 있는 모바일 컴퓨터는 1985년에 100만 달러로 구매한 컴퓨터보다 더 높은 성능, 더 많은 메모리, 더 큰 저장 용량을 갖추고 있습니다.

이 급속한 발전은 두 가지 원동력에서 비롯되었습니다. 바로 반도체 제조 기술의 발전컴퓨터 설계(아키텍처)의 혁신입니다. 특히 1986년부터 2003년까지의 17년간은 연간 52%라는 전례 없는 성능 향상률을 기록했습니다. 이는 RISC 아키텍처의 등장, 파이프라이닝, 캐시 최적화, 분기 예측, 추론적 실행 같은 혁신적 기법들이 결합된 결과입니다.

25,000× 1978년 대비 성능 향상
52% 연간 성능 향상률 (1986~2003)
22% 연간 성능 향상률 (2003~현재)

2003년의 전환점: 공냉 칩의 최대 전력 소산 한계와 효율적으로 활용 가능한 ILP(Instruction-Level Parallelism)의 고갈로 인해 단일 프로세서 성능 향상이 급격히 둔화되었습니다. 2004년 Intel은 고성능 단일프로세서 프로젝트를 취소하고, 칩당 다수의 프로세서(멀티코어)를 통한 성능 향상 로드맵을 발표했습니다. 이는 ILP에서 DLP, TLP, RLP로의 역사적 전환을 의미합니다.

🔄 패러다임의 전환 — 명시적 병렬성의 시대

ILP 시대에는 컴파일러와 하드웨어가 암묵적으로(implicitly) 병렬성을 활용했기에 프로그래머의 특별한 노력이 불필요했습니다. 그러나 현대의 DLP(데이터 레벨), TLP(스레드 레벨), RLP(요청 레벨) 병렬성은 명시적(explicitly)이며, 프로그래머가 애플리케이션을 재구조화해야만 활용할 수 있습니다. 이것이 오늘날 소프트웨어 개발자에게 새로운 부담이자 도전입니다.

💻 02. 컴퓨터의 5가지 클래스

현대 컴퓨팅 환경은 애플리케이션, 요구사항, 기술에 따라 5가지 주요 클래스로 분류됩니다. 각 클래스는 고유한 설계 최적화 목표를 가지고 있으며, 이를 이해하는 것이 아키텍처 설계의 출발점입니다.

클래스 가격 범위 핵심 설계 이슈 대표 예시
📱 PMD $100~$1,000 비용, 에너지 효율, 미디어 성능, 응답성 스마트폰, 태블릿
🖥️ 데스크톱 $300~$2,500 가격 대비 성능, 에너지, 그래픽 성능 PC, 노트북, 워크스테이션
🏢 서버 $5K~$10M 처리량, 가용성, 확장성, 에너지 엔터프라이즈 서버, DB 서버
☁️ WSC $100K~$200M 가격 대비 성능, 처리량, 에너지 비례성 Google, AWS, Azure 데이터센터
🔧 임베디드 $10~$100K 가격, 에너지, 애플리케이션 특화 성능 자동차 ECU, IoT, 네트워크 스위치

📱 PMD (Personal Mobile Device)

스마트폰과 태블릿으로 대표되는 PMD는 에너지 효율이 최우선 설계 목표입니다. 배터리 사용에 의한 제약뿐 아니라, 저렴한 플라스틱 패키징과 팬 없는 냉각 방식도 전력 소비를 제한합니다. 저장 장치로 자기 디스크 대신 플래시 메모리를 사용하며, 실시간 성능 요구사항(비디오 재생 시 프레임 처리 시간 제한 등)을 충족해야 합니다.

☁️ WSC (Warehouse-Scale Computer)

SaaS(Software as a Service)의 성장과 함께 등장한 WSC는 수만 대의 서버가 하나의 거대한 컴퓨터처럼 작동합니다. 9천만 달러 규모의 데이터센터에서 비용의 80%가 전력과 냉각에 사용됩니다. 컴퓨터 장비와 네트워킹 기어에 추가로 7천만 달러가 투입되며, 이 장비는 수년마다 교체해야 합니다. 10%의 가격 대비 성능 향상이 곧 700만 달러의 절감을 의미하는 규모입니다.

🏗️ 03. 컴퓨터 아키텍처의 정의 — ISA를 넘어서

"컴퓨터 아키텍처"는 단순히 명령어 집합 설계(ISA)만을 의미하지 않습니다. 현대적 정의에서 아키텍처는 ISA + 조직(Organization/Microarchitecture) + 하드웨어 구현의 세 가지 측면을 모두 포괄합니다.

컴퓨터 아키텍처의 3가지 계층
ISA
명령어 집합 아키텍처
Organization
마이크로아키텍처
Hardware
물리적 구현
소프트웨어/하드웨어 경계 ← ISA → 설계 결정 ← Organization → 실리콘 구현 ← Hardware

📐 ISA의 7가지 차원

ISA는 프로그래머에게 보이는(programmer-visible) 명령어 집합으로, 소프트웨어와 하드웨어 사이의 경계입니다. 다음 7가지 차원으로 정의됩니다.

1️⃣ ISA 클래스

범용 레지스터 아키텍처가 표준. 레지스터-메모리(x86) vs 로드-스토어(ARM, MIPS, RISC-V)

2️⃣ 메모리 주소지정

바이트 주소지정이 표준. 정렬(alignment) 요구사항 차이. ARM/MIPS는 정렬 필수, x86은 선택적

3️⃣ 주소지정 모드

Register, Immediate, Displacement 등. x86이 가장 풍부한 모드 지원

4️⃣ 피연산자 타입/크기

8비트(ASCII) ~ 64비트(long integer), IEEE 754 부동소수점 (32/64비트)

5️⃣ 연산 종류

데이터 전송, 산술/논리, 제어(분기/점프), 부동소수점 연산

6️⃣ 제어 흐름 명령어

조건 분기, 무조건 점프, 프로시저 호출/복귀. PC-relative 주소지정 공통 사용

7️⃣ ISA 인코딩

고정 길이(ARM/MIPS 32비트) vs 가변 길이(x86 1~18바이트). 고정은 디코딩 단순, 가변은 코드 밀도 우수

💡 핵심 개념: Organization vs Hardware

Organization (마이크로아키텍처): 메모리 시스템, 인터커넥트, CPU 내부 설계(파이프라인, 캐시 구조) 등 고수준 설계 결정. 예: AMD Opteron과 Intel Core i7은 같은 x86 ISA를 구현하지만, 파이프라인과 캐시 조직이 완전히 다릅니다.

Hardware: 세부 로직 설계, 클럭 속도, 패키징 기술 등 물리적 구현. 예: Intel Core i7과 Xeon은 거의 동일한 조직이지만, 클럭과 메모리 시스템이 달라 서버 vs 데스크톱 용도에 최적화됩니다.

⚡ 04. 병렬성의 분류 — Flynn's Taxonomy

애플리케이션에는 두 가지 기본적인 병렬성이 존재합니다. DLP(데이터 레벨 병렬성)는 동시에 처리 가능한 다수의 데이터 항목이 있을 때 발생하고, TLP(태스크 레벨 병렬성)는 독립적으로 병렬 수행 가능한 작업 단위가 만들어질 때 발생합니다.

하드웨어는 이 두 종류의 병렬성을 4가지 방식으로 활용합니다. Michael Flynn(1966)이 제안한 분류법은 오늘날까지 사용됩니다.

분류 명령어 스트림 데이터 스트림 활용 병렬성 대표 예시
SISD 단일 단일 ILP (파이프라인, 추론적 실행) 전통적 단일코어 CPU
SIMD 단일 다중 DLP (벡터, SIMD 확장, GPU) GPU, AVX/NEON 유닛
MISD 다중 단일 (상용 구현 없음)
MIMD 다중 다중 TLP, RLP 멀티코어, 클러스터, WSC

📈 05. 기술 트렌드 — 무어의 법칙과 그 이후

성공적인 ISA는 수십 년간 지속되어야 합니다(IBM 메인프레임의 ISA는 약 50년 이상 사용 중). 따라서 아키텍트는 급변하는 구현 기술의 트렌드를 이해하고 이에 맞게 설계해야 합니다.

🔬 5가지 핵심 구현 기술

기술 성장률 배가 주기 핵심 포인트
IC 로직 트랜지스터 밀도 ~35%/yr 18~24개월 무어의 법칙. 다이 크기 증가는 10~20%/yr
DRAM 용량 25~40%/yr 2~3년 성장률 지속 둔화. 3D DRAM 기술로 전환 중
Flash 용량 50~60%/yr ~2년 PMD 표준 저장장치. DRAM 대비 15~20배 저렴
자기 디스크 밀도 ~40%/yr ~3년 Flash 대비 15~25배, DRAM 대비 300~500배 저렴
네트워크 대역폭 급증 대역폭 향상이 레이턴시 개선을 크게 앞섬

📊 대역폭 vs 레이턴시의 법칙: 지난 30년간 대역폭은 300X~25,000X 향상된 반면, 레이턴시는 6X~80X 개선에 그쳤습니다. 경험적 법칙으로, 대역폭은 레이턴시 개선의 제곱 이상으로 성장합니다. 컴퓨터 설계자는 이에 맞춰 설계해야 합니다.

🔧 트랜지스터 vs 와이어 스케일링

트랜지스터 성능은 피처 사이즈 축소에 따라 선형적으로 향상되지만, 와이어(배선)의 신호 지연은 오히려 악화됩니다. 와이어 지연은 저항 × 커패시턴스의 곱에 비례하며, 피처 사이즈가 줄어들면 단위 길이당 저항과 커패시턴스가 모두 나빠집니다. 이로 인해 와이어 지연이 현대 IC 설계에서 트랜지스터 스위칭 지연보다 더 큰 제약이 되고 있으며, 전력 소비는 이 두 가지보다 더 큰 역할을 합니다.

🔋 06. 전력과 에너지 — 현대 설계의 최대 도전

오늘날 전력은 거의 모든 클래스의 컴퓨터에서 가장 큰 설계 과제입니다. 전력은 칩으로 공급되어 분배되어야 하고(수백 개의 핀과 다중 인터커넥트 레이어 사용), 열로 소산되어 제거되어야 합니다.

⚙️ 시스템 관점의 3가지 전력 관심사

1. 최대 전력 (Peak Power)

프로세서가 요구하는 최대 전력. 전원 공급 용량을 초과하면 전압 강하로 오동작 발생. 현대 프로세서는 VID(Voltage Indexing)로 전압을 조절하여 대응

2. TDP (열설계전력)

냉각 시스템 설계 기준. 피크 전력(보통 TDP의 1.5배)이나 실제 평균 전력과 다름. 온도 초과 시 클럭 감속 → 강제 전원 차단 순서로 보호

3. 에너지 효율

전력(W) = 에너지(J) / 시간(s). 프로세서 비교 시 에너지가 올바른 메트릭. 동일 작업에서 에너지를 비교해야 정확한 판단 가능

📐 CMOS 동적 에너지/전력 공식

Edynamic ∝ ½ × Cload × V²
단일 전환(0→1 또는 1→0)의 에너지
Pdynamic ∝ ½ × Cload × V² × fswitched
동적 전력 = 에너지 × 스위칭 주파수
💡 예제: 전압 15% 감소의 효과

전압을 15% 낮추면 주파수도 15% 감소한다고 가정할 때:

에너지 감소: (0.85)² = 0.72 → 원래의 72%로 감소 (28% 절감)

전력 감소: 0.72 × 0.85 = 0.61 → 원래의 61%로 감소 (39% 절감)

이것이 DVFS(Dynamic Voltage-Frequency Scaling)의 핵심 원리입니다.

🛡️ 에너지 효율을 위한 4가지 전략

① Do Nothing Well (유휴 시 절전): 비활성 모듈의 클럭을 차단합니다. FP 명령어가 실행되지 않으면 FPU 클럭을 비활성화하고, 유휴 코어의 클럭을 중지합니다.

② DVFS (동적 전압-주파수 스케일링): 저활동 기간에 낮은 클럭과 전압으로 동작합니다. 서버 전체 전력의 10~15%를 각 단계마다 절감할 수 있습니다.

③ Design for Typical Case (일반적 사례 최적화): DRAM과 디스크의 저전력 모드 활용. 온칩 온도 센서를 통한 과열 시 자동 감속 메커니즘을 갖춥니다.

④ Overclocking (터보 모드): Intel은 2008년부터 Turbo 모드를 제공합니다. 안전한 범위 내에서 일시적으로 높은 클럭(약 10% 이상)으로 동작하며, 단일 스레드 코드에서는 나머지 코어를 끄고 하나의 코어를 더 높은 클럭으로 구동합니다.

정적 전력 (누설 전류)

트랜지스터가 꺼져 있어도 누설 전류가 흐릅니다. 2011년 기준 총 전력의 25%가 목표이며, 고성능 칩에서는 50%에 달하기도 합니다. 유일한 해결책은 Power Gating(전원 차단)으로 비활성 모듈의 전원을 완전히 차단하는 것입니다.

Pstatic ∝ Ileakage × V
정적 전력: 트랜지스터 수에 비례 — 증가하면 유휴 시에도 전력 소비 증가

💰 07. 비용 트렌드 — IC 제조의 경제학

컴퓨터 설계에서 비용은 성능만큼 중요합니다. SoC(System on Chip)에 대한 의존도가 높아지면서, IC 비용이 곧 시스템 비용의 핵심이 되었습니다.

📊 IC 비용 공식

다이 비용 = 웨이퍼 비용 / (웨이퍼당 다이 수 × 다이 수율)
다이 수율 = 1 / (1 + 결함밀도 × 다이면적)N
Bose-Einstein 수율 모델. N = 공정 복잡도 인자 (40nm 기준 11.5~15.5)
💡 예제: 다이 크기가 비용에 미치는 영향

300mm 웨이퍼, 결함밀도 0.031/cm², N=13.5, 웨이퍼 비용 $5,500 기준으로 계산하면:

1.0cm² 다이: 웨이퍼당 640개, 수율 66% → 양품 424개 → 다이당 ~$13

2.25cm² 다이: 웨이퍼당 270개, 수율 40% → 양품 109개 → 다이당 ~$51

다이 면적이 2.25배 커지면 비용은 약 4배로 증가합니다. 실제로 양품 다이 수는 면적의 제곱에 대략 반비례합니다.

📉 비용을 낮추는 3대 요소

학습 곡선(Learning Curve): 시간이 지남에 따라 수율이 개선되면서 제조 비용이 감소합니다. 수율이 2배가 되면 비용은 절반이 됩니다.

볼륨 효과: 생산량이 2배가 될 때마다 비용이 약 10% 감소합니다. 또한 개발 비용의 분산 효과로 대당 비용이 더욱 낮아집니다.

상품화(Commoditization): DRAM, Flash, 디스크 같은 상품화된 부품은 다수 공급업체 간의 경쟁으로 가격이 크게 하락합니다. PC 산업의 저가 구간이 더 나은 가격 대비 성능을 달성하는 이유입니다.

🛡️ 08. 신뢰성 — MTTF, 가용성, 중복성

32nm 이하의 미세 공정에서는 일시적(transient) 및 영구적(permanent) 결함이 모두 증가하여, 아키텍트가 이를 설계적으로 대응해야 합니다. 시스템은 서비스 수행(정상)서비스 중단(장애) 두 상태를 오가며, SLA/SLO로 정상 여부를 판단합니다.

MTBF = MTTF + MTTR
평균 고장 간격 = 평균 고장 시간 + 평균 수리 시간
가용성 = MTTF / (MTTF + MTTR)
FIT(Failures In Time) = 10억 시간당 고장 수. MTTF 100만 시간 = 1000 FIT
💡 예제: 디스크 서브시스템 MTTF 계산

구성: 디스크 10개(각 100만시간), ATA 컨트롤러 1개(50만시간), 전원공급기 1개(20만시간), 팬 1개(20만시간), ATA 케이블 1개(100만시간)

시스템 고장률 = (10/100만 + 1/50만 + 1/20만 + 1/20만 + 1/100만) = 23/100만 = 23,000 FIT

시스템 MTTF = 1/고장률 ≈ 43,500시간 (약 5년 미만)

중복 전원공급기 적용 시: MTTF_pair = MTTF²/(2×MTTR) = 200,000²/(2×24) ≈ 8억 3천만 시간 → 단일 대비 4,150배 신뢰성 향상!

📊 09. 성능 측정 — 벤치마크와 SPECRatio

성능의 유일하게 일관되고 신뢰할 수 있는 척도는 실제 프로그램의 실행 시간입니다. "X가 Y보다 n배 빠르다"는 다음을 의미합니다:

n = 실행시간Y / 실행시간X = 성능X / 성능Y

🏆 SPEC 벤치마크 스위트

가장 성공적인 표준 벤치마크 중 하나인 SPEC CPU2006은 12개의 정수 벤치마크(CINT2006)와 17개의 부동소수점 벤치마크(CFP2006)로 구성됩니다. 실제 프로그램을 이식 가능하게 수정하고, I/O의 영향을 최소화한 것이 특징입니다.

SPEC은 SPECRatio로 결과를 정규화합니다: 참조 컴퓨터의 실행시간을 측정 대상 컴퓨터의 실행시간으로 나눈 비율입니다. 여러 벤치마크의 SPECRatio를 요약할 때는 기하 평균(Geometric Mean)을 사용합니다.

기하 평균 = (∏ SPECRatioi)1/n
기하 평균의 핵심 특성: 비율의 기하 평균 = 기하 평균의 비율 → 참조 컴퓨터 선택에 무관

🏢 서버 및 기타 벤치마크

서버 벤치마크에는 SPECrate(처리량 측정), SPECSFS(파일 서버), SPECWeb(웹 서버), SPECjbb(Java 기반 서버)가 있으며, TPC(Transaction Processing Council)의 TPC-C, TPC-H, TPC-E 등은 트랜잭션 처리 성능을 초당 트랜잭션 수로 측정합니다. 최근에는 SPECvirt_Sc2010(가상화 데이터센터)과 TPC Energy(에너지 메트릭)까지 확장되었습니다.

🎯 10. 정량적 설계 원칙 — 컴퓨터 설계의 3대 법칙

⚡ 원칙 1: 병렬성을 활용하라 (Take Advantage of Parallelism)

모든 레벨에서 병렬성을 활용하는 것이 성능 향상의 핵심입니다. 시스템 레벨에서는 다중 프로세서와 디스크로 처리량을 확장하고, 프로세서 레벨에서는 파이프라이닝으로 ILP를 활용하며, 회로 레벨에서는 Set-associative 캐시의 병렬 뱅크 검색과 Carry-lookahead ALU가 병렬성을 활용합니다.

📍 원칙 2: 지역성의 원리 (Principle of Locality)

프로그램은 최근에 사용한 데이터와 명령어를 재사용하는 경향이 있습니다. 흔히 인용되는 규칙은 "프로그램이 전체 코드의 10%에서 실행 시간의 90%를 소비한다"는 것입니다.

⏰ 시간적 지역성 (Temporal)

최근 접근한 항목은 가까운 미래에 다시 접근될 가능성이 높습니다. 캐시 메모리의 기본 원리입니다.

📏 공간적 지역성 (Spatial)

주소가 가까운 항목들은 비슷한 시간에 참조됩니다. 캐시 라인(블록) 단위 데이터 전송의 근거입니다.

🎯 원칙 3: 빈번한 경우에 집중하라 (Focus on the Common Case)

가장 중요하고 보편적인 원칙입니다. 설계 트레이드오프에서 빈번한 경우를 드문 경우보다 우선하세요. 빈번한 경우는 대개 더 단순하고 빠르게 처리할 수 있습니다. 예를 들어, 덧셈에서 오버플로우는 드문 경우이므로, 오버플로우가 없는 일반적 경우를 최적화합니다.

📐 암달의 법칙 (Amdahl's Law)

컴퓨터의 특정 부분을 개선하여 얻을 수 있는 성능 향상은, 그 개선이 적용되는 시간의 비율에 의해 제한됩니다.

Speedup = 1 / [(1 - F) + F / S]
F = 개선 가능한 비율 (Fractionenhanced), S = 개선 배율 (Speedupenhanced)
AMDAHL'S LAW — EXAMPLE
// 예제: 전체 실행 시간의 80%를 차지하는 연산을 5배 빠르게 개선
F = 0.80 // 개선 가능한 비율
S = 5.0 // 개선 배율

Speedup = 1 / [(1 - 0.80) + 0.80 / 5.0]
        = 1 / [0.20 + 0.16]
        = 1 / 0.36
        = 2.78배 // 5배 개선했지만 전체적으로는 2.78배만 빨라짐!

// 핵심 교훈: S를 무한대로 만들어도 (해당 부분의 시간을 0으로)
Speedup_max = 1 / (1 - 0.80) = 1 / 0.20 = 5.0배 // 최대 속도 향상의 한계

🔑 암달의 법칙의 핵심 교훈: 개선 불가능한 부분(1-F)이 전체 속도 향상의 상한선을 결정합니다. 프로그램의 20%가 병렬화 불가능하다면, 나머지 80%를 아무리 빠르게 만들어도 최대 5배 속도 향상이 한계입니다. 이것이 멀티코어 시대에 소프트웨어 병렬화가 가장 큰 도전인 이유입니다.

🔥 11. 2026 업데이트 — 격변하는 컴퓨터 아키텍처 지형

Hennessy & Patterson의 5판(2012)이 출간된 이후 14년이 지난 2026년, 컴퓨터 아키텍처는 몇 가지 근본적인 변화를 겪고 있습니다. 교과서의 기본 원리는 여전히 유효하지만, 기술 지형은 극적으로 변했습니다.

🏭 2nm 공정 경쟁 — FinFET에서 GAA로의 전환

2025~2026년, 반도체 업계는 FinFET에서 GAA(Gate-All-Around) 트랜지스터로의 역사적 전환을 완료하고 있습니다. 게이트가 채널을 사방에서 감싸는 GAA 구조는 누설 전류를 최대 75% 감소시키고, 더 정밀한 전류 제어를 가능하게 합니다.

파운드리 2nm 노드명 트랜지스터 수율 차별화 기술
TSMC N2 / N2P / A16 Nanosheet GAA ~65→75% SRAM 38 Mb/mm². A16에서 BSPDN 도입(2026~27)
Intel 18A (1.8nm) RibbonFET (GAA) ~55% PowerVia (BSPDN) 업계 최초 도입. 성능 25%↑ 또는 전력 36%↓
Samsung SF2 / SF2P MBCFET (GAA) ~40→50% 나노시트 폭 조절 유연성. SF2P에서 BSPDN 예정(2026)

BSPDN(Backside Power Delivery Network)은 전원 배선을 트랜지스터 뒷면에 배치하여 신호선과 분리하는 기술로, Intel의 PowerVia가 업계 최초로 이를 구현했습니다. 전압 강하를 줄이고 전력 공급 효율을 약 30% 향상시키는 혁신입니다.

🔓 RISC-V 혁명 — ISA의 민주화

UC Berkeley에서 2010년에 시작된 연구 프로젝트 RISC-V가 2026년 현재 "컴퓨팅의 제3의 기둥"으로 부상했습니다. 더 이상 비용 절감만의 문제가 아닌, AI 시대의 실리콘 주권(silicon sovereignty)과 맞춤형 칩 설계의 자유를 의미합니다.

RISC-V의 기본 ISA는 50개 미만의 명령어로 구성되어, 수천 개의 레거시 명령어를 유지해야 하는 x86이나 ARM과 극명한 대조를 이룹니다. 이 간결한 기반 위에 각 회사가 커스텀 확장(Custom Extensions)을 자유롭게 추가할 수 있다는 것이 핵심 차별점입니다.

2025년
RVA23 프로파일 표준화 — 벡터 확장(RVV) 필수화로 AI 워크로드 지원. NVIDIA가 CUDA 스택의 RISC-V 완전 지원 발표. Qualcomm이 Ventana Micro Systems 인수
2026년 초
Tenstorrent의 Ascalon-X 코어가 SPECint2006에서 GHz당 약 22점을 달성하며 AMD Zen 5, ARM Neoverse V3와 동등한 성능 입증. Quintauris(유럽 자동차 반도체 합작)가 RISC-V 기반 차량용 제어기 플랫폼 표준화
시장 전망
RISC-V 시장이 CAGR 33% 이상으로 성장 중. NVIDIA, Google, Meta, Samsung 등이 AI 가속기에 RISC-V 코어 배치. 기존 x86/ARM이 95%를 차지하던 시장 구조에 균열
🧩 칩렛 아키텍처 — 모놀리식을 넘어서

단일 모놀리식 다이의 한계를 극복하기 위해 칩렛(Chiplet) 아키텍처가 부상하고 있습니다. CPU, GPU, 메모리, I/O를 각각 별도의 다이로 제작하여 하나의 패키지에 통합하는 방식으로, UCIe(Universal Chiplet Interconnect Express) 표준을 통해 서로 다른 공정, 심지어 다른 ISA의 칩렛도 하나의 플랫폼에서 공존할 수 있습니다.

이는 앞서 다룬 비용 공식과 직결됩니다. 칩렛 접근법은 거대한 모놀리식 다이의 수율 문제(면적의 제곱에 비례하는 비용 증가)를 해결합니다. 작은 칩렛은 수율이 높고, 서로 다른 공정 노드에서 제조할 수 있어(예: CPU는 2nm, I/O는 7nm) 전체 비용을 최적화합니다. AMD의 EPYC, Intel의 Ponte Vecchio, Apple의 M시리즈 Ultra가 이 접근법을 선도하고 있습니다.

🤖 AI가 바꾸는 컴퓨터 아키텍처의 새로운 지평

2026년의 가장 큰 변화는 AI 워크로드가 컴퓨터 아키텍처의 설계 기준 자체를 변화시키고 있다는 것입니다. 전통적으로 SPEC CPU의 정수/부동소수점 연산 성능이 핵심 메트릭이었지만, 이제는 행렬 곱셈, 텐서 연산, 트랜스포머 추론 같은 AI 특화 연산의 성능이 동등하거나 더 중요한 설계 기준이 되었습니다.

FP8, BFloat16 같은 저정밀 부동소수점 형식의 도입은 교과서에서 다룬 IEEE 754의 확장이며, 에너지 효율(Tasks per Joule)이 성능/면적(Performance per mm²) 메트릭을 대체한 것은 6장에서 다룬 전력 관련 원칙의 극대화된 적용입니다.

📌 12. 결론 — 핵심 정리와 시사점

Chapter 1은 이후 모든 장의 기초가 되는 정량적 기반(quantitative foundation)을 제공합니다. 핵심 내용을 정리하면 다음과 같습니다.

🏗️ 아키텍처 = ISA + 조직 + HW

ISA만이 아키텍처가 아닙니다. 마이크로아키텍처와 물리적 구현이 동등하게 중요하며, 종종 더 큰 기술적 도전을 제시합니다.

⚡ 전력이 최대 제약

성능/면적이 아닌 에너지 효율(Tasks/Joule)이 핵심 메트릭. DVFS, Power Gating, Race-to-Halt 전략이 필수적입니다.

📐 암달의 법칙을 잊지 마라

개선 불가능한 부분이 전체 속도 향상의 한계를 결정합니다. 병렬화의 이론적 상한선을 항상 인식해야 합니다.

🔄 명시적 병렬성의 시대

ILP의 암묵적 병렬성에서 DLP/TLP/RLP의 명시적 병렬성으로 전환. 프로그래머에게 새로운 부담이 됨과 동시에 기회를 제공합니다.

💰 비용 = 다이 면적²에 비례

양품 다이 수는 면적의 제곱에 반비례합니다. 칩렛 아키텍처가 이 문제를 해결하는 핵심 전략으로 부상했습니다.

🔓 ISA의 민주화

RISC-V의 부상은 ISA가 더 이상 독점적 제품이 아닌 공유 인프라가 되어가는 패러다임 전환을 보여줍니다.

🎓 Hennessy & Patterson이 강조하는 정량적 접근법의 핵심: 경험적 관찰, 실험, 시뮬레이션을 도구로 사용하여 컴퓨터를 설계하고 분석하는 것. 이 접근법은 과거의 암묵적 병렬 컴퓨터에서 효과를 입증했고, 미래의 명시적 병렬 컴퓨터에서도 동일하게 유효할 것입니다. "이것은 결코 만들어지지 않을 종이 위의 기계에 대한 지루한 과학이 아닙니다. 아닙니다! 이것은 예리한 지적 관심을 요구하는 분야로, 시장의 힘과 비용-성능-전력의 균형을 이루어야 하며, 장엄한 실패와 주목할 만한 성공으로 이어지는 학문입니다."

댓글

이 블로그의 인기 게시물

📚 SDC 마스터 클래스 시리즈 | Chapter 1

📚 SDC 마스터 클래스 시리즈 | Chapter 2

📚 SDC 마스터 클래스 시리즈 | Chapter 3