Chapter 5: Digital Building Blocks | 프로세서를 구성하는 핵심 블록

Harris & Harris · Digital Design & Computer Architecture

🧱 Chapter 5: Digital Building Blocks

가산기, ALU, 시프터, 부동소수점, 메모리 — 프로세서를 구성하는 핵심 블록

Chapter 1~4에서 논리 게이트, 조합/순차 논리, HDL 코딩을 익혔다면, 이제 이 조각들을 프로세서를 구성하는 실제 빌딩 블록으로 조립할 차례입니다. Chapter 5는 산술 회로(Adder, ALU), 시프터, IEEE 754 부동소수점, 그리고 메모리(SRAM, DRAM)를 다루며, 이들이 어떻게 마이크로프로세서의 데이터패스를 이루는지 보여줍니다. 2026년 최신 트렌드로는 AI 시대의 핵심인 HBM4 메모리 혁명을 함께 살펴봅니다.

➕ 1. 산술 회로 (Arithmetic Circuits)

🔢 반가산기 & 전가산기

모든 산술 연산의 근간은 덧셈입니다. 반가산기(Half Adder)는 2비트를, 전가산기(Full Adder)는 하위 캐리를 포함한 3비트를 더합니다.

Half Adder S = A ⊕ B | C_out = A · B

Full Adder S = A ⊕ B ⊕ C_in | C_out = AB + (A⊕B)C_in

⚡ 멀티비트 가산기: 속도의 전쟁

🐢 리플 캐리 가산기 (RCA) 캐리가 하위→상위 비트로 순차 전파. 회로 간단하지만 지연 = N × t_FA로 비트 수에 비례해 느려집니다. O(N) 지연.

🚀 캐리 예측 가산기 (CLA) Generate(G_i)와 Propagate(P_i) 신호로 캐리를 병렬 계산. 하드웨어 복잡도는 증가하지만 지연이 O(log N)으로 극적 개선.

CLA 핵심 수식 G_i = A_i · B_i | P_i = A_i ⊕ B_i | C_i = G_i + P_i · C_i-1

CLA는 캐리 체인을 “펼쳐서(unroll)” 표현합니다. 예를 들어, C₂ = G₂ + P₂G₁ + P₂P₁G₀ + P₂P₁P₀C_in처럼 모든 캐리가 원래 입력과 C_in으로만 표현되므로, 중간 캐리를 기다릴 필요 없이 2단계의 게이트 지연으로 계산됩니다. 실제 프로세서에서는 4비트 CLA 블록을 트리 구조로 연결하여 32/64비트 고속 가산기를 구현합니다.

🧠 2. 산술 논리 연산 장치 (ALU)

ALU는 마이크로프로세서의 심장입니다. 제어 신호(ALUControl)에 따라 덧셈, 뺄셈, AND, OR, XOR, SLT(Set Less Than) 등 다양한 연산을 하나의 하드웨어 블록에서 선택적으로 수행합니다.

ALU 내부 구조 (개념도)

AND

ADD/SUB

SLT

→

MUX ALUControl

→

Result

뺄셈: B를 반전 + C_in=1 → 가산기가 A + (~B + 1) = A - B 수행

SystemVerilog — 간단한 ALU module alu #(parameter W = 32) ( input logic [W-1:0] a, b, input logic [2:0] alu_ctrl, output logic [W-1:0] result, output logic zero // 결과가 0이면 1 ); always_comb case (alu_ctrl) 3'b000: result = a & b; // AND 3'b001: result = a | b; // OR 3'b010: result = a + b; // ADD 3'b110: result = a - b; // SUB 3'b111: result = {{(W-1){1'b0}}, $signed(a) < $signed(b)}; // SLT default: result = '0; endcase assign zero = (result == '0); endmodule

↔️ 3. 시프터 (Shifters)

이진수를 좌우로 이동시키며, 2의 거듭제곱 곱셈/나눗셈을 하드웨어 효율적으로 수행합니다.

유형	동작	예시 (8-bit, 2칸 시프트)	용도
논리 좌시프트 (LSL)	빈자리 0으로 채움	1100_0011 → 0000_1100	× 2ⁿ
논리 우시프트 (LSR)	빈자리 0으로 채움	1100_0011 → 0011_0000	Unsigned ÷ 2ⁿ
산술 우시프트 (ASR)	부호 비트 복제	1100_0011 → 1111_0000	Signed ÷ 2ⁿ
순환 시프트 (Rotate)	밀려난 비트가 반대쪽으로	1100_0011 → 0000_1111	암호화, CRC

하드웨어에서 시프터는 보통 배럴 시프터(Barrel Shifter)로 구현됩니다. N비트 배럴 시프터는 log₂N 단계의 멀티플렉서 계층으로 구성되어, 임의의 시프트 양을 단 한 클럭 사이클에 처리합니다.

🔬 4. IEEE 754 부동소수점

고정소수점으로는 아주 크거나 작은 수를 효율적으로 표현할 수 없습니다. IEEE 754 부동소수점 표준은 과학적 표기법(scientific notation)의 2진수 버전으로, 현대 모든 프로세서와 GPU가 이 표준을 사용합니다.

IEEE 754 단정밀도 (32비트) 구조

S
1비트

Exponent (E)
8비트 (바이어스 127)

Fraction (F)
23비트 (숨겨진 1. 포함)

부동소수점 → 십진수 변환 (정규화된 수) Value = (-1)^S × 1.F × 2^{(E - 127)}

변환 예시: -6.75를 IEEE 754 단정밀도로 // Step 1: 부호 결정 S = 1 // 음수 // Step 2: 절대값을 2진수로 6.75 = 110.11₂ = 1.1011 × 2² // Step 3: 지수 (바이어스 127 적용) E = 2 + 127 = 129 = 10000001₂ // Step 4: 가수 (1. 뒤의 소수 부분) F = 10110000000000000000000₂ // 최종 결과 (32비트) 1 10000001 10110000000000000000000 = 0xC0D80000

특수 값들

값	E	F	의미
0	0000 0000	000...0	양의 0 (S=0) 또는 음의 0 (S=1)
∞	1111 1111	000...0	+∞ (S=0) 또는 -∞ (S=1)
NaN	1111 1111	≠ 0	Not a Number (0/0, √-1 등)
비정규화수	0000 0000	≠ 0	0에 가까운 매우 작은 수 (0.F × 2^-126)

💾 5. 메모리 배열 (Memory Arrays)

데이터를 저장하고 읽는 2차원 배열 구조입니다. N비트 주소로 2^N개의 워드 중 하나에 접근합니다. 메모리는 프로세서 성능의 병목이 되는 경우가 많아, “Memory Wall” 문제는 컴퓨터 아키텍처의 핵심 도전 과제입니다.

📀 ROM (Read-Only Memory) 비휘발성. 전원 OFF 후에도 데이터 유지. 고정 프로그램, 부팅 코드, 진리표 구현에 사용. 변형: PROM, EPROM, EEPROM, Flash.

⚡ SRAM (Static RAM) 교차 연결 인버터(Cross-coupled inverter)로 데이터 저장. 6T 셀 구조. 매우 빠르지만 면적 큼. 캐시 메모리(L1/L2/L3)로 사용.

🔋 DRAM (Dynamic RAM) 커패시터 전하로 데이터 저장. 1T1C 셀 구조로 면적 극소. 누설로 인해 주기적 리프레시(Refresh) 필수. 메인 메모리(DDR5/HBM)로 사용.

특성	SRAM	DRAM
셀 구조	6T (6 트랜지스터)	1T1C (1 트랜지스터 + 1 커패시터)
속도	매우 빠름 (~1ns)	상대적 느림 (~50ns)
밀도	낮음 (면적 큼)	높음 (면적 작음)
리프레시	불필요	필수 (~64ms 주기)
주 용도	캐시 (L1/L2/L3)	메인 메모리, HBM
비용/비트	높음	낮음

🚀 6. 2026년 산업 동향: HBM4 메모리 혁명

교과서에서 배운 DRAM의 원리는 2026년 현재 HBM4(High Bandwidth Memory 4)라는 형태로 AI 시대의 핵심 인프라가 되었습니다. CES 2026에서 메모리 3사(SK hynix, Samsung, Micron) 모두 HBM4를 공개하며 “메모리 전쟁”이 본격화되었습니다.

2026 UPDATE

💎 HBM4 — DRAM이 진화한 AI의 심장

HBM4는 교과서의 DRAM 셀(1T1C)을 수직으로 최대 16층 적층하고, 2,048비트 인터페이스로 대역폭을 극대화한 기술입니다. JEDEC이 2025년 4월에 공식 사양을 발표했으며, 2026년 양산이 본격화되고 있습니다.

▸ Samsung: 업계 최초 HBM4 양산 및 출하 시작. 6세대 10nm급(1c) DRAM + 4nm 로직 베이스 다이. 11.7Gbps 전송 속도(최대 13Gbps). 2026년 HBM 매출 3배 이상 성장 전망.

▸ SK hynix: CES 2026에서 16층 48GB HBM4 공개. 대역폭 2TB/s 이상. HBM 시장 점유율 50%+ 선두 유지. NVIDIA Rubin GPU 플랫폼의 핵심 공급사.

▸ Micron: 2026년 HBM4 생산 용량 전량 사전 계약 매진. 12층 36GB 제품으로 시작, 연말 15,000 웨이퍼/월 목표.

SK hynix 시장 점유율 ~50%+

Samsung ~25%

Micron ~20%

📊 교과서 DRAM → HBM4 진화 매핑

교과서 개념	HBM4에서의 진화
1T1C DRAM 셀	동일 원리. 1c nm급(10nm 6세대) 공정으로 셀 크기 극소화
리프레시 필요	여전히 필수. 하지만 온도 감지형 적응적 리프레시로 전력 절감
단일 칩 인터페이스	TSV(Through-Silicon Via)로 최대 16 DRAM 다이 수직 적층. 2,048비트 인터페이스
수동 저장 장치	로직 베이스 다이 통합으로 “능동 메모리” 진화 (Custom HBM, PIM 개념)
대역폭 한계	스택당 2TB/s+. 이전 세대 HBM3 대비 2.54배 대역폭 향상

메모리 시장 전망 (2026)

글로벌 반도체 시장이 약 9,750억 달러에 달할 것으로 전망되는 가운데, 메모리 부문이 30% 성장하며 4,400억 달러를 넘어설 전망입니다. HBM 시장만 약 546억 달러로 전년 대비 58% 성장이 예상되며, AI 인프라 투자가 핵심 동력입니다. 특히 HBM4는 NVIDIA Rubin, Google TPU 등 차세대 AI 가속기의 필수 부품으로, 생산 물량이 출시 전부터 전량 매진되는 초유의 상황입니다.

📋 핵심 요약

주제	핵심 포인트	핵심 수식 / 키워드
가산기	RCA: O(N) 지연, CLA: O(log N) 지연. G/P 병렬 계산	C_i=G_i+P_iC_i-1
ALU	제어 신호로 ADD/SUB/AND/OR/SLT 선택. 뺄셈=2의 보수 활용	ALUControl MUX
시프터	LSL/LSR/ASR/Rotate. 배럴 시프터로 1사이클 구현	×2ⁿ, ÷2ⁿ
IEEE 754	S(1) + E(8) + F(23) = 32비트. 바이어스 127	(-1)^S×1.F×2^E-127
메모리	SRAM(6T, 빠름, 캐시) vs DRAM(1T1C, 밀도, 메인)	2^N 워드 주소공간
2026 트렌드	HBM4: 16층, 2048bit I/F, 2TB/s+. AI 메모리 슈퍼사이클	시장 $54.6B (HBM)

이 블로그 검색

SoC Design