1. [대분류] AI의 이해와 원리/ㄴ03. 트랜스포머와 LLM

제3장. 트랜스포머: '집중'이 만든 인공지능의 신세계

비상ai 2026. 4. 1. 08:10
AI 신인류의 교과서 · 제3장

트랜스포머
'집중'이 만든 인공지능의 신세계

"Attention Is All You Need" — 2017년 논문 한 줄이 AI의 역사를 바꿨다

셀프 어텐션 병렬 처리 인코더·디코더 GPT·Claude·Gemini
INTRO

문맥을 놓치던 시대의 종말

딥러닝이 발전하면서 AI는 시간 순서를 기억하는 RNN(순환 신경망)을 사용했습니다. 하지만 RNN에는 치명적인 약점이 있었습니다.

"문장이 길어질수록 앞부분의 내용을 잊어버린다 — 기계의 건망증"

인간은 긴 글을 읽을 때 중요한 단어에만 '집중'합니다. 기계도 그렇게 할 수 없을까?

2017년, 구글 연구진은 "Attention Is All You Need"라는 도발적인 논문을 발표합니다. 순차적으로 읽지 말고, 전체를 한꺼번에 보되 중요한 부분에만 집중하라는 이 혁신적 아이디어가 트랜스포머를 탄생시켰습니다.

핵심 기술 01

셀프 어텐션 — 단어 사이의 관계도 측정

Self-Attention Mechanism

트랜스포머의 핵심 엔진은 셀프 어텐션(Self-Attention)입니다. 문장 안의 각 단어가 다른 단어와 얼마나 관련 있는지 스스로 계산하는 기술입니다.

셀프 어텐션 예시 — '그것'이 가리키는 단어는?
"그 남자는 사과를 먹으려 했지만 그것이 신 것을 알고 내려놓았다"
그것
Query 단어
사과
어텐션 높음 ↑↑↑
남자
어텐션 낮음
먹으려
어텐션 낮음
'그것'과 '사과' 사이의 어텐션 스코어(Attention Score)가 가장 높게 책정 → 문맥 정확히 파악
ATTENTION FORMULA
Attention(Q, K, V) = softmax(QKᵀ / √dₖ) · V
Q = Query (현재 단어) K = Key (비교 대상) V = Value (실제 정보) √dₖ = 스케일링
핵심 기술 02

병렬 처리 — 한 번에 다 읽는 속도전

과거 RNN은 단어를 한 땀 한 땀 순서대로 읽어야 했습니다. 100번째 단어를 읽으려면 앞의 99개를 모두 거쳐야 했죠. 트랜스포머는 이를 완전히 뒤집었습니다.

RNN 방식 ❌ (순차 처리)
단어1
단어2
단어3
→ ...
앞 단어를 처리해야만 다음 단어 처리 가능. 느리고 앞 내용을 잊어버림.
트랜스포머 방식 ✅ (병렬 처리)
단어1
단어2
단어3
...
↓ 동시에 한꺼번에 처리
모든 단어를 동시에 처리. 빠르고 긴 문맥도 완벽히 파악.
포지셔널 인코딩(Positional Encoding)이란?

병렬 처리를 하면 단어의 순서 정보가 사라지는 문제가 생깁니다. 이를 해결하기 위해 각 단어에 위치 정보(좌표)를 추가해 줍니다. "이 단어는 문장의 3번째에 위치한다"는 정보를 수학적으로 표현해 함께 입력하는 방식입니다.

핵심 기술 03

인코더와 디코더 — 읽는 뇌와 쓰는 뇌

트랜스포머는 크게 두 부분으로 나뉩니다. 마치 인간이 글을 읽고 이해한 다음, 자신의 언어로 다시 표현하는 과정과 같습니다.

인코더 (Encoder)
이해의 영역 — 읽는 뇌

입력된 문장의 의미를 깊이 있게 파악하여 압축된 의미 지도로 만들어냅니다.

예: "나는 배고프다" → 배고픔의 의미를 수치 벡터로 압축
BERT가 인코더만 사용하는 대표 모델
디코더 (Decoder)
창조의 영역 — 쓰는 뇌

인코더가 만든 의미 지도를 바탕으로 다음에 올 가장 적절한 단어를 한 글자씩 생성합니다.

예: 의미 지도 → "I am hungry" 한 단어씩 출력
GPT·Claude가 디코더만 사용하는 대표 모델
트랜스포머 전체 처리 흐름 (번역 예시)
입력
"나는 배고프다"
인코더
의미 압축
디코더
단어 생성
출력
"I am hungry"
IMPACT

GPT의 시대를 연 거대한 이정표

트랜스포머는 단순히 성능이 좋은 알고리즘을 넘어, '언어 지능의 패러다임'을 바꿨습니다. 이를 기반으로 탄생한 모델들이 세상을 바꾸고 있습니다.

🤖
BERT (2018)
인코더 기반
언어 이해 특화
Google 검색 혁신
💬
GPT 시리즈
디코더 기반
텍스트 생성
ChatGPT의 심장
🌟
Claude
디코더 기반
안전성 특화
Anthropic 개발
🔷
Gemini
멀티모달
텍스트+이미지
Google DeepMind

"우리가 지금 ChatGPT와 나누는 매끄러운 대화는, 찰나의 순간에 수조 번의 '집중'을 반복하며 문맥의 실타래를 풀어내고 있는 트랜스포머의 위대한 연주입니다."

KEY CONCEPT SUMMARY

핵심 이론 요약

어텐션(Attention)

문장 내 의미적으로 중요한 단어에 가중치를 두어 문맥을 파악하는 핵심 기술

병렬 처리

순차적 연산을 탈피해 대규모 데이터를 고속으로 학습할 수 있게 해줌

확장성(Scalability)

모델 크기를 키울수록 성능이 비약적으로 향상 → 초거대 AI 시대 개막

역사적 유산

BERT·GPT·Claude·Gemini 등 현대 모든 언어 모델의 근원적 아키텍처

"Attention Is All You Need —
집중 하나가 인공지능의 역사를 바꿨습니다."
🚀 다음 포스팅 예고

트랜스포머를 활용한 초거대 언어 모델은 어떻게 작동하는가?
[LLM 완전 정복 — GPT, Claude, Gemini의 원리]

#트랜스포머 #어텐션메커니즘 #ChatGPT원리 #LLM기초 #transformer #미래기술전망