1. [대분류] AI의 이해와 원리/ㄴ03. 트랜스포머와 LLM

트랜스포머(Transformer)와 LLM — 논문부터 원리까지 쉽게 이해하기

비상ai 2026. 3. 31. 10:22
AI 심화 연구소 · 제3장

트랜스포머(Transformer)와 LLM
논문부터 원리까지 쉽게 이해하기

2017년 논문 한 편이 AI를 어떻게 바꿨는지, ChatGPT가 왜 똑똑한지 그 비밀을 파헤칩니다

Attention Is All You Need Self-Attention GPT · BERT · Claude RLHF
INTRO

ChatGPT는 어떻게 이렇게 똑똑할까?

ChatGPT와 대화하다 보면 자연스럽게 이런 생각이 듭니다. "이 AI, 도대체 어떻게 이렇게 대화를 잘 하지?" 그 답의 핵심에는 트랜스포머(Transformer)라는 구조가 있습니다.

2017년 구글이 발표한 논문 하나가 AI 세계를 완전히 바꿔놓았습니다. 논문 제목은 바로 "Attention Is All You Need"입니다. 이 글에서는 복잡한 수식 없이, 트랜스포머가 무엇인지 그리고 ChatGPT·Claude·Gemini 같은 LLM이 어떻게 작동하는지를 쉽게 설명합니다.

"Attention Is All You Need" — Vaswani et al., Google Brain, 2017
이 논문 하나가 번역, 요약, 대화, 코딩을 모두 가능하게 했습니다
BACKGROUND

트랜스포머 이전의 세상 — RNN의 한계

트랜스포머가 등장하기 전, AI는 RNN(순환 신경망)을 사용했습니다. 마치 책을 처음부터 끝까지 읽는 것처럼, 단어를 하나씩 순서대로 처리하는 방식이었습니다.

핵심 문제: 장기 의존성(Long-Term Dependency)

문장이 길어질수록 앞의 내용을 잊어버리는 문제가 생겼습니다. "어제 서울에서 열린, 수백 명이 참여한 그 대규모 AI 컨퍼런스에서..." 라는 문장의 끝에서 '어제'를 기억하기가 매우 어려웠죠.

RNN vs 트랜스포머 핵심 차이

RNN은 단어를 순서대로(Sequential) 처리합니다. 트랜스포머는 모든 단어를 동시에(Parallel) 보고, 서로의 관계를 한번에 계산합니다. 이 차이가 AI 성능을 폭발적으로 향상시켰습니다.

CORE CONCEPT

트랜스포머의 핵심 — Attention 메커니즘

트랜스포머의 핵심 아이디어는 단순합니다. "문장 전체를 한꺼번에 보고, 어떤 단어가 어떤 단어와 관련 있는지 동시에 계산하자."

Self-Attention 시각화 — "고양이가 밥을 먹었다"
고양이가
밥을 ↑ 높은 attention
먹었다 ★ Query
★ Query 단어가 다른 단어들과의 연관도를 0~1 사이 가중치로 계산합니다
ATTENTION FORMULA
Attention(Q, K, V) = softmax( QKᵀ / √dk ) · V
Q = Query(현재 단어) | K = Key(비교 대상) | V = Value(실제 정보)

복잡해 보이지만 개념은 간단합니다. Q(내가 찾는 것)와 K(다른 단어들)의 유사도를 계산하고, 그 비율로 V(정보)를 가중 평균합니다. 마치 도서관에서 키워드로 관련 책을 찾는 것과 같습니다.

ARCHITECTURE

트랜스포머 아키텍처 한눈에 보기

트랜스포머는 크게 Encoder(인코더)Decoder(디코더)로 구성됩니다. 번역을 예로 들면, 인코더는 "나는 배고프다"를 읽고, 디코더는 "I am hungry"를 만들어냅니다.

트랜스포머 구조도 (Transformer Architecture)
Input Embedding
단어 → 숫자 벡터 변환
Positional Encoding
단어 순서 정보 추가
Encoder Block (× N번 반복)
Multi-Head Self-Attention
단어 간 관계 다각도 파악
↓ Add & Norm
Feed-Forward Network
비선형 변환으로 표현력 강화
Decoder Block (× N번 반복)
Masked Multi-Head Attention
미래 토큰 가려서 학습
Cross Attention (Encoder↔Decoder)
인코더 출력과 연결
Feed-Forward Network
최종 표현 변환
Linear + Softmax
다음 단어 확률 예측 · 출력
Residual Connection (잔차 연결)이란?

각 블록마다 입력값을 출력에 그대로 더해줍니다. 깊은 네트워크에서 기울기 소실 문제를 막아 학습을 안정화하는 핵심 기법입니다.

LLM

LLM이란 무엇인가 — 대형 언어 모델의 세계

LLM(Large Language Model)은 트랜스포머 구조를 기반으로 수백억~수천억 개의 파라미터를 가진 모델입니다. 인터넷의 방대한 텍스트를 학습해 언어 패턴을 익힙니다.

모델 개발사 특징 구조
GPT-3 OpenAI 1,750억 파라미터 Decoder only
BERT Google 양방향 언어 이해 Encoder only
LLaMA 2 Meta 700억, 오픈소스 Decoder only
Claude Anthropic 안전성·분석 특화 Decoder only
HISTORY

LLM 발전 계보 (2017~2024)

 
 
2017

Attention Is All You Need (Google)

트랜스포머 구조 최초 제안. RNN 없이 Attention만으로 번역 성능을 압도적으로 향상시켰습니다.

 
2018

BERT (Google) + GPT-1 (OpenAI)

BERT는 양방향 언어 이해, GPT-1은 단방향 생성 방식을 각각 개척했습니다.

 
2020

GPT-3 (OpenAI) — 1,750억 파라미터

거대 언어 모델의 시대를 열었습니다. 프롬프트만으로 다양한 작업을 수행했습니다.

 
2022

ChatGPT (OpenAI) — RLHF 혁명

인간 피드백 강화학습(RLHF)으로 대화에 특화. 출시 5일 만에 100만 사용자를 돌파했습니다.

 
2023~2024

GPT-4o · Claude 3 · Gemini · LLaMA

멀티모달(이미지+텍스트+음성), 오픈소스 확산, 에이전트 기능으로 경쟁이 심화되었습니다.

TRAINING

ChatGPT는 어떻게 대화를 잘할까 — RLHF

RLHF(인간 피드백 강화학습)는 사람이 AI 답변을 평가해 더 좋은 방향으로 학습시키는 방법입니다.

① 지도 학습(SFT)
사람이 직접 좋은 답변 예시를 작성해 모델을 초기 학습합니다.
② 보상 모델 학습
여러 답변 중 더 좋은 답변을 사람이 선택해 보상 신호를 만듭니다.
③ PPO 강화학습
보상 점수를 최대화하는 방향으로 언어 모델을 지속적으로 업데이트합니다.
GLOSSARY

핵심 용어 한눈에 정리

토큰(Token)
AI가 텍스트를 처리하는 기본 단위. "안녕하세요"는 약 4~5개 토큰으로 분할됩니다.
임베딩(Embedding)
단어를 고차원 숫자 벡터로 변환. 의미가 비슷한 단어는 벡터 공간에서 가깝게 위치합니다.
파라미터
모델이 학습으로 얻은 가중치 값. GPT-3는 1,750억 개의 파라미터를 가집니다.
컨텍스트 윈도우
한 번에 처리할 수 있는 토큰 수. Claude는 최대 200K 토큰(책 한 권 분량)을 처리합니다.
할루시네이션
AI가 사실이 아닌 것을 그럴듯하게 만들어내는 현상. LLM의 대표적 한계 중 하나입니다.
프롬프트 엔지니어링
AI에게 더 좋은 답변을 유도하는 질문 기술. 입력 방식에 따라 출력 품질이 크게 달라집니다.

"Attention Is All You Need" — 주의 하나가 AI를 바꿨다

트랜스포머는 언어를 넘어 이미지, 영상, 단백질 구조 분석까지 확장되고 있습니다. 다음 글에서는 프롬프트 엔지니어링과 LLM 실전 활용법을 다뤄보겠습니다.

#트랜스포머 #LLM #ChatGPT원리 #어텐션메커니즘 #RLHF #딥러닝