1. [대분류] AI의 이해와 원리/ㄴ03. 트랜스포머와 LLM

트랜스포머(Transformer)와 LLM — 논문부터 원리까지 쉽게 이해하기

비상ai 2026. 3. 31. 10:22

AI 심화 연구소 · 제3장

트랜스포머(Transformer)와 LLM
논문부터 원리까지 쉽게 이해하기

2017년 논문 한 편이 AI를 어떻게 바꿨는지, ChatGPT가 왜 똑똑한지 그 비밀을 파헤칩니다

Attention Is All You Need Self-Attention GPT · BERT · Claude RLHF

INTRO

ChatGPT는 어떻게 이렇게 똑똑할까?

ChatGPT와 대화하다 보면 자연스럽게 이런 생각이 듭니다. "이 AI, 도대체 어떻게 이렇게 대화를 잘 하지?" 그 답의 핵심에는 트랜스포머(Transformer)라는 구조가 있습니다.

2017년 구글이 발표한 논문 하나가 AI 세계를 완전히 바꿔놓았습니다. 논문 제목은 바로 "Attention Is All You Need"입니다. 이 글에서는 복잡한 수식 없이, 트랜스포머가 무엇인지 그리고 ChatGPT·Claude·Gemini 같은 LLM이 어떻게 작동하는지를 쉽게 설명합니다.

"Attention Is All You Need" — Vaswani et al., Google Brain, 2017
이 논문 하나가 번역, 요약, 대화, 코딩을 모두 가능하게 했습니다

BACKGROUND

트랜스포머 이전의 세상 — RNN의 한계

트랜스포머가 등장하기 전, AI는 RNN(순환 신경망)을 사용했습니다. 마치 책을 처음부터 끝까지 읽는 것처럼, 단어를 하나씩 순서대로 처리하는 방식이었습니다.

핵심 문제: 장기 의존성(Long-Term Dependency)

문장이 길어질수록 앞의 내용을 잊어버리는 문제가 생겼습니다. "어제 서울에서 열린, 수백 명이 참여한 그 대규모 AI 컨퍼런스에서..." 라는 문장의 끝에서 '어제'를 기억하기가 매우 어려웠죠.

RNN vs 트랜스포머 핵심 차이

RNN은 단어를 순서대로(Sequential) 처리합니다. 트랜스포머는 모든 단어를 동시에(Parallel) 보고, 서로의 관계를 한번에 계산합니다. 이 차이가 AI 성능을 폭발적으로 향상시켰습니다.

CORE CONCEPT

트랜스포머의 핵심 — Attention 메커니즘

트랜스포머의 핵심 아이디어는 단순합니다. "문장 전체를 한꺼번에 보고, 어떤 단어가 어떤 단어와 관련 있는지 동시에 계산하자."

Self-Attention 시각화 — "고양이가 밥을 먹었다"

고양이가

밥을 ↑ 높은 attention

먹었다 ★ Query

★ Query 단어가 다른 단어들과의 연관도를 0~1 사이 가중치로 계산합니다

ATTENTION FORMULA

Attention(Q, K, V) = softmax( QKᵀ / √dk ) · V

Q = Query(현재 단어) | K = Key(비교 대상) | V = Value(실제 정보)

복잡해 보이지만 개념은 간단합니다. Q(내가 찾는 것)와 K(다른 단어들)의 유사도를 계산하고, 그 비율로 V(정보)를 가중 평균합니다. 마치 도서관에서 키워드로 관련 책을 찾는 것과 같습니다.

ARCHITECTURE

트랜스포머 아키텍처 한눈에 보기

트랜스포머는 크게 Encoder(인코더)와 Decoder(디코더)로 구성됩니다. 번역을 예로 들면, 인코더는 "나는 배고프다"를 읽고, 디코더는 "I am hungry"를 만들어냅니다.

트랜스포머 구조도 (Transformer Architecture)

Input Embedding

단어 → 숫자 벡터 변환

↓

Positional Encoding

단어 순서 정보 추가

↓

Encoder Block (× N번 반복)

Multi-Head Self-Attention

단어 간 관계 다각도 파악

↓ Add & Norm

Feed-Forward Network

비선형 변환으로 표현력 강화

↓

Decoder Block (× N번 반복)

Masked Multi-Head Attention

미래 토큰 가려서 학습

↓

Cross Attention (Encoder↔Decoder)

인코더 출력과 연결

↓

Feed-Forward Network

최종 표현 변환

↓

Linear + Softmax

다음 단어 확률 예측 · 출력

Residual Connection (잔차 연결)이란?

각 블록마다 입력값을 출력에 그대로 더해줍니다. 깊은 네트워크에서 기울기 소실 문제를 막아 학습을 안정화하는 핵심 기법입니다.

LLM

LLM이란 무엇인가 — 대형 언어 모델의 세계

LLM(Large Language Model)은 트랜스포머 구조를 기반으로 수백억~수천억 개의 파라미터를 가진 모델입니다. 인터넷의 방대한 텍스트를 학습해 언어 패턴을 익힙니다.

모델	개발사	특징	구조
GPT-3	OpenAI	1,750억 파라미터	Decoder only
BERT	Google	양방향 언어 이해	Encoder only
LLaMA 2	Meta	700억, 오픈소스	Decoder only
Claude	Anthropic	안전성·분석 특화	Decoder only

HISTORY

LLM 발전 계보 (2017~2024)

2017

Attention Is All You Need (Google)

트랜스포머 구조 최초 제안. RNN 없이 Attention만으로 번역 성능을 압도적으로 향상시켰습니다.

2018

BERT (Google) + GPT-1 (OpenAI)

BERT는 양방향 언어 이해, GPT-1은 단방향 생성 방식을 각각 개척했습니다.

2020

GPT-3 (OpenAI) — 1,750억 파라미터

거대 언어 모델의 시대를 열었습니다. 프롬프트만으로 다양한 작업을 수행했습니다.

2022

ChatGPT (OpenAI) — RLHF 혁명

인간 피드백 강화학습(RLHF)으로 대화에 특화. 출시 5일 만에 100만 사용자를 돌파했습니다.

2023~2024

GPT-4o · Claude 3 · Gemini · LLaMA

멀티모달(이미지+텍스트+음성), 오픈소스 확산, 에이전트 기능으로 경쟁이 심화되었습니다.

TRAINING

ChatGPT는 어떻게 대화를 잘할까 — RLHF

RLHF(인간 피드백 강화학습)는 사람이 AI 답변을 평가해 더 좋은 방향으로 학습시키는 방법입니다.

① 지도 학습(SFT)

사람이 직접 좋은 답변 예시를 작성해 모델을 초기 학습합니다.

② 보상 모델 학습

여러 답변 중 더 좋은 답변을 사람이 선택해 보상 신호를 만듭니다.

③ PPO 강화학습

보상 점수를 최대화하는 방향으로 언어 모델을 지속적으로 업데이트합니다.

GLOSSARY

핵심 용어 한눈에 정리

토큰(Token)

AI가 텍스트를 처리하는 기본 단위. "안녕하세요"는 약 4~5개 토큰으로 분할됩니다.

임베딩(Embedding)

단어를 고차원 숫자 벡터로 변환. 의미가 비슷한 단어는 벡터 공간에서 가깝게 위치합니다.

파라미터

모델이 학습으로 얻은 가중치 값. GPT-3는 1,750억 개의 파라미터를 가집니다.

컨텍스트 윈도우

한 번에 처리할 수 있는 토큰 수. Claude는 최대 200K 토큰(책 한 권 분량)을 처리합니다.

할루시네이션

AI가 사실이 아닌 것을 그럴듯하게 만들어내는 현상. LLM의 대표적 한계 중 하나입니다.

프롬프트 엔지니어링

AI에게 더 좋은 답변을 유도하는 질문 기술. 입력 방식에 따라 출력 품질이 크게 달라집니다.

"Attention Is All You Need" — 주의 하나가 AI를 바꿨다

트랜스포머는 언어를 넘어 이미지, 영상, 단백질 구조 분석까지 확장되고 있습니다. 다음 글에서는 프롬프트 엔지니어링과 LLM 실전 활용법을 다뤄보겠습니다.

#트랜스포머 #LLM #ChatGPT원리 #어텐션메커니즘 #RLHF #딥러닝

'1. [대분류] AI의 이해와 원리 > ㄴ03. 트랜스포머와 LLM' 카테고리의 다른 글

트랜스포머(Transformer)란? — 챗GPT 작동 원리를 비전공자도 이해하는 설명 (6)	2026.04.15
제3장. 트랜스포머: '집중'이 만든 인공지능의 신세계 (0)	2026.04.01

현재글트랜스포머(Transformer)와 LLM — 논문부터 원리까지 쉽게 이해하기

AI 읽어주는 옆집형

복잡한 AI, 아주 쉽게 떠먹여 드립니다. 엑셀 함수부터 PPT 제작, 영어 이메일까지. 누구나 따라 할 수 있는 가장 쉬운 AI 활용법 연구소.

ChatGPT, ai툴추천, AI비서, 오픈AI, canvaai, 생성형AI, 직장인꿀팁, 인공지능역사, 챗GPT, 무료ai, 비상ai, 딥러닝이란, AI공부, 썸네일만들기, ChatGPT원리, 생산성도구, 생산성앱, AI툴완전정복, ai입문, 업무효율,

Today :
Yesterday :

AI 읽어주는 옆집형