트랜스포머(Transformer)와 LLM
논문부터 원리까지 쉽게 이해하기
2017년 논문 한 편이 AI를 어떻게 바꿨는지, ChatGPT가 왜 똑똑한지 그 비밀을 파헤칩니다
ChatGPT는 어떻게 이렇게 똑똑할까?
ChatGPT와 대화하다 보면 자연스럽게 이런 생각이 듭니다. "이 AI, 도대체 어떻게 이렇게 대화를 잘 하지?" 그 답의 핵심에는 트랜스포머(Transformer)라는 구조가 있습니다.
2017년 구글이 발표한 논문 하나가 AI 세계를 완전히 바꿔놓았습니다. 논문 제목은 바로 "Attention Is All You Need"입니다. 이 글에서는 복잡한 수식 없이, 트랜스포머가 무엇인지 그리고 ChatGPT·Claude·Gemini 같은 LLM이 어떻게 작동하는지를 쉽게 설명합니다.
이 논문 하나가 번역, 요약, 대화, 코딩을 모두 가능하게 했습니다
트랜스포머 이전의 세상 — RNN의 한계
트랜스포머가 등장하기 전, AI는 RNN(순환 신경망)을 사용했습니다. 마치 책을 처음부터 끝까지 읽는 것처럼, 단어를 하나씩 순서대로 처리하는 방식이었습니다.
핵심 문제: 장기 의존성(Long-Term Dependency)
문장이 길어질수록 앞의 내용을 잊어버리는 문제가 생겼습니다. "어제 서울에서 열린, 수백 명이 참여한 그 대규모 AI 컨퍼런스에서..." 라는 문장의 끝에서 '어제'를 기억하기가 매우 어려웠죠.
RNN은 단어를 순서대로(Sequential) 처리합니다. 트랜스포머는 모든 단어를 동시에(Parallel) 보고, 서로의 관계를 한번에 계산합니다. 이 차이가 AI 성능을 폭발적으로 향상시켰습니다.
트랜스포머의 핵심 — Attention 메커니즘
트랜스포머의 핵심 아이디어는 단순합니다. "문장 전체를 한꺼번에 보고, 어떤 단어가 어떤 단어와 관련 있는지 동시에 계산하자."
복잡해 보이지만 개념은 간단합니다. Q(내가 찾는 것)와 K(다른 단어들)의 유사도를 계산하고, 그 비율로 V(정보)를 가중 평균합니다. 마치 도서관에서 키워드로 관련 책을 찾는 것과 같습니다.
트랜스포머 아키텍처 한눈에 보기
트랜스포머는 크게 Encoder(인코더)와 Decoder(디코더)로 구성됩니다. 번역을 예로 들면, 인코더는 "나는 배고프다"를 읽고, 디코더는 "I am hungry"를 만들어냅니다.
각 블록마다 입력값을 출력에 그대로 더해줍니다. 깊은 네트워크에서 기울기 소실 문제를 막아 학습을 안정화하는 핵심 기법입니다.
LLM이란 무엇인가 — 대형 언어 모델의 세계
LLM(Large Language Model)은 트랜스포머 구조를 기반으로 수백억~수천억 개의 파라미터를 가진 모델입니다. 인터넷의 방대한 텍스트를 학습해 언어 패턴을 익힙니다.
| 모델 | 개발사 | 특징 | 구조 |
|---|---|---|---|
| GPT-3 | OpenAI | 1,750억 파라미터 | Decoder only |
| BERT | 양방향 언어 이해 | Encoder only | |
| LLaMA 2 | Meta | 700억, 오픈소스 | Decoder only |
| Claude | Anthropic | 안전성·분석 특화 | Decoder only |
LLM 발전 계보 (2017~2024)
Attention Is All You Need (Google)
트랜스포머 구조 최초 제안. RNN 없이 Attention만으로 번역 성능을 압도적으로 향상시켰습니다.
BERT (Google) + GPT-1 (OpenAI)
BERT는 양방향 언어 이해, GPT-1은 단방향 생성 방식을 각각 개척했습니다.
GPT-3 (OpenAI) — 1,750억 파라미터
거대 언어 모델의 시대를 열었습니다. 프롬프트만으로 다양한 작업을 수행했습니다.
ChatGPT (OpenAI) — RLHF 혁명
인간 피드백 강화학습(RLHF)으로 대화에 특화. 출시 5일 만에 100만 사용자를 돌파했습니다.
GPT-4o · Claude 3 · Gemini · LLaMA
멀티모달(이미지+텍스트+음성), 오픈소스 확산, 에이전트 기능으로 경쟁이 심화되었습니다.
ChatGPT는 어떻게 대화를 잘할까 — RLHF
RLHF(인간 피드백 강화학습)는 사람이 AI 답변을 평가해 더 좋은 방향으로 학습시키는 방법입니다.
핵심 용어 한눈에 정리
"Attention Is All You Need" — 주의 하나가 AI를 바꿨다
트랜스포머는 언어를 넘어 이미지, 영상, 단백질 구조 분석까지 확장되고 있습니다. 다음 글에서는 프롬프트 엔지니어링과 LLM 실전 활용법을 다뤄보겠습니다.
'1. [대분류] AI의 이해와 원리 > ㄴ03. 트랜스포머와 LLM' 카테고리의 다른 글
| 트랜스포머(Transformer)란? — 챗GPT 작동 원리를 비전공자도 이해하는 설명 (6) | 2026.04.15 |
|---|---|
| 제3장. 트랜스포머: '집중'이 만든 인공지능의 신세계 (0) | 2026.04.01 |