1. [대분류] AI의 이해와 원리/ㄴ03. 트랜스포머와 LLM

트랜스포머(Transformer)란? — 챗GPT 작동 원리를 비전공자도 이해하는 설명

비상ai 2026. 4. 15. 13:47

안녕하세요! 복잡한 AI, 돈 되는 정보만 아주 쉽게 떠먹여 드리는 AI 읽어주는 옆집형입니다.

챗GPT, Claude, Gemini… 요즘 화제인 AI들은 생긴 것도, 회사도 다 다르지만 공통점이 하나 있습니다. 전부 트랜스포머(Transformer)라는 구조를 기반으로 만들어졌다는 것입니다.

2017년 구글 연구팀이 발표한 논문 하나가 AI의 역사를 완전히 바꿨습니다. 오늘은 그 혁명적인 아이디어를 수식 없이, 비유로만 이해할 수 있게 풀어드립니다.

SECTION 01

트랜스포머가 나오기 전 — AI의 고질적인 문제

트랜스포머 이전에는 RNN(순환 신경망)이라는 구조가 주로 쓰였습니다. RNN은 사람이 책을 읽는 것처럼 단어를 처음부터 끝까지 순서대로 하나씩 읽었습니다.

📖 비유로 이해하기 — 전화 메모 게임

10명이 줄 서서 귓속말로 문장을 전달하는 게임을 생각해보세요. 첫 번째 사람이 마지막 사람에게 "나는 오늘 강남에서 친구를 만나 삼겹살을 먹고 영화를 봤어"를 전달하면, 마지막에 도달했을 때는 내용이 많이 왜곡됩니다. RNN도 똑같았습니다. 문장이 길어질수록 앞부분 정보가 점점 희미해지는 '건망증' 문제가 있었습니다.

또 다른 문제는 속도였습니다. 단어를 순서대로만 처리할 수 있어서 병렬 처리가 불가능했습니다. 100번째 단어를 처리하려면 앞의 99개를 다 거쳐야 했으니까요. 대용량 데이터 학습이 필요한 현대 AI에는 치명적인 한계였습니다.

RNN vs 트랜스포머 비교

SECTION 02

트랜스포머의 핵심 아이디어 — 전체를 한꺼번에 본다

2017년 구글 연구팀은 도발적인 논문을 발표합니다. 제목은 "Attention Is All You Need(필요한 건 오직 집중뿐)". 순서대로 읽는 방식을 완전히 버리고, 모든 단어를 동시에 처리하자는 혁명적인 제안이었습니다.

❌ RNN 방식

단어 1 처리 → 단어 2 처리 → 단어 3 처리 → ...
순서대로, 하나씩
긴 문장에서 앞 내용 잊어버림

✅ 트랜스포머 방식

단어 1, 2, 3 … 모두 동시에!
병렬로, 한꺼번에
모든 단어가 서로의 관계를 파악

💡 왜 이게 혁명인가: 병렬 처리가 가능해지면서 GPU(그래픽 카드)를 수천 개 연결해 엄청난 양의 데이터를 동시에 학습할 수 있게 됐습니다. 챗GPT가 인터넷의 수조 개 문장을 학습할 수 있었던 이유가 바로 이겁니다.

SECTION 03

어텐션(Attention) — AI가 중요한 단어를 찾는 법

트랜스포머의 심장부는 셀프 어텐션(Self-Attention)입니다. 쉽게 말하면 "이 단어를 이해하려면 다른 어떤 단어에 집중해야 하나?"를 스스로 계산하는 기술입니다.

🔍 실제 예시로 이해하기

"그 남자는 사과를 먹으려다 그것이 시었다"라는 문장에서
'그것'이 '남자'인지 '사과'인지 어떻게 알까요?

트랜스포머는 '그것'이라는 단어를 처리할 때, 문장 안의 모든 단어와의 관련성을 수치로 계산합니다. '사과'와의 관련성이 88%, '남자'와는 5%로 나오면 — '그것 = 사과'라는 걸 AI가 스스로 파악합니다.

어텐션 메커니즘 시각화
Q

Query(쿼리) — 내가 찾는 것

"나는 지금 어떤 단어와 관련이 있지?" — 현재 처리 중인 단어가 던지는 질문

K

Key(키) — 나는 이런 정보야

"나는 과일 관련 단어야" — 다른 단어들이 자신을 소개하는 태그

V

Value(밸류) — 실제 전달할 내용

"내가 가진 실제 의미 정보" — Q와 K가 매칭되면 V의 내용이 전달됨

SECTION 04

포지셔널 인코딩 — 순서를 알려주는 좌표

모든 단어를 동시에 처리하면 생기는 문제가 있습니다. "나는 너를 사랑해""너를 사랑해 나는"을 구분 못 하게 됩니다. 단어들의 순서 정보가 사라지기 때문입니다.

🗺️ 해결책 — GPS 좌표를 붙인다

트랜스포머는 각 단어에 위치 정보(포지셔널 인코딩)를 추가로 붙여줍니다. 마치 편지 봉투에 "1번째 단어", "2번째 단어"라는 좌표를 찍는 것과 같습니다. 이걸로 AI는 단어의 의미뿐만 아니라 위치까지 동시에 처리할 수 있게 됩니다.

실제로 어떻게 작동하나

위치 1

"나는"
+ 좌표(1)

위치 2

"너를"
+ 좌표(2)

위치 3

"사랑해"
+ 좌표(3)

결과

의미 + 순서
동시 처리 완료!

SECTION 05

인코더 & 디코더 — 이해하는 뇌와 쓰는 뇌

원래 트랜스포머는 번역을 위해 만들어졌습니다. 그래서 두 가지 부분으로 구성됩니다.

ENCODER

인코더
이해하는 뇌

입력 문장을 읽고 의미를 압축된 숫자 벡터로 변환합니다. "이 문장이 무슨 뜻인지 다 파악했어"의 결과물입니다.

예) "I love you" → [0.8, -0.3, 0.5, …] 벡터

DECODER

디코더
쓰는 뇌

인코더가 만든 벡터를 받아 원하는 언어로 단어를 하나씩 생성합니다. "이 의미를 한국어로 표현하면…"의 과정입니다.

예) [0.8, -0.3, 0.5, …] → "나는 너를 사랑해"

💡 GPT는 디코더만 씁니다: 챗GPT·Claude는 번역이 목적이 아니라 '글 생성'이 목적이기 때문에 디코더 부분만 특화해서 발전시킨 모델입니다. 다음에 올 가장 자연스러운 단어를 예측하는 방식으로 문장을 만들어냅니다.

SECTION 06

트랜스포머가 낳은 것들 — GPT부터 Claude까지

논문 하나가 AI 역사를 어떻게 바꿨는지, 계보를 한눈에 보겠습니다.

트랜스포머 계보도

트랜스포머 기반 주요 AI 모델

BERT

구글 — 인코더 특화. 문장 '이해'에 집중. 검색 품질 혁신

GPT 시리즈

OpenAI — 디코더 특화. 글 '생성'에 집중. 챗GPT의 심장

Claude 시리즈

Anthropic — 같은 트랜스포머 기반, 안전성 특화. Mythos까지 진화

Gemini

Google — 멀티모달(텍스트+이미지+영상) 처리로 확장

💡 오늘의 핵심 요약

01

트랜스포머 이전 RNN은 단어를 순서대로 처리해 느리고 긴 문장에서 앞 내용을 잊었다.

02

트랜스포머는 모든 단어를 동시에(병렬로) 처리해 속도와 문맥 이해 모두 해결했다.

03

어텐션(Attention)은 "이 단어를 이해할 때 다른 어떤 단어에 집중해야 하나"를 수치로 계산하는 기술이다.

04

GPT·Claude·Gemini 등 현존하는 모든 최강 AI의 기반이 2017년 이 하나의 논문에서 나왔다.

이 글이 도움이 되셨다면 공감(❤️) 버튼구독 꾹 눌러주세요!
다음 글에서는 '딥러닝이란? — 수식 없이 이해하는 핵심 개념'을 정리해드립니다. 😊

궁금한 점은 댓글로 남겨주세요. 여러분의 질문이 다음 포스팅 주제가 됩니다!