책 쓰는 엔지니어

1. ChatGPT에 사용된 기술 본문

첨단기술 읽어주는 농부

1. ChatGPT에 사용된 기술

halfbottle 2023. 1. 7. 20:50
728x90
반응형

ChatGPT“GPT기술을 활용한 채팅 서비스라는 의미입니다. 혹여 딥러닝이나 NFT와 같이 향후 IT기술 트렌드를 가로지르며 살아남을 고유한 용어일지 고민하실 필요는 전혀 없습니다. 그냥 OpenAI에서 출시한 서비스의 명칭일 뿐이니까요.

GPTGenerative Pre-trained Transformer의 약자입니다. GPT를 이해하려면 생성적 모델(Generative Model), 프리트레이닝(Pre-training), 그리고 트랜스포머(Transformer)에 대한 이해가 필요합니다.

 

지금부터 이 세 가지 기술에 대해 간략하게 설명해보려 합니다. 수식을 배제하고 설명하겠습니다만, GPT라는 것이 워낙 복잡하기도 하고 여러분께서 일상에서 접해보신 적 없는 분야일 것이므로 어렵게 느껴질 수도 있습니다.

 

하지만 부디 부담을 가지지는 않으셨으면 좋겠습니다. 기술적 설명을 읽지 않고 바로 페이지를 넘기셔도 무방합니다. ChatGPT 선생님께서도 일반인이 딥러닝 기술을 이해하기 위해 고생할 필요는 전혀 없다고 하셨으니, 부담 없이 건너뛰셔도 좋습니다.

 

다만 인류의 특이점을 실시간으로 불러오는 기술을 살펴보는 지적 유희를 즐겨보시려면, 그리고 이를 토대로 급변하는 미래 사회에서 어떻게 살아남을지 계획을 세워 보고자 하신다면 천천히 전부 읽어보시는 것을 추천합니다.

 

(1) 생성적 모델 (Generative Model)

생성적 모델은 말 그대로 새로운 무언가를 생성해 내는 인공지능 모델을 의미합니다. 문장, 그림, 음악, 목소리 등 우리가 오감으로 느낄 수 있는 모든 영역의 데이터를 생산하는 용도로 널리 활용되고 있습니다.

 

컴퓨터가 그림이나 음악 등의 데이터를 스스로 생성해 낼 수 있다면 굉장히 많은 시간과 돈을 절약할 수 있습니다. 따라서 생성적 모델은 비교적 역사가 깊은 편이며, 전 세계의 AI 전문가들이 달려들여 연구하고 있는 분야입니다.

 

생성적 모델 분야의 혁신으로 불리는 GAN2014년에 발표된 이후, 셀 수 없이 많은 GAN의 변종들이 쏟아져 나오며 다양한 분야에서 인간의 작품과 구분하기 힘든 수준의 작품을 생성해내는 인공지능들이 발표되어 왔습니다.

 

그래서일까요? 2016년 알파고 사건 이후 바둑은 AI가 이겼지만 창의성의 영역은 인간의 성역이다.”라고 주장하던 분들을 보며 고개를 갸우뚱한 개발자들이 많습니다. 아마 생성적 모델을 연구하던 학자들은 저 주장에 전혀 동의하지 않았을 것입니다. 그랬다면 연구 분야를 바꿨겠지요. 정보의 비대칭성이 유발한, 재미있는 인식의 괴리입니다.

 

GPT는 문장을 입력받아 새로운 문장을 생성해낼 수 있습니다. 따라서 GPT는 생성적 모델의 일종으로 분류됩니다.

 
 

(2) 프리트레이닝 (Pre-training)

기계학습이나 딥러닝이라는 멋진 용어로 표현되는 현대의 인공지능은 학습(training)이라는 과정을 통해 데이터의 패턴을 습득합니다. 현대의 AI는 셀 수 없이 많은 숫자들을 묶어 둔 숫자 덩어리입니다. 각각의 숫자들은 인공 신경의 연결 강도를 의미합니다.

 

쉽게 말해 가상의 뇌세포들을 숫자 덩어리로 표현한 것이 인공지능이며, 학습은 데이터를 토대로 일정한 수학적 규칙에 따라 이 뇌세포들의 연결을 조금씩 변형시키며 지능을 다듬어나가는 행위입니다.

 

처음에는 숫자들을 비교적 큰 폭으로 수정하지만, 학습이 진행되어 AI가 데이터의 정보를 어느정도 습득한 이후에는 점점 더 조금씩만 수정을 진행합니다. 이 과정은 갓난아기가 성인이 되어가면서 뇌가 겪는 변화의 속도 변화와도 유사합니다. 어리면 어릴수록 뇌의 구조가 빠른 속도로 변형되며 지능이 개선되지만, 성인이 되면 변화가 매우 느려지거든요.

 

학습이 완료되어 데이터의 패턴을 모두 습득한 시점에 이르러서는 숫자들을 거의 수정하지 않게 됩니다. 이것이 학습의 본질이며, 이 숫자들을 유식한 말로 파라미터(parameter)의 개수라고 부릅니다.

 

파라미터 열 개를 수정하는 작업은 파라미터 천 개를 수정하는 작업에 비해 훨씬 쉽습니다. AI에 포함된 파라미터의 개수가 커지면 커질수록 AI를 학습시키는데 들어가는 시간과 비용이 기하급수적으로 증가합니다.

 

반면 AI의 성능은 파라미터가 많을수록 증가합니다. 인공지능을 구성하는 뇌세포가 많으면 많을수록 파라미터의 개수 또한 증가하거든요. 거대한 뇌를 가진 AI일수록 파라미터의 개수가 크기 때문에 학습에 시간과 돈이 많이 소요되며, 그 반대급부로 높은 성능을 꾀할 수 있다는 장점이 있습니다.

 

GPT-3 역시 높은 성능을 달성하기 위해 파라미터의 개수를 엄청나게 많이 증가시킨 인공지능에 해당합니다. 그런데 말이지요, 조금 도가 지나치게 많습니다. GPT-3의 파라미터 개수는 대략 1,750억 개거든요. 이세돌을 꺾은 알파고의 파라미터가 고작 10억 개에 지나지 않는다는 사실을 고려하면 무지막지한 수치라고 볼 수 있겠습니다.

 

이처럼 무겁고 둔감한 AI를 매번 처음부터 학습시키는 것은 무척이나 비효율적입니다. 따라서 GPT는 프리트레이닝(pre-training) 기법을 사용하여 학습에 소요되는 비용을 줄였습니다.

 

먼저 거대한 AI 모델을 준비한 다음, 주어진 텍스트 뒤에 이어질 단어로 알맞은 것을 고르는 객관식 문제를 풀도록 학습시킵니다. 만약 AI가 이와 같은 과제를 능숙하게 풀 수 있다면, AI는 인간의 언어의 구조가 가진 패턴을 어느정도 인식한 것으로 볼 수 있겠지요?

GPT의 프리트레이닝 전략 (삽화가에게 넘기기 전 도안입니다 그러려니 해 주세요)
 

이미 인간의 언어를 어느 정도 이해하고 있는 AI를 가져와 대화를 가르친다면 훨씬 수월하게 배울 수 있을 것입니다. 이것이 GPT가 차용한 프리트레이닝 전략입니다. 객관식 언어 문제로 학습된 AI를 가져와 그대로 사용하는 것입니다. 사전에(pre) 학습된(trained) 모델(pre-trained model)을 가져와 사용한다고 해서 프리트레이닝(pre-training)이라고 부릅니다.

 

문장 일부를 잘라내어 다음에 올 단어를 맞히는 객관식 문제는 제작하기가 수월합니다. 따라서 이를 활용해 대규모의 AI를 미리 학습시켜 두고, 학습된 모델을 복사해서 여러 종류의 언어 모델을 만든다면 무척이나 효율적일 것입니다. 이와같이 해결하려는 문제와는 다른 문제를 푸는 방향으로 학습된 AI를 가져와 사용하는 기법을 전이학습(transfer learning)이라고 부릅니다.

 

(3) 트랜스포머 (Transformer)

트랜스포머는 2017년 구글이 발표한 인공지능 기술, 처음에는 기계번역을 위한 원천기술로 제안되었습니다. 트랜스포머는 데이터를 압축하는 인코더(encoder)와 압축된 데이터를 다시 팽창시키는 디코더(decoder)로 구성되어 있습니다.

 

Transformer의 개략적인 구조

 

 

데이터를 압축하는 과정에서 문법이나 단어를 떠나 문장이 가진 추상적인 의미만 남게 되고, 이 의미를 디코더로 팽창하는 과정에서 단어의 선택이나 문법적 구조와 같은 정보가 더해지며 번역된 문장이 출력되는 것입니다.

 
Transformer의 조금 더 상세한 구조
 
 

트랜스포머 내부에는 여러 개의 인코더가 있습니다. 개발자의 필요에 따라 인코더의 개수를 늘리거나 줄일 수도 있고요. 인코더가 많으면 많을수록 입력값이 가진 의미가 더 추상화된 단계로 압축될 것이며, 인코더가 적으면 적을수록 입력값이 가진 원래의 형태가 보존될 것입니다.

 

또한 인코더와 같은 개수의 디코더도 들어 있는데요, 이 디코더가 압축된 정보를 팽창시키는 과정에서 매번 추상화된 의미를 참조합니다. 결과적으로 디코더가 문법적 구조에만 매몰되어 입력값이 원래 가지고 있었던 의미를 놓쳐버리지 않게 되는 것입니다.

인코더와 디코더의 구조
 

인코더와 디코더는 각각 <FNN><어텐션>이라는 도구로 구성되어 있습니다. FNN은 일반적인 인공신경망이고, “딥러닝을 사용한다는 뜻이구나.” 정도로만 받아들이셔도 좋습니다. 어텐션은 제공받은 데이터를 한꺼번에 모두 보는 것이 아니라, 데이터의 일부에 조금 더 주목하기 위해 사용하는 도구입니다.

 

“I had a cup of coffee at the cafe. It was so nice. Maybe it was made with Ethiopian Yirgacheff beans.”

 

위와 같은 텍스트가 있습니다. 밑줄 친 it은 어떤 의미일까요? 인간은 이게 커피를 의미한다는 사실을 바로 알아차릴 수 있습니다. 하지만 컴퓨터는 아닙니다. 컴퓨터에게 it이 의미하는 단어를 찾아내는 것은 무척이나 힘든 일입니다.

 

일반적인 AI는 문장 전체를 한꺼번에 수학적으로 분석하려 시도하지만 Transformer는 문장을 천천히 훑어보며 단어를 하나씩 하나씩 살펴보고, 그 단어가 it에 해당하는지 아닌지를 분석합니다. 이것이 바로 Transformer의 핵심인 <self-attention>입니다.

 

디코더에는 <Encoder-Decoder Attention>이라는 어텐션이 한 번 더 추가됩니다. 이 어텐션은 디코더가 문장을 한꺼번에 분석하기보다는 앞에서부터 중요하고 관련성 높은 부분에 집중할 수 있도록 도와주는 도구입니다.

 

GPT에서 가장 어려운 부분이 바로 이 트랜스포머입니다. 가장 중요한 부분이기도 하고요. 여담이지만, 트랜스포머는 구글의 발명품이고 특허도 등록되어 있습니다. ChatGPT가 수익을 낸다면 구글에 로열티를 지불하겠지요? 일부 언론들은 “ChatGPT는 구글의 종말이다.”라고 호들갑을 떨고 있습니다만, ChatGPT가 흥할수록 구글의 주머니는 두툼해지기만 할 것입니다.

 

(4) GPT

이제 우리는 GPT를 이해할 수 있게 되었습니다.

 

GPT의 구조
 

이 그림은 GPT의 구조를 표현한 것입니다. 입력값을 정돈하는 도구 뒤에 무수히 많은 Transformer를 이어붙입니다. 그리고 맨 뒤에 출력부를 부착하는 것이 GPT의 구조입니다. , Transformer 하나하나의 크기도 굉장히 크게 설계하고 그 개수 또한 말도 안 되게 많이 이어붙인 것입니다. , 여기서 사용된 Transformer는 인코더가 생략되는 등 구글이 발표한 원본과는 조금은 다른 구조를 가집니다.

 

그리고 이 모델에게 문장을 보여주고 이어질 단어로 올바른 것을 고르는 객관식 문제를 풀게 학습시키며 인간의 언어에 익숙해지도록 프리트레이닝 시킵니다. 프리트레이닝 된 모델을 수정하여 사람이 입력한 문장에 대한 적절한 답변을 출력하도록 만들면 GPT가 완성됩니다!

 

 

 

 

 

 

 

 

 
 

 

 
728x90
반응형
Comments