생성형 AI에 관하여
본사에서 진행하는 자체 세미나에 참석해서 생성형 AI에 관한 내용을 들었다.
말로만 들었지, 정확히 어떤 원리로 작동하는지는 잘 몰랐기에 굉장히 유익한 시간이었다.
세미나에서 들은 내용 + 내가 찾아본 내용을 조합해서 정리를 해볼까 한다.
자, 우선 생성형 AI가 어떤 녀석인지를 알아야한다.
생성형 AI (생성형 인공지능)은 대화, 이야기, 이미지, 동영상, 음악 등 새로운 콘텐츠와 아이디어를 만들 수 있는 AI의 일종이다.
사람이 하는 작업을 모방하려고 시도하며, 인공지능보다 한단계 앞서있는 형태라고 볼 수 있다.
우리가 흔히 이야기를 들어보았을 chatGPT, Bard와 같은 녀석들이 대표적인 예다.
주요 종류와 모델
Text
텍스트 생성은 가장 많이 발전된 영역이라 볼 수 있지만 사람의 자연어 구사 능력은 구현이 어렵다.
그러나 chatGPT나 Bard 등은 어느정도 글쓰기가 익숙한 편이다.
일반적인 반복 작업이나 보고서, 프레젠테이션을 제공할 수 있는 수준이 되었다.
code Generation
chatGPT에 code intepreter가 추가되면서 코드를 생성하는 역할을 수행하기도 한다.
개발자의 생산성에 기여할 수 있고, 비개발자도 쉽게 접근할 수 있을 것이다.
image
speech synthesis
음성합성 기술은 텍스트를 입력하면 특정인의 음성이나 구어체 음성으로 생성되는 기술로 발전했다.
Audio, Music…
음악 작곡부터 생물학, 화학 등 다양한 분야에서 창의성 있는 작업을 할 수 있다.
기존 AI와 생성형 AI의 비교
기존 AI와 생성형 AI는 작동방식 및 사용 용도에서 차이가 있다.
기존 AI는 사전에 정해진 규칙에 따라 작동하며 단순한 문제해결에 적합하다.
반면 생성형 AI는 데이터 학습을 통해 새로운 테이터를 생성하고 복잡한 문제 해결에 적합하다.
기존 AI는 명확한 규칙이 있기 때문에 신뢰성이 높지만
데이터가 부족하거나 편향 가능성이 높다.
그러나 생성형 AI는 다양하고 예측 불가능한 결과를 생성할 수 있지만,
모델 설명이 어렵고 생성된 데이터의 정확성을 보정해야 한다.
작동원리
1. 대규모 데이터 학습
생성형 AI는 대규모의 데이터를 학습하면서 문맥을 이해하고 패턴을 학습한다.
이러한 데이터 학습을 통해 인간과 유사한 언어 이해와 생성 능력을 갖추게 된다.
2. 딥러닝 알고리즘
딥러닝 알고리즘을 사용하여 다양한 layer로 구성된 신경망을 통해 정보를 처리하고 예측한다.
이런 알고리즘은 반복학습을 통해서 성능을 점진적으로 향상시킨다.
chatGPT 원리
생성형 AI 중에서 가장 유명한 chatGPT에 대해 알아보자.
chatGRT의 원리는 크게 대형 언어 모델과 인간 피드백형 강화학습으로 나뉜다.
1. LLM(대형 언어 모델)
대형 언어 모델은 문장에서 다음에 오는 단어를 정확하게 예측하기 위해 훈련된다.
데이터의 양을 늘릴수록 언어모델의 수행 능력도 증가한다.
대형 언어 모델은 문장의 단어들로 다음 단어와 문장도 예측한다.
그래서 사용자들이 단락뿐만 아니라 여러 페이지의 컨텐츠도 작성할 수 있는 것이다.
그러나 대형 언어 모델은 인간이 원하는 것을 항상 정확히 이해하는 것은 아니다.
이 단점을 보완하기 위해 인간 피드백형 강화학습 훈련을 거친다.
2. RLHF(인간 피드백형 강화학습)
인간 피드백형 강화학습은 사람의 피드백을 이용해 모델을 훈련시킨다.
RLHF는 강화학습과 인간의 피드백을 결합하는 기술로,
사람의 선호도를 보상 신호로 활용한다.
따라서 인공지능 모델이 고품질 언어 출력을 생성하도록 하는 것이다.
RLHF 프로세스는 초기모델교육 -> 인적피드백수집 -> 강화학습 -> 반복프로세스의 단계를 가진다.
생성형 AI의 장단점
생성형 AI의 장점으로는 단연 ‘생산성’을 꼽을 수 있을 것이다.
의료, 과학, 노동, 교육 등 다양한 분야에서 활용되며
인간의 노동력을 보완하여 새로운 형태의 창조물을 보여주고
그에 따라 생산성과 창의성이 높아질 것이다.
하지만 장점이 있다면 단점도 있는 법!!!
가장 대표적인 단점은 ‘할루시네이션’이라고 부르는 현상이다.
대량의 데이터를 학습하지만 제한이 없더보니 사용자의 질문에 거짓을 답하고,
이것을 마치 사실인 것처럼 답변하는 현상이다.
또한 저작권 이슈도 있다.
AI가 생성한 그림이나 음악 등의 결과물은 실제로 존재하는 것을 기반으로 학습되었기 때문이다.
오랜만에 듣게 된 본사 세미나였는데,
요즘 핫한 주제이다보니 흥미롭게 들었당 ㅎㅎ
IT는 정말 방대하고,,, 넓고,,,,
내가 다 알기에는 너무너무 거대한 분야지만
이렇게 하나씩 알아가는 재미가 그만큼 쏠쏠한 것 같다.