일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 네이버부동산크롤링
- 네이버 로그인 하기
- 네이버매물크롤링
- 날짜 정규식
- vscode venv 설치
- 파이썬 네이버 로그인
- venv 설치
- 네이버커머스API
- pycdas.exe
- pycdc.exe
- 가상환경설치
- 파이썬 가상환경 설치방법
- selenium
- 왕초보 파이썬 실행
- Uipath 설치방법
- 파이썬네이버부동산
- 커머스API
- 네이버 로그인 영수증 해결
- Element is not clickable at point
- pywinauto 윈도우제어
- 네이버 로그인 캡챠해결
- 파이썬 가상환경 설치
- Uipath 기초
- pywinauto
- pywinauto 윈도우
- Python
- Selenium 셀렉터잡기
- 파이썬 환경설정
- UiPath
- uipath 입문
- Today
- Total
콘솔워크
GPT-3 활용사례 및 API 신청방법 본문
GPT-3 개요 및 활용사례 (GPT-3 API 신청방법)
GPT-3 개요
GPT-3은 OpenAI사가 개발한 인공 일반 지능 모델입니다.
Generation Pre-trained Transformer 3(GPT-3)은 딥러닝을 이용해 인간다운 텍스트를 만들어내는 자기회귀 언어 모델이다. OpenAI사가 만든 GPT-n 시리즈의 3세대 언어 예측 모델이다. GPT-3의 전체버전은 1,750억개의 매개변수를 가지고 있어, 2020년 5월 도입된 이전버전 GPT-2보다 2배 이상 크다. 2020년 7월 현재 베타 테스트 중에 있으며, 사전 훈련된 언어의 자연어 처리(NLP) 시스템의 일환이다. GPT-3 출시 전 가장 큰 언어 모델은 2020년 2월에 선보인 마이크로소프트의 튜링 NLG로 GPT-3보다 용량이 10배 적었다.
GPT-3가 수행가능한 작업으로는 각종 언어 관련 문제풀이, 랜덤 글짓기, 간단한 사칙연산, 번역, 주어진 문장에 따른 간단한 웹 코딩이 가능하다.
GPT-3에서 생성되는 본문의 질은 매우 높아 유익성과 위해성을 동시에 지닌 인간이 작성한 본문과 구별하기 어렵다.
31개 오픈AI 연구진과 엔지니어들은 GPT-3를 소개하는 2020년 5월 28일 논문 원본을 발표하면서 GPT-3의 잠재적 위험을 경고하고 위험 완화를 위한 연구를 요구했다. 호주 철학자 데이비드 찰머스는 GPT-3를 "지금까지 생산한 AI 시스템 중 가장 흥미롭고 중요한 시스템 중 하나"라고 설명했다.
-
효율성이 너무 떨어진다.
GPT-3은 무려 1,750억개의 매개변수를 가지고 있으며 인간이 평생 보는 정보보다 많은 데이터를 학습해야한다. 사전학습에 필요한 비용[1], 시간이 너무 방대하고 활용하기도 쉽지 않다. -
현실세계의 물리적 상식을 잘 모른다.
GPT-3는 "치즈를 냉장고 안에 넣으면 녹을까?" 라는 질문에 "그렇다"라고 답했는데, 일반적인 사람이 당연히 알만한 물리적 지식을 잘 모른다. 이는 세상을 글로만 학습했기 때문에 눈먼 장님이 방 안에서 책을 통해 세상을 배운 것처럼, 우리가 눈을 통해 현실에서 직접 겪어봐 알 수 있는 매우 당연한 상식을 학습할 기회가 적었기 때문이다. -
모든 분야에서 뛰어난 것은 아니다.
아직까지는 대부분 테스크에서 사람보다 떨어진 성능을 보이며, 주어진 테스크마다 성능도 매우 차이난다. 예를 들어 두가지 이상의 복합연산 능력이 떨어지고, 테스크를 수행하기 위해 주어진 데이터가 적을수록 성능이 크게 떨어지는 경향을 보였다. -
학습에 사용된 예제를 외운 것인지 실제 추론한 것인지 구분하기 어렵다.
-
새로운 정보를 수용하기 어렵다. 한마디로 "기억력"이 없다.
현재까지 모든 딥러닝 안공지능이 그러하듯, 학습된 정보를 토대로 입력값에 대해 출력값을 내보낼 수는 있지만, 사람처럼 기억력이라 부를만한 것이 없다. 물론 학습에 사용되는 정보를 입력할 수는 있지만 사람의 기억과는 다를뿐더러 그 크기도 제한되어있다. 또한 새로운 값에 대해 동기화도 잘 이루어지지 않는다. -
GPT-3은 방대한 양의 텍스트를 통해 다음 단어를 예측하는 방식으로 학습되었다.
GPT-3 논문에 서술되어있듯이, GPT-3은 주어진 단어에 대해 통계적으로 가장 어울리는 다음 단어를 생성하는 것뿐이며 이해하는 것은 아니라는 비판이 있다. 생각과 이해가 무엇인지는 철학의 영역이지만, 분명한건 우리 인간은 다음 단어를 예측하는 방법으로 언어를 학습하지 않았다는 점이다.
GPT-3 활용사례
GPT-3는 OpenAI가 만든 언어 AI의 이름입니다. OpenAI가 5월 말에 논문을 공개하고, GPT-3를 이용한 API를 클로즈 베타로 공개한 이후, 서구권의 SNS와 미디어는 그야말로 난리가 났습니다. 주류 미디어는 물론, 머신러닝과 거리가 먼 일반인들까지 GPT-3에 대해 얘기하고 있죠. 한마디로 바이럴 폭탄이 터진 겁니다.
상식 Q&A
상식적인 Q&A에 주제를 가리지 않고 잘 대답합니다. 심지어 파이널 판타지 6의 마지막 보스의 이름도 답할 수 있습니다.
검색 엔진
그렇기 때문에 이 특성을 활용해 무엇이든 답을 해주는 검색엔진도 만들어볼 수 있습니다.
▼ 영문판 무엇이든 물어보세요 사이트 (ask me anythig)
twitter.com/i/status/1284801028676653060
이력서 작성
어디에서 언제부터 언제까지 어떤 직책으로 일했는지 적으면 세부 설명까지 달아서 이력서에 추가해줍니다.
▼ 이력서 작성해주는 GPT-3
twitter.com/i/status/1284908940149395456
자유 대화 (하돈스톤)
기본적인 주제에 대해서도 대화를 나눌 수 있습니다.
▼ 하돈스톤에대한 자유대화
Conversation with GPT-3 About Hearthstone, Kripp, and How to Make a Good Deck
자유대화 (코로나19)
심지어 코로나19에 대해서도 이야기를 나눌 수 있습니다. 이게 특히 신기한 이유는 GPT-3의 데이터셋은 2019년 10월이 마지막이어서 코로나를 모르기 때문입니다.
▼ GPT-3과 코로나19에 대한 대화
하지만 상황을 설명해주고 대화를 이어가면 할 수 있습니다.
텍스트에서 데이터 파싱
- 가상의 행성에서 자라는 가상의 과일에 대한 글을 보여주고, 그 과일을 요약한 표를 만들어달라고 하면 그냥 만들어줍니다.
- 참고로 아래의 표를 만들 때 어떠한 기준으로 만들어야하는지 명시적으로 지시하지 않았습니다. 그냥 모델이 텍스트에서 색깔과 맛이라는 분류 기준을 판단해서 생성한 겁니다.
- 또한, 이 텍스트는 완전히 가상의 내용이라는 것을 상기해주십시오. 이를 보아 모델이 학습한 데이터에서 외워서 결과를 내놓는 게 아니라 실제로 텍스트를 보고 요약한 것이라고 볼 수 있습니다.
전문적인 의학 지식
전문적인 의학 지식도 답을 할 수 있습니다.
프로그래밍 (쉘 스크립트)
자연어를 쉘 스크립트 코드로 바꿔서 실행하고 결과를 보여줄 수 있습니다.
▼GPT-3를 활용한 쉘스크립트 작성
vimeo.com/427943407/98fe5258a7
프로그래밍 (간단한 홈페이지와 간단한 리액트 앱)
자연어로 홈페이지나 앱을 설명하면, 그에 대한 코드가 나오고, 이를 돌려볼 수 있습니다.
▼ 말로만 리액트앱 만들기
twitter.com/i/status/1282676454690451457
문장을 낚시성 기사 제목 스타일로 바꾸기
- 문장을 주고 이를 낚시성 기사 제목 스타일로 바꾸라고 하면 바꿔줍니다.
- GPT-3는 아래의 예시처럼 수행해야할 일의 예시를 직접 보여주면 성능이 높아지는 경향을 보입니다.
블로그 자동 포스팅 사례
한 대학생이 언어 생성 AI도구 GPT-3을 사용해 최근 헤커뉴스(Hacker News)에서 인기 가짜 블로그 게시물을 제작했다.
리암 포어(Liam Porr)는 GPT-3로 제작 된 콘텐츠가 사람이 작성한 것으로 믿도록 속일 수 있음을 보여 주려했고 “실제로 매우 쉬웠다”고 말했다.
샌프란시스코 기반 OpenAI에서 설계한 일련의 AI 자동 완성 도구의 최신 버전이며 수년 동안 개발 중인 GPT-3(generative pre-trained transformer-3)는 인간 작가의 초기 메시지를 기반으로 텍스트를 자동 완성한다.
‘MIT Technology Review’에 따르면 모든 딥 러닝 시스템과 마찬가지로 GPT-3는 데이터에서 패턴을 찾는다. 작업을 단순화하기 위해 이 프로그램은 통계적 규칙성을 찾기위해 수집된 방대한 텍스트 코퍼스에 대해 훈련됐다. 이러한 규칙성은 사람에게 알려지지 않았지만 GPT-3의 신경망에있는 서로 다른 노드간에 수십억 개의 가중치 연결로 저장된다
이 프로세스에 사람은 개입하지 않는다. 프로그램은 24시간 패턴을 찾고 그 후 이를 사용해 텍스트 프롬프트를 완성한다. GPT-3에 “불(fire)”이라는 단어를 입력하면 프로그램은 네트워크의 가중치를 기반으로 “트럭(truck)”및 “경고(alarm)”이라는 유관 단어가 다른 보다 훨씬 더 뒤따를 가능성이 있음을 인식한다.
다음은 “비생산적이라고 느끼는가(Feeling unproductive)?”라는 제목의 포어 블로그 게시물 (가명 작성자)의 샘플이다
정의 # 2 : Over-Thinking(OT)은 이미 다른 사람이 생각한 아이디어를 떠올리려는 행위다. OT는 일반적으로 비실용적이거나 불가능하거나 심지어 어리석은 아이디어를 낳는다.
인터넷에서 마케팅 등 광고기사 및 기타 콘텐츠로 활용이 가능하다.
OpenAI는 GPT-3의 API에 대한 액세스 권한을 처음부터 공개하지 않고 비공개 베타로 연구원에게 제공하기로 결정했다.
버클리에있는 캘리포니아대학의 컴퓨터과학과 학생 포어는 이미 API에 액세스 할 수있는 박사 과정 학생을 찾을 수 있었고 그와 함께 실험에 참여했다. 그는 GPT-3에 블로그 게시물 헤드 라인과 내용을 소개하는 스크립트를 작성했다. 게시물의 몇 가지 버전이 생성됐고 포어는 블로그 용으로 하나를 선택했으며 거의 편집없이 GPT-3 버전에서 복사해 붙여 넣었다. GPT-3 버전 게시물이 올라간지 몇 시간 만에 블로그에는 2만6,000명 이상 방문자가 늘었다. 관련 글이 AI로 생성됐는지 물어보기 위해 한 사람만 연락했으며, 몇몇 댓글 작성자는 GPT-3이 작성자라고 추측하기도 했다. 그러나 포어는 커뮤니티가 이러한 댓글에 대해 반대표를 던졌다고 설명했다.
출처: http://scimonitors.com/%EC%98%A4%ED%94%88ai-gpt-3-%EC%9E%90%EB%8F%99%EC%83%9D%EC%84%B1-%EB%B8%94%EB%A1%9C%EA%B7%B8%EC%97%90-%EC%88%98%EB%A7%8C%EB%AA%85-%EC%9C%A0%EC%9E%85/
Ai Dungeon 게임으로 GPT-3와 대화
주제는 영화입니다.
Ai Dungeon 게임으로 GPT-3와 대화1
주제는 걸그룹 입니다.
GPT-3에대한 댓글 반응
GPT-3의 학습방법
GPT-3은 주어진 텍스트에 대해 그저 ‘다음에 올 단어를 예측’하는 방식으로 학습합니다.
GPT-3의 학습과정 (출처: https://jalammar.github.io/)
GPT-3는 이렇게 끊임없이 다음 단어를 예측하며, 정답을 맞힐 수 있는 방향으로 모델을 업데이트 해나갑니다. 이런 방식으로 인터넷에 있는 문서와 책, 위키피디아 등 엄청난 양의 텍스트를, 1,750억 개의 파라미터에 달하는 엄청나게 큰 모델로 학습시킨 게 바로 GPT-3입니다.
GPT-3의 다음 단어 예측 과정 (출처: https://jalammar.github.io/)
이렇게 끊임없이 다음 단어를 예측하게 하는 방식으로 모델을 학습시키면 어떤 모델이 나올까요? 당연히 다음 단어를 잘 예측하는 모델이 나옵니다. 일종의 ‘자동완성(auto-complete)’ 모델인 거죠. 문제는, GPT-3의 자동완성이 너무나도 훌륭하다는 겁니다. 너무 훌륭하게 다양한 컨텍스트에 대해 자동완성을 하다보니 과연 이걸 ‘자동완성’이라고 부를 수 있는지 의문이 들 정도입니다.
예를 들어, “현대자동차가 처음으로 자체 생산한 차의 이름은?” 이라는 문장을 GPT-3에 넣으면, GPT-3는 그 다음에 나올 확률이 가장 높은 단어를 판단해서 “현대 포니”라는 말을 생성합니다. 다른 예를 들어볼게요. GPT-3에 다음과 같은 컨텍스트를 준다면..
“다음은 CNN 앵커 앤더슨 쿠퍼와 대통령 선거 출마를 발표한 칸예 웨스트의 인터뷰이다.
- 앤더슨 쿠퍼: 칸예 웨스트씨, 안녕하세요? 인터뷰에 응해주셔서 감사합니다.
- 칸예 웨스트:”
그 이후에 실제로 둘이 인터뷰를 한다면 나올 법한 말이 생성됩니다.
이처럼 GPT-3에 컨텍스트를 어떻게 주는지에 따라 다양한 결과를 얻을 수 있습니다. 주어진 컨텍스트(가늘게 표시된 텍스트)에 대한 ‘자동완성’으로 생성된 결과(볼드로 표시된 텍스트)를 보여줍니다.
넓은 지식, 상식, 사고력을 갖지 않으면 할 수 없는 자동완성을 GPT-3가 해내고 있는 거죠. 사람들이 GPT-3에서 인간 수준의 범용적인 인공지능(AGI) 느낌을 받는 것도 이상한 일이 아닙니다.
GPT-3의 의미
사실 GPT-3는 ‘3’이라는 숫자에서도 알 수 있듯, GPT 모델 시리즈의 3번째 버전입니다. 두 번째 버전인 GPT-2는 2019년 초에 발표 되었는데요, 사실 GPT-3는 GPT-2와 크게 다를 바가 없습니다. 더 큰 모델로 더 많은 데이터를 학습했을 뿐이죠. 하지만, 모델과 데이터의 스케일만 키웠음에도 불구하고 GPT-3는 GPT-2에 비해 비교할 수 없을 정도의 성능을 보이며, 다양한 언어 태스크를 성공적으로 수행합니다. GPT-3의 가장 큰 의미는 스케일만으로도 이런 일이 가능하다는 걸 보여준 것입니다.
범용성
GPT-3은 이 모든 일을 파인 튜닝(fine-tuning) 없이 해냅니다. 일반적으로 머신러닝 모델은 어떠한 일을 수행하기 위해 그에 해당하는 데이터를 학습시켜야만 했습니다. 예를 들어, 문장을 낚시성 기사 제목으로 바꾸는 모델을 만들고 싶다면, 적어도 수만 개에서 많게는 수십만 개의 예시 데이터를 학습시켜야만 그럴듯한 성능을 얻을 수 있는 거죠. 그런 데이터는 사람이 직접 만드는 수밖에 없습니다. 많은 시간과 비용이 드는 일이죠.
하지만, GPT-3는 문장을 낚시성 기사 제목으로 데이터를 배운 적이 없습니다. 그런 명시적인 데이터는 존재하지 않으니까요. 하지만 일반적인 텍스트 데이터를 단순하게 학습하는 것만으로도 그런 능력을 획득했습니다. 이 속성은 중요한 의미를 지닙니다. 새로운 언어 태스크를 위해 굳이 데이터를 만들지 않더라도 꽤 높은 성능을 보인다는 뜻이죠. 위의 예시로 보여드렸던 모든 결과는 단일한 데이터를 학습한 단일한 모델의 결과입니다. 즉, 대부분의 언어 태스크를 잘 수행하는 범용적인 언어모델이 탄생한 겁니다.
GPT-3와 트랜스포머 (뉴스기사 인용)
GPT-3는 무엇인가?
GPT-3는 무려 1750억개의 매개변수를 사용해 다수의 언어 작업을 수행할 수 있는 거대한 자연어 처리 모델(NLU, natural language understanding)이다. 세계에서 가장 규모가 큰 언어처리 모델인 GPT-3는 마이크로소프트의 튜링NLG(Turing-NLG)나 이전 모델인 GPT-2를 뛰어넘는다.
GPT-3는 기계번역, 질의응답, 언어분석, 문자 생성 등 수많은 언어 작업을 수행할 수 있다. 진위를 구별하기 어려울 정도로 진짜 같은 가짜 글을 생성할 수 있어 언론의 집중적인 관심을 받고 있다.
이것이 암호화폐 업계에 미칠 영향은 무엇일까? 거래 규모가 크지 않은 암호화 자산에 대한 가짜 뉴스를 만들어 시세 변동에 영향을 줄 가능성이 있다. 꽤 무서운 이야기지만, GPT-3의 주요 기능은 따로 있다.
언어 기반 모델인 GPT-3는 문자 기반의 데이터 세트를 가지고 작업한다. 상당히 멋진 기능이지만, 암호화폐 업계에서 그다지 흥미를 끌 만한 일은 아니다. 사실 우리가 주목해야 할 부분은 GPT-3의 기반이 되는 기법이다.
GPT-3의 근간을 이루는 마법
GPT-3의 기반은 트랜스포머(transformers)라 불리는 딥러닝 체계다. 트랜스포머에 대한 개념은 2017년 구글 브레인(Google Brain)이 발간한 보고서 “필요한 것은 집중(Attention is all you need)”에서 처음 소개됐다.
트랜스포머의 가장 큰 특징은 보고서의 제목처럼 ‘집중’이라는 개념을 접목했다는 것이다. 일반적으로 집중 메커니즘은 Seq2Seq 모델에 적용된다. 순서대로 나열된 단어나 글자, 숫자 등을 입력하면 새로운 배열이 출력되는 모델로, 문자 생성, 기계번역, 질의응답 등 언어 지능 작업에서 폭넓게 활용되고 있다.
Seq2Seq 모델을 처리할 때는 인코더(encoder)와 디코더(decoder) 기능이 관여한다. 인코더는 입력된 배열의 맥락을 파악해 디코더에 전송한다. 디코더는 이를 바탕으로 새로운 배열을 구성해 출력한다. 입력된 배열에서 ‘집중해서 봐야 할’ 주요 측면을 파악해 전통적 신경망의 한계점을 뛰어넘은 것이 바로 이 ‘집중 메커니즘’이다.
기계번역을 통해 스페인어를 영어로 바꾸는 상황을 생각해보자. 인코더가 입력된 스페인어 문자를 ‘상상의 언어’로 알려진 중간 형태로 바꿔 놓으면, 디코더가 이를 영어로 변환하는 방식이 일반적이다. 더 전통적인 딥러닝 환경에서는 인코더와 디코더 사이의 소통이 지속적으로 이뤄져야 하므로 효율성이 상당히 떨어진다.
집중 메커니즘의 주요 임무는 입력된 배열을 보고 단계마다 해당 배열에서 중요한 것이 무엇인지 파악하는 것이다. 기계번역을 수행하는 경우라면 디코더가 ‘집중해서 봐야 할’ 단어를 강조해주는 식이다.
GPT-3의 기반이 되는 트랜스포머는 인코더와 디코더 기능을 접목한 전통적 기법으로, 효율성을 개선하기 위해 집중 블록을 삽입한다. 집중 블록은 입력된 내용 전체와 현시점의 출력 내용을 보면서 최종 출력물을 최적화할 수 있는 요소들을 추론한다.
트랜스포머는 방대한 크기의 데이터 세트를 학습할 수 있고 효율적으로 비교 가능한 다양한 모델의 밑거름이 됐다. 구글 보고서가 발간된 이후 다양한 언어 작업을 처리할 수 있는 슈퍼 모델을 구축하기 위한 경쟁이 시작된 것은 놀라운 일도 아니다. 구글의 버트(BERT), 페이스북의 로버타(RoBERTa), 마이크로소프트의 튜링NLG와 오픈AI의 GPT-3모두 트랜스포머를 기반으로 하는 최신 모델이다.
GPT-2는 15억개의 매개변수를 사용해 세계를 놀라게 했다. 이후 170억개의 매개변수를 사용하는 마이크로소프트의 튜링 NLG가 등장하면서 기록이 깨졌는데, GPT-3는 1750억개라는 말도 안 될 만큼 큰 규모의 매개변수를 사용한다. 이 모든 것이 고작 1년이라는 시간 안에 이뤄졌다. 결론은 간단하다. 트랜스포머 모델이라면 그 규모가 클수록 좋다.
1세대 트랜스포머 모델들은 언어 작업에 초점을 맞췄다. 최근에는 페이스북이나 오픈AI와 같은 기업들이 이미지 분류에 트랜스포머 모델을 활용하는 방안을 담은 연구 보고서를 발간했다. 일각에서는 가짜 이미지 생성을 위한 수법으로 여길 수도 있겠지만, 실제 영향력은 이를 훨씬 넘어설 것으로 보인다.
이미 분류가 이뤄진 데이터 세트가 많지 않은 상태에서 이미지 분류 모델의 학습 효율을 높이기 위해서는 가짜 이미지를 생성하는 것이 매우 중요하다. 실제로 퀀트 거래 전략 향상을 위해 트랜스포머 모델에 금융 시계열 데이터를 학습하려는 시도가 진행되고 있다.
트랜스포머와 암호화 자산
이제 트랜스포머와 GPT-3에 대한 맥락을 어느 정도 파악했으니 처음의 질문으로 되돌아가자. GPT-3는 과연 암호화폐 업계가 두려워해야 할 기술일까?
물론 암호화폐 시장을 움직일 만한 가짜 뉴스를 생성할 수 있는 모델이 세상에 나왔다는 것은 가볍게 넘길 일이 아니다. 하지만 나는 현재 모습의 GPT-3를 암호화폐 업계에 위협이라고 보지 않는다. 오히려 트랜스포머 기반 모델이 차세대 암호화폐 지능 솔루션에 어떤 영향을 미칠지 더 관심이 간다. 실제로 예상할 수 있는 이용 사례는 다음과 같다.
거래 전략. 트랜스포머를 금융 데이터에 적용할 수 있다는 것이 입증된 이상, 암호화 자산에 대한 거래 전략 수립에 상당한 영향을 줄 수 있다. 현재 딥러닝을 기반으로 한 대부분의 신경망은 퀀트 거래 부문에서 새로운 지평을 열고 있다. 선형회귀 모델이나 의사결정 계통도와 같은 기본적인 머신러닝 모델부터 더 발전된 형태의 딥러닝 전략을 찾는 퀀트 펀드가 늘고 있다.
본질적으로 디지털 형태를 취하는 암호화 자산은 퀀트 전략을 위한 최고의 자산이다. 순환신경망(RNN, Recurrent Neural Network), 복합형신경망(CNN, Convolutional Neural Network) 등 퀀트 분야에서 인기를 얻은 기법들은 암호화 자산에도 잘 적용되는 것으로 보인다. 트랜스포머는 언어 분석과 마찬가지로 RNN이나 CNN보다 뛰어날 것으로 보이며, 특히 올해 3월 비트코인 폭락장처럼 한 데이터 세트 내에 ‘집중’해서 봐야 할 부분들이 있을 때 더욱 그렇다. 또 블록체인 거래처럼 기록 데이터가 방대한 경우에도 유용할 것으로 기대된다.
블록체인 분석. 트랜스포머를 활용하면 지금보다 훨씬 효율적인 계산 방식으로 블록체인에 존재하는 패턴을 파악할 수 있을 것으로 보인다. 트랜스포머의 주요 기능 중 하나는 입력된 데이터에서 특정 부분에 ‘관심을 집중’하고 그를 통해 출력해야 할 내용을 추론하는 것이다. 비트코인 채굴 내역이나 거래소 입출금 내역을 분석해 거래장부 패턴을 파악하고자 하는 경우 트랜스포머가 특히 더 유용할 수 있다.
탈중앙화. 트랜스포머 모델을 싱귤러리티넷(SingularityNet)과 같은 탈중앙화 인공지능 체계에 접목하기 위한 노력이 계속되고 있다. 실현된다면 트랜스포머의 사용은 우리가 아직 상상하지 못한 방면까지 확대될 수 있다. 지금까지 GPT-3와 같은 트랜스포머 모델은 거대한 신경망을 구축하고 운영할 수 있는 데이터와 자원이 있는 대기업 인공지능 실험실의 특권이었다. 탈중앙화 방식의 인공지능은 인센티브를 기반으로 하는 탈중앙화 네트워크에서 트랜스포머의 학습과 작동, 모니터링이 모두 이뤄질 수 있는 하나의 대안을 제시한다.
이미 이와 같은 탈중앙화 환경에서 성공적으로 작동한 신경망이 있었던 만큼 GPT-3와 같은 모델이 싱귤러리티넷이나 오션 프로토콜(Ocean Protocol)과 같은 탈중앙화 인공지능 플랫폼에서 작동되는 모습을 조만간 보게 될 수도 있다.
GPT-3를 비롯한 트랜스포머 모델의 등장은 딥러닝 역사의 획기적인 발전이다. 앞으로 몇 년간 우리는 트랜스포머가 딥러닝의 모든 주요 분야에 영향을 끼치는 모습을 보게 될 것이다. 또 이 영향력은 금융 시장으로 확대될 것으로 보이며, 암호화폐 역시 이 혁신의 혜택을 볼 수 있어야 한다.
이처럼 영향력이 큰 GPT-3이지만, 두려워할 필요는 없다. 인공지능 분야에서 이뤄지는 주요 혁신 기술을 잘 활용하기만 한다면, 암호화폐는 역사상 가장 지능적인 자산군이 될 수 있다.
GPT-3 신청방법
1. OPenAI API 사이트에 접속합니다.
2. Join the waitlist 버튼 클릭
3. 신청서 작성 후 "제출" 버튼 클릭
저도 신청한 상태인데, 승인은 잘 안해준다고 합니다. GPT-3의 활용했을 때 가짜뉴스나 부작용이 커서 아직은 보수적으로 운영하는 것 같습니다.
참고1 - 조코딩님 유튜브
www.youtube.com/watch?v=I7sZVrwM6_Q&vl=ko
02:32 React 앱 코딩하는 인공지능 twitter.com/sharifshameem/status/1284421499915403264?s=20
03:14 SQL 쿼리 제작 인공지능 twitter.com/FaraazNishtar/status/1285934622891667457?s=20
03:51 디자인 해주는 인공지능 (Figma) twitter.com/jsngr/status/1284511080715362304?s=20
04:14 엑셀 인공지능 함수 twitter.com/pavtalk/status/1285410751092416513?s=20
04:38 이메일 작성 인공지능 twitter.com/OthersideAI/status/1285776335638614017?s=20
05:15 문장 변환 인공지능 twitter.com/IntuitMachine/status/1286974653345542145?s=20
05:55 소설 쓰는 인공지능 twitter.com/QasimMunye/status/1288912561178640385?s=20
06:15 밈(Meme) 생성 인공지능 twitter.com/wowitsmrinal/status/1287175391040290816?s=20
06:31 인공지능 검색엔진 twitter.com/paraschopra/status/1284801028676653060?s=20
06:51 재무제표 작성하는 인공지능 twitter.com/itsyashdani/status/1285695850300219392?s=20
07:22 활용 사례 모아보기
07:35 GPT-3의 한계
07:56 OpenAI API Waitlist 소개
GPT-2 논문: cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
GPT-3 논문: arxiv.org/pdf/2005.14165.pdf
GPT-3 OpenAI API 활용 사례 모음: gptcrush.com/
참고2 - GPT-3개발사례
참고3 - GPT4 논란점화
"2032년이전에 5백만 달러 수준의 학습비용으로 GPT-3의 1000배 수준인 100조 단위의 파라미터를 사전학습 시킨 GPT-4 출시가 가능하다"
오픈AI에서 출시한 자연어처리 언어모델 GPT-3의 뛰어난 성능 찬사와 오류 우려가 엇갈리는 가운데, AI학계에서 GPT-4 출현 논란이 시작됐다. 오픈AI 창립자인 일론 머스크는 "5년 내 AI가 인간을 추월할 것"이라며, 인공지능이 인간지능을 넘어서는 소위 '특이점(Singularity)' 논쟁에 불을 지핀 바 있다. ( [AI & Tech] “5년 내 AI가 인간 추월한다”…일론 머스크의 경고 ).
11일 MIT AI연구원 렉스 프리드맨(Lex Fridman) 박사에 따르면 "인간의 뇌 수준인 약 100조개 시냅스(연접 : 뉴런과 뉴런 사이 신호를 전달하는 연결지점)를 가진 모델이 GPT-4"로 정의됐다.
프리드맨 박사는 "GPT3는 1750억 개의 매개변수를 학습했고, 이는 GPT2의 100배 수준"이라면서 "GPT3의 계산 속도 기준을 3.14E +23플롭스로 잡으면 사전 학습 비용은 약 460만 달러(한화 약 55억 원)"라고 설명했다.
플롭스는 컴퓨터 성능 수치를 계산하는 단위.
그는 "2020년 출시를 가정하면 GPT4의 학습 비용은 약 26억 6000만 달러(한화 약 3조 867억원)에 달하지만, 컴퓨팅(하드웨어 및 소프트웨어) 기술 발달로 24년에는 3억 2500만 달러, 28년 4000만 달러, 32년에는 500만 달러로 그 비용이 줄어들 것"으로 분석했다. 이는 '신경망의 알고리즘 효율도 측정'연구 결과 ( https://arxiv.org/abs/2005.04305) 를 인용, 지난 7년간 인공신경망 훈련 효율이 16개월마다 2배씩 증가했다는 점을 반영한 계산 방식.
이같은 주장이 유튜브(https://www.youtube.com/watch?v=kpiY_LemaTc)와 트위터 계정을 통해 공개되자 찬반 댓글이 이어지고 있다.
반박의 요지는, "인간 뇌의 시냅스와 인공지능의 파라미터 작동 방식과 정의는 똑같지 않다(@Lenny Rabbiz)"는 것.
또, "GPT2와 GPT3 손실 함수 계산법을 근거로 GPT4 학습 비용을 추청했지만, 14억 개 이상의 매개 변수를 가진 모델에 사용할 수 있는 GPU가 존재하지 않으므로 GPT4 사전학습 비용은 약 880억 달러"라는 주장도 제기됐다.
김창경 전 교육부 차관은 "일론 머스크는 인공지능과 싸우기 위해 인공지능을 사람 두뇌와 연계하는 뉴럴링크를 만들고 있다"면서 ([AI & Tech] “뇌와 컴퓨터 연결한다”…일론 머스크, 뇌에 이식할 두뇌칩 '뉴럴링크' 개발 ) "지금은 아예 교육과 학습에 대한 사고 자체를 완전히 바꿔야 하고 살아남는 시점인데 한국의 교육계는 기이할 만큼 고요하다"고 지적했다.
오픈AI가 2018년 첫 출시한 GPT1은 1억 1700만 개의 매개변수로 학습했다. 2019년 4번에 걸쳐 공개된 GPT2는 모델의 크기에 따라 약 1억 2400만개에서 15억개로 GPT1의 10배 수준이다. 올 6월 1750억개의 매개변수로 훈련된 GPT3는 각각 GPT1의 1000배, GPT2의 100배 이상 크기이다.
www.aitimes.com/news/articleView.html?idxno=131416