본문 바로가기
Monologue

[IT - LLM] GPT-o1 모델의 특이점 (feat. OpenAI)

by haku-s 2024. 9. 13.
728x90

2024년 9월 12일에 OpenAI에서 공개된 ChatGPT-o1 모델에 대한 성능을 공개했다.

유료 사용자는 ChatGPT o1-peview 혹은 ChatGPT o1-mini로 미리 사용해볼 수 있다.

 

기존의 여러 LLM을 사용하면 "처음에는 똘똘하게 대답하더니 갈수록 왜 바보같은 대답을 하는거지?" 같은 경험을 해 볼 수 있다.

이는 LLM의 특징으로 Pre-trained large language model이라고 해서, 알고리즘이 온라인 상에 존재하는 대규모 언어 데이터를 스스로 학습하고 훈련해서, 학습한 언어를 계산해 통계적으로 가장 적합한 단어를 하나씩 생성하는 식으로 답변을 하기 때문이다. (실제로 갈수록 오류가 발생하는 이유는 지난 context의 문맥을 기억하고 이를 바탕으로 대답을 하다보면 다른 방향으로 흘러가게 되는 경우가 있기 때문이다. 유저가 사용하는 모델은 이미 학습을 끝내놓았고 문맥에 따라 추가 학습은 진행되지 않는다.)

자세한 내용은 지난 포스트의 확률적 앵무새를 참고 할 수 있다.

https://haku-s.tistory.com/38

 

[IT - AI] 확률적 앵무새 (stochastic parrot)

최근 몇 년 사이에 인공지능에 대한 발전과 관심이 엄청나게 높았다. 요즘은 누구나 Chat-GPT와 같은 LLM(대형언어모델)을 사용하는게 당연하며 익숙해지고 있다. LLM의 사용은 간편하고 쉽지만 얻

haku-s.tistory.com

 

하지만 이번에 공개한 GPT-o1의 경우 응답하기 전에 추론을 통해 신뢰성을 높였다고 한다.

그 수준은 "OpenAI o1은 경쟁 프로그래밍 문제(Codeforces)에서 89번째 백분위에 올랐고, 미국 수학 올림피아드(AIME) 예선에서 미국 학생 상위 500위에 들었고, 물리, 생물학, 화학 문제(GPQA)의 벤치마크에서 인간 박사 수준의 정확도를 넘어섰습니다. 이 새로운 모델을 현재 모델만큼 사용하기 쉽게 만드는 데 필요한 작업은 아직 진행 중이지만, ChatGPT에서 즉시 사용할 수 있도록 이 모델의 초기 버전인 OpenAI o1-preview를 출시하고 신뢰할 수 있는 API 사용자를 대상으로 합니다.(새 창에서 열립니다)." 이렇게 올라왔다고 한다.

 

또한,  o1의 성능이 강화 학습(훈련 시간 컴퓨팅)이 더 많아지고 사고에 더 많은 시간을 할애할수록(테스트 시간 컴퓨팅) 지속적으로 향상된다는 것을 발견했다고 한다.

 

GPT-4o의 성능은 어떠했는가? GPT-o1와 성능을 비교하면 다음과 같다.

 

 

다음은 개발자가 가장 관심있는 분야인 코딩이다.

 

앞으로 AI의 발전은 향상될 것이고 일반 사용자는 AI를 어떻게 만드는가에 집중하는 것이 아닌 어떻게 활용하는가에 집중을 해야할 것으로 보인다.

개발자 또한 엄청난 자본과 기술력으로 AI 모델을 만드는 것이 아니라면 해당 AI를 활용하는 방향으로 가야할 것으로 보인다. 

 

ref)

https://openai.com/index/learning-to-reason-with-llms/

 

 

 

728x90