구글 LLM을 위한 자기 발견 (self-discover) 프롬프트 알아보기

2024. 2. 17. 23:52생활

반응형

 

구글은 LLM이 스스로 '자기 발견' 프롬프트 등장을 통해 작업별 최적 추론 방식으로 스스로 성능과 효율성을 대폭 향상 시켜서 인간과 AI 협업의 잠재력을 향상 시킬 수 있는 시대가 되어 가고 있습니다.

 

그럼 LLMdml 자기 발견 (self-discover) 프롬프트 프레임워크에 대해서 알아보도록 하겠습니다.

 

 

 

 

자기 발견 (Self-discvory) 프롬프트 프레임 워크 등장

 

 

 

대형언어모델(LLM)이 스스로 성능을 향상한다는 '자기 발견(self-discover)' 프롬프트 프레임워크가 등장했습니다.

구글 딥마인드는 이를 통해 'GPT-4'의 성능을 최대 32% 끌어올렸다고 주장했습니다.

 

벤처비트는 최근 구글 딥마인드와 서던캘리포니아대학교(USC) 연구진이 아카이브와 허깅페이스를 통해 기존 프롬프트 엔지니어링을 능가하는 새 프레임워크를 제안했다고 보도했습니다.

 

이에 따르면 이번 연구는 특정 작업에 적합한 추론 기술을 선택하는 동시에 효율적인 추론을 위해 고유한 기본 구조를 자체 발견하는 방식입니다.

 

LLM에는 인간이 어떻게 추론하고 문제를 해결하는지에 대한 인지 이론에서 영감을 받은 다양한 프롬프트 기술을 사용합니다.

 

여기에는

① 문제를 단계별로 해결하는 '생각의 사슬(CoT)'

② 문제를 여러 하위 문제로 나누는 '분해(decomposition prompting)'

③ 문제에 대해 피드백을 구하는 '스탭백(step-back prompting)' 등이 포함됩니다.

 

또 CoT의 단점을 보완하기 위한 '계획 및 해결(PS, plan-and-solve)'이라는 프롬프트 기술도 등장했습니다.

 

특히 CoT는 LLM 정확도를 향상하는 주요 방식으로 수년간 활용됐습니다.

 

하지만 연구진은 "각 작업이 고유한 구조를 갖고 있고 이에 따라 특정 기술이 다른 기술보다 문제를 해결하는 데 더 나을 수 있기 때문에, 일괄적으로 CoT를 적용하는 식이 최선이 아닐 수 있다"라고 주장했습니다.

 

따라서 작업에 적합한 추론 기술을 LLM이 자체 발견하고 선택하는 프롬프트 프레임워크를 제안했다고 밝혔습니다.

“인간이 문제 해결을 위한 추론 프로그램을 내부적으로 고안하는 방식에서 영감을 받았다"라는 설명 했습니다.

 

 

자기 발견 (Self-discvory) 프롬프트 프레임 워크 작업 단계 

 

 

 

작업은 2단계로 진행됩니다.

 

 

우선 LLM과 작업 내용, 원자 추론 모델(Atomic Reasoning Module) 등을 통해 작업에 최적화된 프롬프트 기술을 스스로 찾아낸 뒤 LLM 작업별로 선택한 모듈을 각각 적용하고, 작업을 최종 해결합니다.

 

즉 1단계에서는 LLM이 각 작업에 대한 추론 구조를 생성하며, 2단계에서 LLM은 자체 발견한 구조에 맞춰 추론, 최종 답변에 도달합니다.

 

자기 발견 프레임워크 개요도

 

 

자기 발견 (Self-discvory) 프롬프트 프레임 워크 작업 단계 

 

 

 

자기 발견 프레임워크의 성능을 확인하기 위해 연구원들은 GPT-4 및 '팜 2(PaLM 2-L)' 등 여러 모델을 활용, 빅-벤치 하드(Big-Bench Hard, 현재 LLM 기능을 넘어서는 작업 평가), 행동 사고(Thinking for Doing), 수학 등 25가지 추론 작업에 대한 벤치마크를 실시했습니다.

 

그 결과 25개 작업 중 21개 작업에서 자기 발견은 CoT나 다른 기술보다 성능이 최대 32% 향상되는 것을 발견했습니다.

또 추론을 위한 컴퓨팅이 기존보다 10~40배 더 적게 필요하다고 전했습니다.

 

구체적으로 GPT-4를 대상으로 빅-벤치 하드에서는 81%, 행동 사고 85%, 수학 추론 73%의 정확도를 보였습니다.

반면 CoT는 각각 75%, 52%, 71%로 떨어졌다. 계획 및 및 해결 프롬프트와의 비교도 비슷한 양상이었습니다.

 

팜 2에서는 67%, 69%, 50.5%의 정확도를 기록했으며, 이는 GPT-4보다 낮지만, CoT(60%, 40%, 42%) 및 계획 및 해결(61%, 42%, 49%) 방식보다 훨씬 뛰어납니다.

 

벤처비트는 "LLM이 스스로 추론 방식을 찾아낸다는 아이디어는 이제 막 제안됐지만, 궁극적으로는 일반인공지능(AGI)을 향해 나아갈 수 있는 잠재력을 가지고 있다"라고 평했습니다.

 

연구진은 “이번 연구를 통해 LLM의 미래와 인간-AI ​​협업의 잠재력을 발견할 수 있어 기쁘게 생각한다”라고 밝혔습니다.

 

프롬프트 기술도 계속 발전하고 있으며, 단순한 프롬프팅만으로도 LLM을 실현할 수 있는 시기가 다가오고 있습니다.

 

용어 해설

 

 

 

1. LLM 이란?

 

"Large Language Model (LLM)"은 컴퓨터과학 및 자연어 처리 분야에서 사용되는 용어로, 대규모 언어 모델을 나타냅니다. 이는 대량의 텍스트 데이터를 사용하여 사전 훈련된 인공 지능 언어 모델을 의미합니다.

 

가장 대표적인 예로는 OpenAI에서 개발한 GPT (Generative Pre-trained Transformer) 모델이 있습니다.

GPT 시리즈는 LLM의 한 형태로, 대규모 신경망 아키텍처를 사용하여 다양한 자연어 처리 작업에 뛰어난 성과를 보이는 모델입니다.

 

LLM은 기존의 작은 규모의 모델보다 훨씬 더 많은 양의 데이터를 사용하여 사전 훈련되어 있으며, 일반적으로 텍스트 생성, 자연어 이해, 번역 등 다양한 자연어 처리 작업에서 높은 성능을 보입니다.

 

그러나 이러한 모델의 크기와 복잡성은 컴퓨팅 자원과 전력 소비 측면에서 도전적인 문제를 제기하기도 합니다. LLM은 자연어 처리 분야에서 발전적인 성과를 보여주고 있지만, 동시에 모델의 편향성, 안전성, 개인정보 보호 등과 관련된 윤리적인 고려사항도 함께 논의되고 있습니다.

 

2. 프롬프트 

 

대화 입력창을 의미합니다. 

 

① 명령 프롬프트(Command Prompt)

주로 윈도우 운영 체제에서 사용되는 명령 줄 인터페이스입니다. 사용자는 명령어를 입력하고 시스템이 해당 명령을 실행하도록 할 수 있습니다.

 

② 커맨드 라인 프롬프트(Command Line Prompt)

다양한 운영 체제에서 사용자가 명령을 입력하고 실행할 수 있도록 하는 환경을 가리킬 수 있습니다. 예를 들어, 셸(Shell)이나 터미널 등이 여기에 해당할 수 있습니다.

 

③ 대화형 프롬프트(Interactive Prompt):

프로그래밍 언어나 환경에서 사용자가 코드를 입력하고 실행하거나 실험할 수 있도록 하는 환경을 가리킬 수 있습니다. 대표적인 예로 파이썬 인터프리터에서 사용자가 코드를 입력하고 결과를 확인하는 환경이 있습니다. 프롬프트는 일반적으로 사용자에게 어떠한 조작이 필요하거나 입력이 기다려지고 있다는 것을 시각적으로 나타내는 역할을 합니다.

 

3. 팜 2(PaLM 2-L)란? 

 

PaLM 2는 다양한 목표를 사용하여 학습된 Transformer 기반 모델 영어 및 다국어 언어, 추론 작업에 대한 광범위한 평가를 통해 PaLM 2는 다양한 모델 규모에 걸쳐 다운스트림 작업의 품질을 크게 개선하는 동시에 PaLM에 비해 더 빠르고 효율적인 추론을 수행한다는 것을 입증 GPT-4와 경쟁력 있으며, 전체적으로 GPT-4보다는 덜 똑똑한데 어떤 면에서는 더 낫다 합니다.

PaLM 2는 PaLM의 차세대 언어 모델입니다. 다국어 능력, 추론 능력, 코딩 능력이 향상된 최첨단 언어 모델입니다.

 

4. 생각의 사슬(CoT, Chain of Thought Reasoning ) 

 

"Chain of Thought Reasoning"은 입력을 받아 중간에 일련의 추론 단계를 통해 복잡한 추론 기능을 가능하게 하는 작업입니다.

 

대규모 언어모델(LLM)은 산술 문제나 상식을 추론하는 능력이 떨어지는 경우 모델이 잘못된 오류에 도달할 수 있습니다. 모델이 최종 답변을 제공하기 전에 관련 추론 단계로 풀이과정을 추가 요청하여 모델이 문제에 대해 더 생각할 수 있도록 하는 방법입니다.

반응형