hero boss
반응형

 

 

생각의 나무(Tree of Thoughts)

생각의 나무(Tree of Thoughts)는 Yao와 Long이 2023년 발표한 논문 <Tree of Thoughts (ToT): A Framework for Advanced Problem Solving>에서 제안한 혁신적인 언어 모델 프롬프트 기법. 이 접근법은 복잡한 문제를 해결하기 위해 전략적 사고와 탐구 과정을 결합하여 설계되었다. ToT는 문제 해결 과정을 나무처럼 가지를 뻗는 구조로 시각화하며, 이를 검색 알고리즘과 연계해 체계적인 분석을 가능하게 한다. 이는 기존의 생각의 연쇄(Chain-of-Thought, CoT) 기법을 확장한 방식으로, 더 높은 수준의 창의적 사고와 문제 해결을 지원한다.

CoT에서 문제점은 회귀를 할 수 없다는 점이다. 끝까지 가고 결과를 본 다음 연쇄를 해야한다면, ToT는 중간에 회귀를 하고 바로 잡을 수 있다는 것이 가장 큰 매력.


ToT 작동 방식

문제 해결 과정을 나무 구조로 확장하며, 단계별로 다양한 아이디어와 경로를 탐색하는 데 초점을 둔다. 이 기법은 언어 모델이 단순히 다음 단어를 예측하거나 일직선으로 사고를 전개하는 것을 넘어, 전략적으로 다양한 가능성을 고려하고 최적의 해결책을 찾는 데 도움을 준다.


 

ToT 특징

Tree of Thoughts(ToT) 기법을 쉽게 설명하자면, 문제를 해결하는 데 있어 여러 가능성을 탐색하고 최적의 해결책을 찾아가는 과정을 나무와 같은 구조로 표현한 것. 이를 통해 언어 모델이 마치 사람처럼 여러 방향을 고려하고, 필요한 경우 이전 단계로 돌아가 다른 방법을 시도할 수 있다.

 

트리 구조

  • ToT는 문제 해결 과정을 나무 구조로 표현하며, 문제 해결의 각 단계를 가지(branch)로 확장합니다.
  • 각 가지는 하나의 아이디어, 선택, 또는 행동을 나타내며, 이를 통해 다양한 가능성을 동시에 탐구할 수 있습니다.
  • 사용자는 이를 탐색기의 폴더 구조와 유사하게 이해할 수 있습니다. 상위 폴더(루트)는 문제의 초기 상태, 하위 폴더(가지)는 문제 해결 과정에서 파생된 선택들을 나타냅니다.
  • 이 트리 구조는 비선형적 사고를 가능하게 하여 복잡한 문제에서도 다수의 경로를 고려할 수 있도록 합니다.

생각 생성 및 평가

  • ToT는 언어 모델이 단순히 선형적으로 생각을 확장하는 것이 아니라, 여러 아이디어와 가능성을 동시에 생성하도록 유도합니다.
  • 생성된 생각(가지)은 각기 다른 해결 방법이나 전략을 나타냅니다.
  • 이후, 이러한 아이디어는 평가 기준(문제 해결 가능성, 효율성, 창의성 등)에 따라 분석됩니다.
  • 이는 마치 사람이 여러 아이디어를 브레인스토밍한 뒤, 가장 적합한 해결책을 선택하는 과정과 유사합니다.

탐색 및 백트래킹

  • ToT는 문제 해결 중 **탐색(search)**과 **백트래킹(backtracking)**을 지원합니다.
  • 탐색: 여러 경로를 탐구하며, 어떤 경로가 최적의 해결책으로 이어질지 확인합니다.
  • 백트래킹: 특정 경로에서 더 이상 진행할 수 없거나, 부적합하다고 판단되면 이전 단계로 돌아가 다른 경로를 탐구합니다.
  • 이러한 기능은 동적이고 유연한 문제 해결을 가능하게 하며, 특히 복잡하고 비결정론적인 문제에 적합합니다.

주목받는 이유의 핵심

ToT는 기존의 선형적 접근(예: Chain-of-Thought)과 비교해 비선형적이고 체계적인 탐색 및 평가를 가능하게 합니다. 복잡한 문제에서 다수의 해결 가능성을 동시에 탐구하고, 최적의 해결책을 선택하는 능력 덕분에 창의적 문제 해결전략적 사고가 필요한 작업에서 큰 잠재력을 지니고 있습니다.

 

 

https://slashpage.com/haebom/z91kwev26981qmy46jpg

 

생각의 나무(ToT) 기법 - haebom

생각의 나무(Tree of Thoughts)는 Yao와 Long이 2023년에 발표한 논문 <Tree of Thoughts (ToT): A Framework for Advanced Problem Solving>에서 제안한 언어 모델 프롬프트 기법으로, 전략적 사고와 탐색이 필요한 복잡한

slashpage.com

 

참고한 페이지이다. 간단 명료하게 잘 요약되어 있음.

반응형
반응형

VARCO

 

NC가 AI관련된 인력충원과 사옥건설 등 투자를 계속하더니 드디어 무언가 출시했다.

과연 썸띵 디퍼런트일까?

 

 

한국어 멀티모달 벤치마크 5종 

  • 기존 영미권 벤치마크(MMBench 등)를 기반으로 한국어 특화 기준을 추가 개발.
  • K-DTCBench: 한국어 문서, 표, 차트 이해를 검증하는 새로운 벤치마크 포함.

 

VARCO-VISION의 특징

  • 한국어 및 영어 지원: 이미지와 텍스트를 이해하는 중소형 오픈소스 모델.
  • 텍스트-이미지 통합 처리: 단일 모델로 이미지-텍스트 작업과 텍스트 전용 작업 모두 가능.
  • 우수한 성능: 한국어 분야에서 동급 모델 중 1위.
  • 적용 가능성: 이미지 인식, 질의응답, OCR, 사물 위치 검출 등 다양한 AI 서비스 개발에 활용 가능.

 

요약하자면, 

VARCO-VISION은 이미지-텍스트 통합 이해 능력에 특화되었고 멀티모달은 벤치마크를 통해 한국버전을 만들었다는 것.

해외 대기업의 AI  API에 의존하고 있는 AI산업시장을 바꾸는 판도가 되려나 ?


게임 산업에 미칠 영향

몰입형 게임 경험 제공

이미지-텍스트 통합 이해 능력으로 NPC와 더욱 자연스러운 상호작용이 가능하다

- 사용자의 행동이나 글에 따라 NPC와 동적인 대화 가능

- 사용자의 플레이를 실시간으로 분석해 자연스러운 개인화된 게임 경험 제공

 

컨텐츠 제작 효율성 향상

개발 과정에서 이미지 생성과 설명 자동화 기능으로 효율적인 개발지원

-기획단계에서 중세풍의 판타지스러운 숲이라고 입력하면 요소를 분석하여 제공


콘텐츠 산업에서의 활용 가능성

창작물 제작 지원

멀티모달 AI를 통해 제작자는 제작 시간을 줄일 수 있음

- 이미지-텍스트 결합 스토리 제작 자동화

- 시각자료를 분석해 이미지 제공 혹은 창작물 제작

데이터 기반 마케팅

OCR, 그라운딩 기능을 통해 이미지 - 텍스트를 동시 분석해 고객 맞춤 추천이나 선호도 측정 가능

- 제품 이미지와 사용 후기 분석하여 고객이 어떤 요소를 통해 구매를 결정했는지 파악가능

- 같은 맥락으로 SWOT도출 가능

문화 컨텐츠와 현지화 강화

한국어 특화 모델인 만큼 해외 컨텐츠의 현지화 작업이 더욱 정교해진다.

게임이나 창작물에 대한 번역과 자막의 자동 생성


산업적 잠재력

오디오, 비디오영역의 확장성 기대

- 음악, 비디오제작 등 관련된 다양한 산업에서 확장될 가능성 농후하다. 자막 자동 생성, 음악 자동 삽입, 비디오 제작 자동화도 가능할 것 같고 영화산업에서 현지화 작업을 거칠 때 또한 유용해보임

크로스 플랫폼

크로스 플랫폼의 중요도는 이미 게임산업에서 익히 알려져있다.

영화, 게임, 음악 등을 고객 맞춤으로 제작할 수 있을 것 같다. 예를 들면, 유저의 게임 플레이를 애니메이션화 하거나 영화 - 게임 - 웹툰에서 세계관 공유 컨텐츠 생성 등 다양하게 진입할 수 있을 것 같다. 물론 드라마, 유튜브 등 모두 가능한 이야기


결론

얼마나 자연스럽게 기능하는지 AI성능이 어느정도냐에 따라 다르겠지만 가히 새로운 패러다임을 열 수도 있다고 생각.

한류 < - > 해외에 VARCO-VISION이 중심창구가 될 수도 있다고 생각. 이 기술이 발전할 수록 창작의 경계를 허물고 플레이어와 창작자에게 새로운 경험을 제공할 것이며 산업자체가 VARCO-VISION에 맞춰 흘러갈 수도 있다! 

 

과연 썸띵 디퍼런트일까?

 

반응형

+ Recent posts

반응형