ref. https://www.aitimes.com/news/articleView.html?idxno=152588
MS, 10억 토큰 컨텍스트 창 지원하는 트랜스포머 ‘롱넷’ 개발
스탠포드·UC버클리 연구진, 컨텍스트 창 클수록 LLM 성능 저하 발견
대형언어모델(LLM)의 성능을 높여주는 것으로 알려진 '컨텍스트(context)' 경쟁이 펼쳐지고 있다. 또 이에 대한 상세한 분석이 필요하다는 지적까지 나오는 등 관심이 뜨거워지고 있다.
구글 출신 개발자가 설립한 앤트로픽의 챗봇 '클로드'는 뛰어난 정확도로 주목받으며 '챗GPT의 라이벌'로 꼽혔다. 여러 이유가 있겠지만, GPT-4보다 많은 컨텍스트 창을 사용한다는 것이 한몫했다.
엔트로픽은 지난 5월 컨텍스트 창을 최대 10만개 토큰까지 확장, GPT-4의 3배에 달하는 양으로 늘였다. 이런 분위기를 타고 최근에는 떠오르는 스타트업 모자이크ML도 새로운 LLM ‘MPT-7B’를 발표하며 컨텍스트 창을 6만5000개 토큰까지 늘였다고 발표했다.
오픈AI의 GPT-4 모델은 3만2000개 입력 토큰의 컨텍스트 길이로 작동하며, 대부분의 오픈소스 LLM은 2000개 토큰의 컨텍스트 창을 사용한다.
LLM의 컨텍스트 창은 프롬프트에 대한 응답을 생성할 때 입력으로 사용할 수 있는 토큰의 수다. 더 큰 크기의 컨텍스트 창은 다양한 애플리케이션에서 LLM의 성능과 유용성을 향상시킨다.
컨텍스트 창이 클수록 프롬프트에서 컨텍스트 내 학습(in-context learning)을 수행하는 기능이 향상된다. 즉, 프롬프트 입력으로 더 많은 예제 또는 더 큰 예제를 제공해 LLM이 더 나은 답변을 제공할 수 있다.
LLM은 전체 문서를 입력으로 받아 전체 범위를 이해하는 데 도움을 줄 수 있다. 이 기능을 통해 LLM은 입력에 대한 포괄적인 이해를 활용, 상황에 더 적절한 응답을 생성할 수 있다.
또 컨텍스트 창을 이용해 LLM이 훈련할 때 사용할 수 없었던 새로운 컨텍스트 정보를 LLM에 제공할 수 있다.
구글 출신 개발자가 설립한 앤트로픽의 챗봇 '클로드'는 뛰어난 정확도로 주목받으며 '챗GPT의 라이벌'로 꼽혔다. 여러 이유가 있겠지만, GPT-4보다 많은 컨텍스트 창을 사용한다는 것이 한몫했다.
엔트로픽은 지난 5월 컨텍스트 창을 최대 10만개 토큰까지 확장, GPT-4의 3배에 달하는 양으로 늘였다. 이런 분위기를 타고 최근에는 떠오르는 스타트업 모자이크ML도 새로운 LLM ‘MPT-7B’를 발표하며 컨텍스트 창을 6만5000개 토큰까지 늘였다고 발표했다.
오픈AI의 GPT-4 모델은 3만2000개 입력 토큰의 컨텍스트 길이로 작동하며, 대부분의 오픈소스 LLM은 2000개 토큰의 컨텍스트 창을 사용한다.
LLM의 컨텍스트 창은 프롬프트에 대한 응답을 생성할 때 입력으로 사용할 수 있는 토큰의 수다. 더 큰 크기의 컨텍스트 창은 다양한 애플리케이션에서 LLM의 성능과 유용성을 향상시킨다.
컨텍스트 창이 클수록 프롬프트에서 컨텍스트 내 학습(in-context learning)을 수행하는 기능이 향상된다. 즉, 프롬프트 입력으로 더 많은 예제 또는 더 큰 예제를 제공해 LLM이 더 나은 답변을 제공할 수 있다.
LLM은 전체 문서를 입력으로 받아 전체 범위를 이해하는 데 도움을 줄 수 있다. 이 기능을 통해 LLM은 입력에 대한 포괄적인 이해를 활용, 상황에 더 적절한 응답을 생성할 수 있다.
또 컨텍스트 창을 이용해 LLM이 훈련할 때 사용할 수 없었던 새로운 컨텍스트 정보를 LLM에 제공할 수 있다.
사용자가 GPT-4에 '누가 2022년 월드컵에서 우승했습니까'라고 질문했을 때, GPT-4는 2021년까지의 데이터로 훈련했기 때문에 이 질문에 정확하게 답변할 수 없다. 대신 파인콘과 같은 벡터 데이터베이스에 쿼리를 사용해 2022년 월드컵에 대한 관련 문서를 찾고 해당 문서를 프롬프트에 추가할 수 있다. 답변이 프롬프트 속 문서에 있다면 LLM은 쿼리에 '아르헨티나'라고 답변할 수 있다.
반면 큰 컨텍스트 창도 치명적인 문제가 있다. 토큰 수가 증가함에 따라 비용이 기하급수적으로 증가한다는 것이다. 토큰 길이를 4000개에서 8000개로 두 배로 늘리는 것은 2배가 아니라 4배 더 비싸다. 결과적으로 매우 긴 입력을 처리하면 모델의 계산 속도가 크게 느려지고 비용이 눈덩이처럼 불어날 수 있다.
따라서 마이크로소프트(MS)는 최근 LLM의 기초가 되는 트랜스포머(Transformer) 모델의 새로운 변형인 ‘롱넷(LongNet)’을 도입, 10억개 토큰의 컨텍스트 창을 0.5초에 처리하면서도 기하급수적인 비용 증가를 일차적인 선형 증가로 개선할 수 있었다고 발표하며 반격에 나섰다. 롱넷을 통하면 적은 비용으로 해리포터 1000권을 0.5초에 읽을 수 있다.
반면 큰 컨텍스트 창도 치명적인 문제가 있다. 토큰 수가 증가함에 따라 비용이 기하급수적으로 증가한다는 것이다. 토큰 길이를 4000개에서 8000개로 두 배로 늘리는 것은 2배가 아니라 4배 더 비싸다. 결과적으로 매우 긴 입력을 처리하면 모델의 계산 속도가 크게 느려지고 비용이 눈덩이처럼 불어날 수 있다.
따라서 마이크로소프트(MS)는 최근 LLM의 기초가 되는 트랜스포머(Transformer) 모델의 새로운 변형인 ‘롱넷(LongNet)’을 도입, 10억개 토큰의 컨텍스트 창을 0.5초에 처리하면서도 기하급수적인 비용 증가를 일차적인 선형 증가로 개선할 수 있었다고 발표하며 반격에 나섰다. 롱넷을 통하면 적은 비용으로 해리포터 1000권을 0.5초에 읽을 수 있다.
표준 트랜스포머 모델에서 각 토큰은 컨텍스트 창의 다른 모든 토큰과 상호 작용하기 때문에 시퀀스 길이가 증가함에 따라 많은 상호 작용이 발생한다. 반면에 롱넷은 이러한 상호 작용을 효율적으로 관리하는 확장 어텐션(dilated attention) 기술을 적용했다.
확장 어텐션은 각 토큰이 다른 모든 토큰과 상호 작용할 필요 없이 컨텍스트 창을 다양한 길이의 세그먼트로 분할해 선택된 세그먼트들의 토큰과만 상호작용한다. 마치 많은 군중 속에 있으면서 가까이 있는 사람과 멀리 있는 사람 모두에게 집중할 수 있지만, 각 사람과 별도의 대화를 나눌 필요가 없는 것과 같다.
또 컨텍스트 창의 모든 세그먼트를 특정 GPU로 수집할 수 있기 때문에 훨씬 더 효율적인 병렬화가 가능하고 GPU 사용을 최적화해 훈련 비용을 더욱 절감할 수 있다.
롱넷의 확장 어텐션을 이미지 모델에 적용하면 이미지의 모든 단일 픽셀에 주의를 기울이지 않고 보이는 것을 대략적으로 분석해 이미지를 처리할 수 있다. 예를 들어 뉴욕 사진을 보고 그것이 뉴욕인 것을 확인하기 위해 모든 픽셀을 분석할 필요는 없는 식이다.
아처럼 컨텍스트에 대한 기술 개발이 뜨거워지는 가운데 정작 언어 모델이 더 긴 컨텍스트를 얼마나 잘 사용하는지에 대해서는 상대적으로 거의 알려져지지 않았다는 지적도 나왔다.
벤처비트는 23일(현지시간) LLM이 더 긴 컨텍스트 창에서 제공한 정보에 액세스하지 못하거나 사용하지 못하는 경우가 많다는 스탠포드와 UC버클리 대학의 연구 결과가 소개해 눈길을 끌었다.
연구진은 LLM이 관련 정보가 입력 컨텍스트의 시작 또는 끝에서 발생할 때 관련 정보를 잘 식별하고 응답하지만, 긴 컨텍스트 중간에서 관련 정보에 액세스해야 할 때는 성능이 크게 저하된다고 지적했다.
특히 LLM이 긴 컨텍스트 창을 허용하는 경우에도 입력 컨텍스트가 길어지면 성능이 크게 떨어진다고 지적했다.
그러나 연구진은 전체 문서를 컨텍스트 창에 붙여넣는 것이 효과가 없을 것이라고 주장하는 것은 아니라고 밝혔다. 더불어 전체 PDF문서를 LLM 컨텍스트 창에 삽입한 다음 문서에 대해 질문하는 경우 일반적으로 벡터 데이터베이스 검색을 사용하기 때문에 더 효율적이라는 데도 동의했다.
다만 컨텍스트가 LLM 성능의 모든 것을 말하는 것은 아니라고 강조했다. 컨텍스트 창 크기를 확장하기 위해 LLM에만 의존하는 대신 모델 기술과 모델 사용 간의 균형을 유지하는 것이 중요하다는 지적이다.
또 컨텍스트 창의 모든 세그먼트를 특정 GPU로 수집할 수 있기 때문에 훨씬 더 효율적인 병렬화가 가능하고 GPU 사용을 최적화해 훈련 비용을 더욱 절감할 수 있다.
롱넷의 확장 어텐션을 이미지 모델에 적용하면 이미지의 모든 단일 픽셀에 주의를 기울이지 않고 보이는 것을 대략적으로 분석해 이미지를 처리할 수 있다. 예를 들어 뉴욕 사진을 보고 그것이 뉴욕인 것을 확인하기 위해 모든 픽셀을 분석할 필요는 없는 식이다.
아처럼 컨텍스트에 대한 기술 개발이 뜨거워지는 가운데 정작 언어 모델이 더 긴 컨텍스트를 얼마나 잘 사용하는지에 대해서는 상대적으로 거의 알려져지지 않았다는 지적도 나왔다.
벤처비트는 23일(현지시간) LLM이 더 긴 컨텍스트 창에서 제공한 정보에 액세스하지 못하거나 사용하지 못하는 경우가 많다는 스탠포드와 UC버클리 대학의 연구 결과가 소개해 눈길을 끌었다.
연구진은 LLM이 관련 정보가 입력 컨텍스트의 시작 또는 끝에서 발생할 때 관련 정보를 잘 식별하고 응답하지만, 긴 컨텍스트 중간에서 관련 정보에 액세스해야 할 때는 성능이 크게 저하된다고 지적했다.
특히 LLM이 긴 컨텍스트 창을 허용하는 경우에도 입력 컨텍스트가 길어지면 성능이 크게 떨어진다고 지적했다.
그러나 연구진은 전체 문서를 컨텍스트 창에 붙여넣는 것이 효과가 없을 것이라고 주장하는 것은 아니라고 밝혔다. 더불어 전체 PDF문서를 LLM 컨텍스트 창에 삽입한 다음 문서에 대해 질문하는 경우 일반적으로 벡터 데이터베이스 검색을 사용하기 때문에 더 효율적이라는 데도 동의했다.
다만 컨텍스트가 LLM 성능의 모든 것을 말하는 것은 아니라고 강조했다. 컨텍스트 창 크기를 확장하기 위해 LLM에만 의존하는 대신 모델 기술과 모델 사용 간의 균형을 유지하는 것이 중요하다는 지적이다.
0 댓글