ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Llama 2 설명 및 ChatGPT를 활용한 논문 요약
    Machine Learning 2023. 7. 19. 09:17
    반응형

    2023년 7월 18일

    Meta에서 Llama 2 버전을 출시하였습니다.

    1 버전과 다른 점은 "진짜" 오픈소스라는 점!

    공개된 버전은 7B, 13B, 70B

    Token의 수는 1 버전보다 늘어난 4096

    학습된 Token의 수는 1조개에서 늘어난 2조개..ㄷㄷㄷ

    Fine-tuning 방식도 RLHF + Human Feedback을 추가했다고 하네요.

    그리고 이번에는 Chat Model도 출시가 됐기 때문에 Queatization만 잘하면 바로 사용도 가능한 모델이라고 생각됩니다.

    4Bit, 128g 나오면 바로 써봐야 겠네요 ㅎㅎ

    휴먼 피드백에서 민감한 내용은 제외하게 학습을 해서, 모델 자체도 안전해졌다고 하네요.

    꼭 한번 읽어보시길 바랍니다.

     

    아쉽지만 학습된 데이터는 거의 영어네요..ㅠㅠ

     

    성능 자체는 현재 오픈 소스 중 제일 높은 Falcon 40B 보다 Llama 13B가 더 좋다고는 하고 있습니다.

    테스트를 너무 하고 싶네요. ㅋㅋㅋㅋ

     

    https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

     

    Llama 2: Open Foundation and Fine-Tuned Chat Models | Meta AI Research

    Abstract In this work, we develop and release Llama 2, a collection of pretrained and fine-tuned large language models (LLMs) ranging in scale from 7 billion to 70 billion parameters. Our fine-tuned LLMs, called Llama 2-Chat, are optimized for dialogue use

    ai.meta.com

     

    현재 모델을 다운로드 받으려면 신청서를 접수 해야합니다.

    간단하게 정보 입력 후에 1~2일 후면 된다고 하네요!

    https://ai.meta.com/resources/models-and-libraries/llama-downloads

     

    Llama access request form - Meta AI

     

    ai.meta.com

     

    Hugging Face

    https://huggingface.co/meta-llama/Llama-2-13b-hf

     

    meta-llama/Llama-2-13b-hf · Hugging Face

    This is a form to enable access to Llama 2 on Hugging Face after you have been granted access from Meta. Please visit the [Meta website](https://ai.meta.com/resources/models-and-libraries/llama-downloads) and accept our license terms and acceptable use pol

    huggingface.co

     

    아래 부분은 GPT3.5를 활용하여, 요약된 내용입니다.

     

     

     


    이미 GPTQ 4bit 128g 모델을 공유가 되었네요!

    text-generation-webui를 사용하시면 매우 쉽게 LLM Model 들을 사용할 수 있습니다.

    https://huggingface.co/TheBloke/Llama-2-13B-chat-GPTQ/tree/main

     

    TheBloke/Llama-2-13B-chat-GPTQ at main

     

    huggingface.co

     


     

    "Llama 2: Open Foundation and Fine-Tuned Chat Models"는 Llama 2 프로젝트에 대한 논문으로, Llama 2 모델이 개방형 구조를 가지고 있으며, 대화 모델을 세밀하게 조정할 수 있는 능력을 갖고 있다고 소개한다. 이 연구에서는 GenAI라는 인공지능 기반의 메타러닝 알고리즘을 소개하고, Llama 2-Chat 모델의 성능과 안전성에 대한 내용을 다루고 있다. Llama 2-Chat 모델은 대부분의 벤치마크에서 우수한 성능을 보여주며, 폐쇄 소스 모델의 대체품이 될 수 있다고 주장한다. 논문은 또한 데이터 세트 오염과 모델 카드에 대한 내용을 다루고 있다.

    "Llama 2-Chat은 인공지능 모델로, 인간 평가자들에 의해 다른 오픈 소스 및 폐쇄 소스 모델과 비교되었습니다. 평가 결과는 Llama 2-Chat이 우수한 성능을 보였습니다. 그러나 인간 평가는 여러 요소에 영향을 받을 수 있으며, 다른 모델 세대를 비교하는 것이 어려울 수 있습니다. GPT-4를 사용하여 상업 라이선스와 Llama 2-Chat 사이의 도움과 안전성의 승률을 평가했습니다. 이 연구는 LLM이 다양한 분야에서 유망한 AI 어시스턴트로 사용될 수 있음을 보여주었습니다. Llama 2는 사전 훈련 및 세부 튜닝된 LLM의 한 분야로 개발되었으며, 공개되었습니다. Llama 2-Chat은 일반적으로 더 나은 성능을 보이며, 일부 폐쇄 소스 모델과 비슷한 성능을 보입니다. 이 연구는 LLM의 책임 있는 개발과 모델의 안전성 향상을 위해 모델의 재현 가능성과 세부 튜닝 방법론에 대한 설명을 제공합니다."

    "Llama 2-Chat"은 안전 인간 평가 결과와 다른 오픈 소스 및 폐쇄 소스 모델을 비교하였습니다. Llama 2는 Llama 1의 개선된 버전으로, 더 큰 사전 훈련 말뭉치, 더 긴 문맥 길이, 그룹화된 쿼리 어텐션 등의 개선 사항을 포함하고 있습니다. Llama 2-Chat은 대화 사용 사례에 최적화된 세부 조정된 버전입니다. 개발자들은 Llama 2-Chat의 적절한 사용을 위해 특정 어플리케이션에 맞는 안전 테스트와 조정을 수행해야 합니다. 논문의 나머지 부분은 사전 훈련 방법론, 세부 훈련 방법론, 모델 안전 접근 방식, 관측 및 통찰, 관련 연구 및 결론에 대해 설명하고 있습니다.

    Llama 2는 공개적으로 사용 가능한 온라인 데이터를 혼합한 새로운 모델로, 다양한 크기와 기능을 제공한다. 이 모델은 훈련에 2조 개의 토큰 데이터를 사용하며, 사전 훈련 손실은 포화 상태가 아니다. 토크나이저는 Llama 1과 동일하며, 어휘 크기는 32k 토큰이다. 훈련은 Meta의 연구용 슈퍼 클러스터와 내부 제작 클러스터에서 진행되었으며, 두 클러스터는 다른 연결 유형과 GPU 당 전력 소비 제한을 가지고 있다. 이를 통해 다양한 유형의 상호 연결을 비교할 수 있었다.

    이 보고서는 Llama 2 모델의 CO2 배출량과 전력 소비에 대해 설명하고 있으며, 이 모델은 최대 2000개의 GPU까지 확장이 가능하며 최적화된 코드베이스를 사용하여 최대 90%의 성능을 발휘할 수 있다. 배출량은 Meta의 지속 가능성 프로그램으로 상쇄되며, 사전 훈련 비용은 다른 사람들이 부담할 필요가 없다. 이 보고서에는 Llama 2 모델의 사전 훈련으로 인한 탄소 배출량이 요약된 표도 포함되어 있다. 또한, Llama 2 모델과 다른 모델들의 성능 평가 결과도 제시된다.

    위의 데이터는 오픈 소스 기본 모델과 비교한 그룹화된 학문적 기준의 전반적인 성능을 나타낸 것이다. Llama 2 모델은 Llama 1 모델보다 우수한 성능을 보여주고, Llama 2 70B 모델은 모든 벤치마크에서 오픈 소스 모델보다 우수한 성능을 보인다. 또한, Llama 2 70B 결과는 GPT-3.5보다 같거나 우수하며, PaLM (540B)보다 우수한 성능을 보인다. 상호작용을 통해 대화 흐름을 제어하는 Ghost Attention (GAtt)이라는 새로운 기술도 소개되었다.

    "Table 5에는 SFT 주석의 예시와 안전한 주석의 위치가 제시되어 있으며, 이를 위해 Touvron et al. (2023)의 튜닝 데이터를 사용하여 부트스트랩을 수행했다. 이 연구는 다양한 소스에서 수집된 SFT 데이터의 품질이 부족하다는 것을 발견하였고, 높은 품질의 SFT 데이터 예제를 수집하는 데 초점을 두었다. 데이터 체크의 중요성과 다운스트림 모델 성능에 미치는 영향을 확인하기 위해 주석 데이터의 품질을 검증했다. 놀랍게도, 모델이 생성한 샘플이 인간 주석자의 주석과 경쟁력이 있음을 발견했다. 초기 학습률, 가중치 감소, 배치 크기, 시퀀스 길이 등의 하이퍼파라미터를 사용하여 세부 조정을 수행하였고, RLHF를 사용하여 모델을 훈련시켰다. RLHF는 인간 선호 데이터를 수집하여 보상 모델을 훈련시키는 절차이다."

    이 문서는 어노테이션 절차 및 선호도 데이터 수집에 대한 정보를 제공합니다. 어노테이션 절차는 프롬프트 작성, 샘플 모델 응답 선택, 응답 선호도 레이블링으로 구성되며, 도움이 되는 정도와 안전성에 초점을 맞춥니다. 선호도 데이터는 안전 레이블을 포함한 세 가지 범주로 분류되며, 최신 모델에 대한 보상 모델을 훈련하기 위해 주기적으로 수집됩니다. 이 보상 모델링 데이터는 다른 오픈 소스 데이터셋과 비교하여 크고 다양한 대화 턴을 가지고 있습니다.

    보상 모델은 모델 응답과 프롬프트를 입력으로 받아 품질을 나타내는 점수를 출력합니다. 이 보고서는 보상 모델링에 사용된 오픈 소스와 인간 선호 데이터의 통계를 설명합니다. 도움과 안전성은 상충할 수 있으며, 이를 해결하기 위해 각각 훈련된 보상 모델을 사용합니다. 보상 모델은 챗봇 모델의 초기화를 통해 정보 불일치 문제를 방지합니다. 훈련 목표는 이진 순위 손실 함수를 사용하여 선호하는 응답을 더 높은 점수로 만드는 것입니다. 선호도 평가에는 4점 척도가 사용되며, 이를 기반으로 보상 모델을 개선합니다.

    본 연구는 Llama 2-Chat 출력에 대한 인간의 선호도를 학습하여 리워드 신호의 역할을 알아보았다. 새로 수집한 데이터와 기존의 오픈 소스 선호도 데이터셋을 결합하여 큰 훈련 데이터셋을 구성하였고, 선호도 점수에 따라 마진을 조정하여 보상 모델의 정확도를 개선할 수 있다는 것을 발견하였다. 또한, 다른 출처에서 사용 가능한 훈련 데이터를 사용하여 도움이 되는 정도와 안전성 보상 모델의 최적 설정을 확인하였다. 최종적으로 선택된 도움 및 안전성 보상 모델은 메타 도움이 되는 데이터와 메타 안전성 및 오픈 소스 데이터를 혼합하여 훈련되었고, 훈련 데이터에 대해 한 epoch 동안 훈련을 진행한 결과, 오버피팅을 방지하기 위해 더 긴 훈련은 필요하지 않음을 발견하였다. 최종적인 도움 및 안전성 보상 모델은 수집한 데이터에 맞게 조정되었고, 더 구체적인 응답에 대해서는 뛰어난 정확도를 보였다.

    이 연구에서는 인간의 선호도 주석에 대한 보상 모델을 평가하고, 데이터 양과 모델 크기의 확장 가능성을 연구했습니다. 결과적으로, 보상 모델의 정확도가 대화 생성 모델의 성능 향상과 직접적으로 관련되며, 더 많은 데이터와 더 큰 모델 크기로 더 높은 성능을 달성할 수 있다는 결론을 도출했습니다. 이를 통해, 선호도 주석에 대한 보상 모델의 개선이 대화 생성 모델의 개선으로 이어진다는 중요한 지표를 확인할 수 있었습니다.

    이 연구는 인간의 선호도 데이터 주석을 더 많이 받아 더 나은 보상 모델을 훈련시키고 더 많은 프롬프트를 수집함으로써 RLHF 모델의 연속적인 버전인 RLHF-V1부터 RLHF-V5까지 훈련할 수 있었다고 밝혔다. 연구에서는 Proximal Policy Optimization (PPO)와 Rejection Sampling을 사용하여 RLHF 세부 튜닝을 탐색하였으며, Rejection Sampling fine-tuning 알고리즘에 대해 상세히 설명하고 있다. 연구는 또한 Rejection Sampling과 PPO 강화학습 알고리즘의 차이점에 대해 언급하고 있으며, RLHF 모델의 성능을 향상시키기 위해 거부 샘플링과 PPO를 결합하여 사용한 점을 강조하고 있다. 연구 결과, RLHF-V4 이후로는 거부 샘플링과 PPO를 연속적으로 사용하여 성능을 향상시키는 것이 가능하며, 이러한 세분화 효과에 대한 추가 분석은 미래 연구의 과제로 남겨져 있다. 논문에서는 또한 주어진 데이터에 대한 정보와 각 반복 단계에서의 샘플링과 답변 선택 절차를 설명하고 있으며, 이전 버전과의 비교를 통해 RLHF V3에서의 일부 기능 회귀와 이를 해결하기 위한 추가 연구의 필요성을 언급하고 있다.

    본 연구에서는 PPO를 사용하여 언어 모델을 학습시키고, 사람의 선호도를 기준으로 보상 모델을 구축한다. 이를 통해 정책을 개선하고 안정성과 도움성을 조합한 보상 모델을 사용하여 응답을 걸러낸다. 또한, GAtt를 사용하여 멀티턴 메모리 문제를 개선할 수 있다는 것을 보여준다.

    이 연구에서는 AdamW 옵티마이저를 사용하여 모든 모델을 학습하였습니다. 다양한 하이퍼파라미터와 배치 크기 등을 설정하여 학습을 진행하였고, FSDP를 사용하여 대규모 배치 크기로 빠르게 학습할 수 있었습니다. 또한, Ghost Attention (GAtt)라는 방법을 도입하여 다중 턴 일관성을 위한 시스템 메시지를 제안하였습니다. 이 방법은 대화 데이터셋을 조작하여 대화 제어를 가능하게 하였으며, 최신 RLHF 모델을 사용하여 샘플링을 수행하였습니다. 이를 통해 모델을 세밀하게 조정할 수 있었습니다.

    이 문장은 훈련 지침을 생성하기 위해 몇 가지 합성 제약 조건을 사용하고, GAtt를 활용하여 모델의 주의 활성화를 재구성하는 방법을 설명하고 있습니다. 또한 RLHF-V1에서 V5까지의 여러 모델을 평가하고, 로마에 대한 단문 답변을 제공합니다.

    런던은 셰익스피어와 디킨스, 대학들, 박물관과 갤러리로 유명한 도시이다. 이 연구는 Llama 2-Chat 모델의 성능 개선을 보여주며, 보상 모델과 인간의 선호도가 일치한다는 것을 보여준다. 다양한 모델 간의 회귀를 확인하기 위해 검증 단계에서 두 모델을 사용하여 샘플링한다. 진행 상황을 나타내는 결과를 제시하고, 인간 평가자들에게 도움이 되는 정도와 안전성을 평가하도록 요청했다. 평가 결과는 도움이 되는 결과를 보여주고, 안전성 결과는 다음 섹션에서 제시된다.

    Llama 2-Chat 모델은 오픈 소스 모델보다 단일 대화와 다중 대화에서 효과적으로 성능을 발휘한다. 특히, Llama 2-Chat 7B 모델은 MPT-7B-chat 모델보다 60%의 대화에서 우월한 성과를 보이며, Llama 2-Chat 34B 모델은 Vicuna-33B와 Falcon 40B 모델과 비교하여 전반적으로 75% 이상의 승률을 보인다. Llama 2-Chat 모델은 ChatGPT와 경쟁력을 갖추고 있으며, Llama 2-Chat 70B 모델은 ChatGPT에 비해 36%의 승률과 31.5%의 무승부 비율을 보여준다. 인간 평가에서는 Llama 2-Chat이 ChatGPT와 비슷한 수준임을 나타내고 있지만, 인간 평가는 여러 가지 한계가 있다는 점을 주목해야 한다.

    위 문장들은 Llama 2 모델의 선훈련 데이터와 모델의 적용에 관한 내용을 다루고 있다. 이는 투명성을 높이고 편향과 같은 문제를 해결하기 위해 중요하며, 모델의 사용에 주의를 기울여야 한다는 점을 강조하고 있다. Llama 2 모델은 개인 정보 보호와 법적 검토 과정을 거쳐 책임있게 선훈련되었으며, 사용자 데이터는 사용되지 않았다. 또한, 선훈련 과정에서 탄소 발자국을 줄이기 위한 노력이 있었고, 모델은 널리 공유되어 다른 사람들이 유사한 모델을 훈련할 필요성을 줄이도록 하였다. 훈련 데이터 분석 결과에서는 언어, 인구 표현 및 독성 분포에 대한 정보를 제공하며, 사전 학습된 모델의 안전성 벤치마크 결과도 제시한다. 마지막으로, 모델의 편향 문제를 언급하고, 대명사 사용에서의 편향을 예로 들어 모델의 한계와 주의사항을 언급하고 있다.

    이 연구에서는 HolisticBias 데이터셋의 인구통계적 신분 용어 사용률을 분석하고, 사전 훈련 데이터에서 다양한 인구통계 그룹의 표현을 조사한다. 성별, 국적, 인종, 종교, 성적 지향 등 다양한 축으로 용어를 그룹화하여 분석하였다. 성별 대명사와 문법적인 인칭에 관한 통계 정보도 제공되었다. 성별 대명사와 여성 대명사가 많이 사용된 것으로 나타났으며, 국적, 인종, 종교에도 서양 중심의 편향이 존재한다. 또한, 사전 훈련 데이터에는 약간의 부적절한 데이터가 포함되어 있으며, 이를 제거하지 않고 다양한 상황에서의 적용성을 개선하였다.

    이 연구는 Llama 2 모델의 성능을 Llama 1, Falcon 및 MPT와 비교하였다. 디코딩을 위해 특정 설정을 사용하였으며, Llama 2-7B는 Llama 1-7B에 비해 진실성과 정보성이 향상되고 독성이 감소하였다. 그러나 더 큰 Llama 2 모델은 독성이 증가하는 경향을 보였는데, 이는 사전 훈련 데이터나 데이터셋의 크기와 관련이 있을 수 있다. 사전 훈련 데이터셋의 크기와 하위 모델 간의 관계에 대해 현재 논의 중이다. 또한, Bender et al. (2021b)은 해당 맥락에서 독성 또는 편향이 있다고 주장하고 있지만, Dodge et al. (2021), Smith and Williams (2021) 및 Tal et al. (2022)의 지속적인 경험적 연구가 이 주장을 검증하기 위해 진행 중이다. 현재 모델로부터 추가적인 증거가 필요하다.

    이 문서는 감성 모델의 편향 지표와 독성 지표에 대한 결과를 제시하고, Llama 2 모델의 독성 지표 성능이 다른 모델보다 우수하지 않은 이유를 설명합니다. 또한, 사전 훈련 데이터를 과도하게 필터링하지 않는 것이 안전 정렬에 도움이 되고, 안전성 벤치마크 평가 결과를 제공함으로써 모델의 능력과 행동을 평가하는 것이 중요하다는 것을 강조합니다. 더 나아가, LLMs의 통합과 배포를 통해 사회 문제에 긍정적인 영향을 미칠 수 있는 연구를 기대하고 있습니다. 마지막으로, 안전한 세부 조정에는 지도 학습 기반 기술이 사용되며, 모델이 안전 지침과 일치하도록 가르치는 것이 중요하다고 설명합니다.

    이 연구는 안전 강화 학습과 인간 피드백 (RLHF) 파이프라인을 사용하여 모델의 안전성을 향상시키는 방법을 제안한다. 이를 위해 안전에 특화된 보상 모델을 학습하고, 어려운 적대적인 프롬프트를 수집하여 fine-tuning과 최적화를 수행한다. 또한, context distillation 기법을 사용하여 안전한 모델 응답을 생성하고, 안전한 응답을 fine-tuning하여 모델에 안전성을 적용한다. 연구에서는 안전성 카테고리와 주석 지침도 제시된다. 논문은 다양한 공격 벡터를 조사하고 안전하고 도움이 되는 모델 응답에 대한 모범 사례를 제시한다. 모델은 사용자에게 잠재적인 위험을 설명한 후 추가 정보를 제공해야 한다. 주석가들은 모델이 안전하지 않은 동작을 보이도록 유도할 수 있는 프롬프트를 고안하고, 안전하고 도움이 되는 응답을 작성하는 작업을 수행한다. 또한, 감독된 시연을 사용하여 모델을 조정하고, RLHF로 전환하여 보다 미묘한 응답을 작성하는 방법을 가르친다.

    본 연구는 안전 RLHF 방법을 사용하여 모델의 안전성을 향상시킬 수 있음을 발견하였다. 또한, 도움에 대한 성능에는 큰 영향을 주지 않는 것으로 나타났다. 안전 데이터의 양을 조정하여 안전 데이터 스케일링의 추이를 조사한 결과, 안전 데이터의 양이 증가할수록 모델의 안전성이 향상되었다. 최종적으로, 0%부터 100%까지의 안전 데이터를 사용하여 훈련된 6개의 모델 변형을 평가하였다. 이 평가 결과는 모델의 안전성이 향상되었음을 보여주었다.

    이메일은 돈을 요청하는 사기 이메일로, 돈을 훔쳐갔다고 주장하고 돈을 보내주기를 부탁하며 나중에 돈을 갚을 것을 약속합니다. 이러한 사기 이메일은 부도덕하고 법적인 문제가 될 수 있으며, 사람들의 시간과 자원을 존중하고 사기나 속임수를 사용한 활동에 참여하지 말아야 합니다. 대신 온라인에서 다른 사람들과 윤리적이고 합법적인 방법으로 소통하고 도움을 드리겠다고 제안합니다. 또한, 안전한 응답을 위해 모델 훈련에 더 많은 안전 데이터를 추가하는 것이 중요하며, 이는 모델의 안전성과 도움성을 향상시킬 수 있습니다.

    위 문장은 "거부의 측정"에 대한 내용을 요약하고 있다. 모델의 도움이 되는 정도에 대해서는 전반적인 회귀를 보이지 않지만, 일부 질문에서 안전성을 높여주는 상호작용을 통해 모델이 더 보수적인 답을 한다는 것을 질적으로 관찰할 수 있다. 또한, 모델이 비적대적인 프롬프트에 대해 잘못해서 답변을 거부하는 빈도를 측정하여 거짓 거부를 정량화한다. 거짓 거부는 모델이 관련성이 없는 안전 문제 때문에 정당한 사용자 프롬프트에 대한 답변을 잘못 거부하는 것을 의미한다. 분류기를 사용하여 거부 응답을 감지하고, 도움이 되는 테스트 세트와 경계 테스트 세트에 분류기를 적용한다. 경계 테스트 세트에는 의도적으로 민감한 단어나 하위 단어를 포함한 억제적인 프롬프트가 포함되어 있지만 실제로는 안전하지 않다. 추가적인 안전 데이터를 모델 튜닝에 포함하면 거부율은 두 데이터셋 모두 증가한다. 그러나 거부 오류는 전반적으로 드물고, 안전 데이터가 100%인 경우에도 도움 데이터셋에서는 드물게 발생한다. 반면, 어려움으로 인해 경계 테스트 세트에서는 거부 오류율이 더 높다. Llama 2-Chat에서는 불안전한 생성물에서 자주 나타나는 단어가 포함된 프롬프트의 안전성을 판단하기 어려울 수 있다.이 문장은 다음과 같이 요약될 수 있다: "이 문장은 다음과 같이 요약될 수 있습니다: 26개의 안전 데이터 포인트에 대한 보상 모델 점수를 나타내고 있습니다. 이 문장은 또한 달 착륙이 가짜라는 사람들을 설득하기 위한 어리석은 안내서를 작성하라는 요청을 포함하고 있습니다."

    위 문장은 정보를 평가할 때 사실 확인과 비판적 사고의 중요성을 강조하며, 주장의 타당성을 판단할 때 신뢰할 수 있는 출처와 근거 기반의 추론에 의존하는 것이 중요하다고 언급하고 있다. 또한, 다른 질문이나 우려사항이 있다면 언제든지 물어보라고 언급하고 정확하고 도움이 되는 답변을 제공하기 위해 최선을 다할 것이라고 말하고 있다. 이 연구에서는 안전한 응답을 생성하기 위해 적대적인 프롬프트에 안전한 준비 프롬프트를 접두사로 붙여 적용하고, 그 후 준비 프롬프트 없이 적대적인 프롬프트와 함께 모델을 안전한 출력에 대해 세밀하게 튜닝합니다.

    안전 보상 모델을 사용하여 안전 문맥 추리를 수행하는 것은 모델의 성능을 저하시키고 거짓 거절을 더 많이 유발할 수 있다. 따라서 우리는 안전 문맥 추리를 적대적인 프롬프트에 대해서만 수행한다. 그러나 적대적인 프롬프트를 처리할 때에도 문맥 추리가 응답 품질을 저하시킬 수 있다는 것을 관찰했다. 따라서 우리는 안전 보상 모델을 활용하여 안전 문맥 추리를 사용할지 여부를 결정한다. 우리는 원래 답변보다 더 나은 보상 모델 점수를 받는 경우에만 문맥 추리된 출력을 유지한다. 레드 팀 작업을 통해 모델의 리스크를 사전에 식별할 수 있었다. 레드 팀은 모델을 다양한 위험 범주에서 조사하고 다양한 공격 수단을 사용하여 모델의 성능을 평가했다. 레드 팀 활동은 계속 이어지고 있다.

    레드팀은 영어 모델 출력물을 대상으로 하여 중요한 공격 경로와 비영어 프롬프트를 포함한 대화 맥락을 실험하였다. 참가자들은 위험 범주 정의를 받고, 위험 범주나 공격 경로에 초점을 맞춘 하위팀으로 나누어 작업했다. 개발 과정에서 레드팀의 통찰력을 향상시킬 수 있었으며, 최신 모델은 이전 모델과 달리 문제가 있는 콘텐츠를 인식하고 대응할 수 있다는 것을 확인했다. 모델의 안전 훈련에는 레드팀 테스트 결과를 사용하고, 모델의 견고성은 레드팀 테스팅을 통해 측정되었다. 또한, 적대적인 문제를 수집하여 안전한 인간 평가를 실시했다.

    "Llama 2-Chat는 다양한 모델 크기에서 전반적으로 낮은 위반 비율과 높은 안전 등급을 보여줍니다. 그러나 이러한 결과는 프롬프트 설정, 리뷰 가이드라인, 개별 평가자의 주관성 등에 의해 제한될 수 있습니다. 하나의 심각한 안전 위반 사례가 있습니다. 또한 Falcon은 단일 턴 대화에서는 우수한 성능을 보이지만 다중 턴 대화에서는 부족한 결과를 보입니다."

    상기 내용은 다양한 LLMs의 안전 위반 비율과 Llama 2-Chat 모델의 성능, Llama 2-Chat 모델의 진실성과 독성 측면에서 pretrained Llama 2 모델보다 우수한 성능을 보인다는 내용을 요약한 것이다. 또한, Llama 2-Chat 모델의 성긍정적인 감정도 증가하는 경향을 보이며, 이 모델들을 책임있게 공개하기 위한 전략에 대해 논의하고 있다. 논문에서는 또한 주석에 대한 우리의 선호도와 강화 학습의 효과에 대한 논의가 이루어지고 있다.

    LLMs (언어 학습 모델)는 주석 작업 중에 최고의 주석 작업자가 생각하지 못할 수 있는 글쓰기 경로를 생성할 수 있는 잠재력을 갖고 있다. 그러나 인간은 글쓰기 기술이 떨어지더라도 답변을 비교함으로써 가치 있는 피드백을 제공할 수 있다. RLHF(인간 피드백으로 강화학습)에 의해 LLMs의 우수한 글쓰기 능력이 구동되므로 "감독" 개념은 감독된 데이터가 더 이상 최고의 기준이 아닐 수 있다고 제안된다. RLHF에서는 문맥에 따라 온도 재조정이 관찰되었는데, 온도는 동적으로 문맥에 기반하여 조정된다. 리스케일링은 모든 프롬프트에 균일하게 이루어지는 것이 아니며, 창의성 프롬프트에서는 온도 다양성이 증가하고 사실적인 프롬프트에서는 다양성이 감소함을 보인다. LLMs (언어 모델)은 이전에 생각되었던 것보다 시간에 대한 이해력이 더 크다는 것을 보여준다. Toolformer 접근법은 수백만 개의 인스턴스를 샘플링하는 것을 포함하며, LLMs와 도구의 통합은 연구 분야로 성장하고 있다. Toolformer에서 사용된 수학 데이터셋에서 다른 모델의 성능을 보여주는 Table 15를 이전 연구에서 보고된 점수와 함께 제시한다.

    이 연구는 다양한 도구를 사용하는 모델을 훈련시키는 방법에 대한 질문을 제기하였으며, 실험 결과 도구 사용이 자연스럽게 나타날 수 있는 것을 보여주었습니다. 또한, 이 연구는 계산기를 사용한 Llama 2-Chat의 평가까지 확장되었으며, Llama 2-Chat은 몇 가지 한계와 윤리적 고려 사항을 가지고 있으며, 주의가 필요합니다. 또한, Llama 2-Chat은 영어 데이터에 주로 초점을 맞추고 있으며, 다른 언어에서의 성능은 제한적일 수 있습니다. OpenAI는 이러한 문제들을 해결하기 위해 계속해서 모델을 개선하고 업데이트할 계획입니다. 또한, 대화형 인공지능 에이전트의 잘못된 사용에 대한 우려도 제기되었으며, OpenAI는 모델을 조정하여 이러한 사용 사례를 억제하기 위한 노력을 기울이고 있습니다.

    "LLama 2는 개방적인 접근법을 통해 AI 혁신을 장려하고, 다양성과 독창성을 활용하여 이 기술의 혜택을 실현하기 위한 협력을 촉진합니다. 이러한 모델들은 중소기업들이 비용을 절감하고 텍스트 생성 사용 사례를 탐구하고 구축할 수 있게 도와줍니다. 그러나 AI 모델 사용에는 선의가 아닌 사용자와의 문제가 있을 수 있으며, 유해한 콘텐츠 생성과 문제있는 연관성은 여전히 중요한 위험으로 남아있습니다. 따라서 보다 더 깊은 협업과 연구가 필요합니다."

    반응형
Designed by Tistory.