반응형
Quantization
-
LLM Model을 가정 GPU에서 사용하는 방법 - Quantization 방법론 - GPTQMachine Learning 2023. 7. 28. 09:32
Model 32bit 4bit 32g Llama 7B 13GB 4GB Llama 13B 26GB 8GB Llama 30B 66GB 19.4GB 이미 파라미터 수가 13B 넘어서는 순간부터는 가정에서 쓰이는 GPU로는 돌릴 수가 없는 모델이죠 4090 기준으로도 GPU Memory는 24GB이기 때문에 이론상 7B Model만 사용 가능합니다. 하지만 Quantization 기술을 활용하면 성능을 조금 포기하고, 매우 큰 LLM Model도 GPU에 Load하여 사용할 수 있습니다. 실제로도 HuggingFace에 "TheBloke" 라는 이름으로 매번 새로운 Fine-tune 모델들이 올라오면 Quantization 한 후에 prompt까지 제공을 해주는 아주 고마운 분들이 있죠, 덕분에 저희는 이미 Q..