Gemma 3 QAT ๋ชจ๋ธ
๐ง Gemma 3 QAT ๋ชจ๋ธ์ด๋?
Gemma 3๋ ๊ตฌ๊ธ์ ์ต์ ์คํ ๋ชจ๋ธ ์๋ฆฌ์ฆ๋ก, ๊ธฐ์กด์๋ ๊ณ ์ฑ๋ฅ GPU์์๋ง ์คํ ๊ฐ๋ฅํ๋ ๋ํ ์ธ์ด ๋ชจ๋ธ์ ๋ณด๋ค ๋ง์ ์ฌ์ฉ์๋ค์ด ํ์ฉํ ์ ์๋๋ก ๊ฐ๋ฐ๋์์ต๋๋ค. ํนํ, QAT ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ๋ชจ๋ธ์ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์๋ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ ์ฌํญ์ ํฌ๊ฒ ์ค์์ต๋๋ค.
์๋ฅผ ๋ค์ด, Gemma 3 27B ๋ชจ๋ธ์ ๊ธฐ์กด์ BF16 ์ ๋ฐ๋์์๋ ์ฝ 54GB์ VRAM์ด ํ์ํ์ง๋ง, int4 ์์ํ๋ฅผ ์ ์ฉํ๋ฉด ์ฝ 14.1GB๋ก ๊ฐ์ํ์ฌ NVIDIA RTX 3090๊ณผ ๊ฐ์ ์๋น์์ฉ GPU์์๋ ์คํ์ด ๊ฐ๋ฅํฉ๋๋ค.
โ๏ธ QAT์ ์๋ ๋ฐฉ์
QAT๋ ๋ชจ๋ธ ํ๋ จ ๊ณผ์ ์์ ๋ฎ์ ์ ๋ฐ๋์ ์ฐ์ฐ์ ์๋ฎฌ๋ ์ด์ ํ์ฌ, ํ๋ จ์ด ์๋ฃ๋ ํ ์์ํ๋ฅผ ์ ์ฉํ ๋ ๋ฐ์ํ ์ ์๋ ์ฑ๋ฅ ์ ํ๋ฅผ ์ต์ํํฉ๋๋ค. ๊ตฌ๊ธ์ ์ฝ 5,000๋จ๊ณ์ ํ๋ จ ๋์ ๋น์์ํ ์ฒดํฌํฌ์ธํธ์ ํ๋ฅ ์ ๋ชฉํ๋ก ์ฌ์ฉํ์ฌ, ๊ธฐ์กด ์์ํ ๊ธฐ๋ฒ์ ๋นํด ์ ํ๋ ์์ค์ 54% ์ค์ด๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค.
๐พ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ ์ฌํญ ๋น๊ต
|
๋ชจ๋ธ ํฌ๊ธฐ |
BF16 VRAM ์๊ตฌ๋ |
int4 VRAM ์๊ตฌ๋ |
|---|---|---|
|
27B |
54GB |
14.1GB |
|
12B |
24GB |
6.6GB |
|
4B |
8GB |
2.6GB |
|
1B |
2GB |
0.5GB |
์ด๋ฌํ ๋ฉ๋ชจ๋ฆฌ ์ต์ ํ๋ฅผ ํตํด, Gemma 3 12B ๋ชจ๋ธ์ NVIDIA RTX 4060๊ณผ ๊ฐ์ ๋ ธํธ๋ถ GPU์์๋ ํจ์จ์ ์ผ๋ก ์คํํ ์ ์์ต๋๋ค.
๐ ๏ธ ๋ค์ํ ๋๊ตฌ์์ ํตํฉ
๊ตฌ๊ธ์ Gemma 3 QAT ๋ชจ๋ธ์ ๋ค์ํ ๊ฐ๋ฐ ๋๊ตฌ์ ํตํฉํ์ฌ ์ฌ์ฉ์๊ฐ ์ฝ๊ฒ ์ ๊ทผํ ์ ์๋๋ก ์ง์ํฉ๋๋ค:
-
Ollama: ๊ฐ๋จํ ๋ช ๋ น์ด๋ก ๋ชจ๋ธ ์คํ
-
LM Studio: ๋ฐ์คํฌํฑ์์ ๋ชจ๋ธ ๋ค์ด๋ก๋ ๋ฐ ์คํ
-
MLX: Apple Silicon์์ ์ต์ ํ๋ ์ถ๋ก ์ง์
-
Gemma.cpp ๋ฐ llama.cpp: CPU์์์ ํจ์จ์ ์ธ ์ถ๋ก
๐ฑ ๋ชจ๋ฐ์ผ ๋ฐ ์น์์์ ํ์ฉ
Gemma 3 1B ๋ชจ๋ธ์ ์ฝ 529MB์ ํฌ๊ธฐ๋ก, Google AI Edge๋ฅผ ํตํด ๋ชจ๋ฐ์ผ ๋ฐ ์น ์ ํ๋ฆฌ์ผ์ด์ ์์๋ ์คํํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, Samsung Galaxy S24 Ultra์ ๊ฐ์ ๊ธฐ๊ธฐ์์ ํ์ด์ง๋น ์ต๋ 2,585 ํ ํฐ์ ์ฒ๋ฆฌํ ์ ์์ด, ์คํ๋ผ์ธ์์๋ ๋น ๋ฅธ ์๋ต์ด ๊ฐ๋ฅํฉ๋๋ค.