이번 글에서는 Google이 공개한 언어모델 google/gemma-3-4b-it을 기준으로, Hugging Face에서 모델을 다운로드하고 로컬에서 직접 테스트하는 방법을 단계별로 소개해드리겠습니다.
✅ 사용 모델 소개: google/gemma-3-4b-it
• 모델명: google/gemma-3-4b-it
• 파라미터 수: 4B (40억 개)
• 특징: Instruction-tuned, 자연어 지시문에 적절히 반응하는 경량 LLM
• 라이선스: Gemma License (비상업적 연구 목적 우선)
💡 이 모델은 가정용 PC나 소형 서버에서도 실행 가능한 경량 LLM으로, 실험과 프로토타입용으로 매우 유용합니다.
🛠️ 사전 준비
1. Python 환경 구성 (권장: Python 3.10 이상)
python -m venv llm_env source llm_env/bin/activate # Windows: llm_env\Scripts\activate
2. 필요한 패키지 설치
pip install torch transformers accelerate
GPU가 있다면 torch는 CUDA 버전에 맞게 설치해주세요.
예: pip install torch==2.1.0+cu118 (PyTorch 공식 사이트 참조)
🔽 모델 다운로드 및 로드
아래는 python 코드입니다.
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline model_id = "google/gemma-3-4b-it" # 토크나이저 및 모델 불러오기 tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto") # 파이프라인 생성 llm = pipeline("text-generation", model=model, tokenizer=tokenizer)
device_map=”auto” 옵션은 GPU가 있을 경우 자동으로 활용합니다.
💬 모델 테스트 예제
prompt = "Explain quantum computing in simple terms." response = llm(prompt, max_new_tokens=200, do_sample=True, temperature=0.7) print(response[0]["generated_text"])
prompt에 원하는 질문이나 지시문을 입력하면, 해당 모델이 응답합니다.
temperature 값은 창의성 조절, max_new_tokens는 출력 길이 조절용입니다.
🔑 허깅페이스에 로그인
pip install huggingface_hub huggingface-cli login
위의 명령어를 실행하면, token을 입력하라고 나오는데, token받는 곳의 URL도 같이 나옵니다. 해당 URL에 들어간후, Read로 되어 있는 부분을 check on 한 후 저장하면, 토큰이 생성됩니다.
해당 토큰을 입력하면 됩니다.
💡 성능 및 사용 팁
• 속도: GPU 사용 시 응답 속도는 빠르며, 16GB RAM 이상 권장.
• 활용: 챗봇, 요약, 정보 추출 등 다양한 태스크 테스트에 적합.
• 라이선스 확인: 비상업적 사용이 원칙입니다. 상업적 사용 시 Google의 Gemma 라이선스를 따르세요.
📌 마무리
이처럼 Hugging Face의 google/gemma-3-4b-it 모델은 설치도 간단하고, 가볍지만 꽤 정교한 응답을 보여줍니다.
자신만의 AI 프로젝트를 로컬 환경에서 실험해보고 싶은 분들께 아주 좋은 선택지입니다.
하지만, GPU 자원이 충분히 제공되지 않는 다면, CPU를 사용해야 되는데, 작은 토큰을 처리하는데에도 오래 걸릴 수 있습니다. 요즘은 성능좋은 노트북도 출시되고 있으니, 본인 상황에 맞는 모델을 선택해서, 사용해 보면 좋을 것 같습니다. 언어모델의 성능이 예상보다 낮게 나온다면, 더 작은 파라미터를 갖는 모델을 사용해서 일단 한번 해보시면 좋을 것 같습니다. 시작이 반!