이미지 출처: reddit/LocalLLaMA
최근 해외 커뮤니티 눈팅만 하다가 직접 뭔가를 만들어봐야겠다 싶어서 지난 주말에 작업한 내용을 공유해 보려 해. 구글이 Gemma4-31B보다 큰 고밀도 모델을 내놓지 않길래 그냥 내가 직접 만들어버렸거든. 참고로 나는 CS나 수학 전공자가 아니라서, 오로지 집에서 하드웨어 굴려가며 몸으로 부딪쳐본 결과물이야. 이론적으로 미흡한 부분이 있다면 꼭 알려줘, 배우고 싶은 마음이 크니까.
내가 한 작업은 이래. 먼저 Gemma4-31B를 가져와서 60개였던 레이어를 80개로 늘렸어. LLaMA Pro 방식의 'Identity-init' 방식을 따랐고, Gemma4 특유의 레이어 스칼라(layer_scalar) 문제를 해결하는 데 시간을 엄청 쏟았지. 그다음에는 한국 법률과 STEM 데이터를 학습시켰고, 마지막으로 이미 파인튜닝된 모델 위에 블록을 하나 더 복제해서 88개 레이어, 대략 47B 파라미터 수준으로 확장했어.
내 가설은 이거야. Gemma4의 밀도 높은 구조가 지식을 아주 빽빽하게 담고 있어서, 새로운 분야의 데이터를 억지로 밀어 넣으면 기존 가중치랑 싸우느라 성능이 안 나오는 것 같더라고. 레이어 확장은 기존 가중치와 싸우지 않고도 새로운 도메인이 자리 잡을 수 있는 '빈 공간'을 만들어주는 과정이라고 보면 돼. 법률/STEM 분야에서 초기 결과는 꽤 괜찮게 나오고 있어. 물론 아직 도구 호출(tool calling) 테스트는 안 해봐서 그건 장담 못 하겠네.
아키텍처 세부 정보나 학습 검증(중복된 풀 어텐션 레이어가 실제로 학습되었는지 등)은 모델 카드에 정리해 뒀어. 참고로 새로 추가한 레이어가 죽은 가중치로 남지 않고 오히려 기존 슬라이딩 레이어보다 더 잘 작동하는 걸 확인했어.
🔗 https://huggingface.co/TOTORONG/extGemma4-44B
앞으로 코딩 능력이나 도구 호출 기능을 개선하는 작업을 같이 할 사람이 있으면 정말 좋겠어. 데이터셋 공유나 테스트, 혹은 MoE(Mixture of Experts) 관련해서 레이어 확장해 본 경험 있는 사람 있으면 정보 교류하자. GLM-5.2나 DeepSeek V4-Flash 같은 모델에도 똑같이 적용해 볼 계획이야.
내가 한 작업은 이래. 먼저 Gemma4-31B를 가져와서 60개였던 레이어를 80개로 늘렸어. LLaMA Pro 방식의 'Identity-init' 방식을 따랐고, Gemma4 특유의 레이어 스칼라(layer_scalar) 문제를 해결하는 데 시간을 엄청 쏟았지. 그다음에는 한국 법률과 STEM 데이터를 학습시켰고, 마지막으로 이미 파인튜닝된 모델 위에 블록을 하나 더 복제해서 88개 레이어, 대략 47B 파라미터 수준으로 확장했어.
내 가설은 이거야. Gemma4의 밀도 높은 구조가 지식을 아주 빽빽하게 담고 있어서, 새로운 분야의 데이터를 억지로 밀어 넣으면 기존 가중치랑 싸우느라 성능이 안 나오는 것 같더라고. 레이어 확장은 기존 가중치와 싸우지 않고도 새로운 도메인이 자리 잡을 수 있는 '빈 공간'을 만들어주는 과정이라고 보면 돼. 법률/STEM 분야에서 초기 결과는 꽤 괜찮게 나오고 있어. 물론 아직 도구 호출(tool calling) 테스트는 안 해봐서 그건 장담 못 하겠네.
아키텍처 세부 정보나 학습 검증(중복된 풀 어텐션 레이어가 실제로 학습되었는지 등)은 모델 카드에 정리해 뒀어. 참고로 새로 추가한 레이어가 죽은 가중치로 남지 않고 오히려 기존 슬라이딩 레이어보다 더 잘 작동하는 걸 확인했어.
🔗 https://huggingface.co/TOTORONG/extGemma4-44B
앞으로 코딩 능력이나 도구 호출 기능을 개선하는 작업을 같이 할 사람이 있으면 정말 좋겠어. 데이터셋 공유나 테스트, 혹은 MoE(Mixture of Experts) 관련해서 레이어 확장해 본 경험 있는 사람 있으면 정보 교류하자. GLM-5.2나 DeepSeek V4-Flash 같은 모델에도 똑같이 적용해 볼 계획이야.














해외반응 (16)