해외반응

구글 모델 성능 초월 시도, 개인 개발자가 만든 44B 모델

2026-07-03 15:57:20 조회 2

https://preview.redd.it/qbkvzo4s3pah1.png?auto=webp&s=c0f0cb715a47cbf878d2e509e7325d66604deac9" alt="이미지 1" />

최근 해외 커뮤니티 눈팅만 하다가 직접 뭔가를 만들어봐야겠다 싶어서 지난 주말에 작업한 내용을 공유해 보려 해. 구글이 Gemma4-31B보다 큰 고밀도 모델을 내놓지 않길래 그냥 내가 직접 만들어버렸거든. 참고로 나는 CS나 수학 전공자가 아니라서, 오로지 집에서 하드웨어 굴려가며 몸으로 부딪쳐본 결과물이야. 이론적으로 미흡한 부분이 있다면 꼭 알려줘, 배우고 싶은 마음이 크니까.

내가 한 작업은 이래. 먼저 Gemma4-31B를 가져와서 60개였던 레이어를 80개로 늘렸어. LLaMA Pro 방식의 'Identity-init' 방식을 따랐고, Gemma4 특유의 레이어 스칼라(layer_scalar) 문제를 해결하는 데 시간을 엄청 쏟았지. 그다음에는 한국 법률과 STEM 데이터를 학습시켰고, 마지막으로 이미 파인튜닝된 모델 위에 블록을 하나 더 복제해서 88개 레이어, 대략 47B 파라미터 수준으로 확장했어.

내 가설은 이거야. Gemma4의 밀도 높은 구조가 지식을 아주 빽빽하게 담고 있어서, 새로운 분야의 데이터를 억지로 밀어 넣으면 기존 가중치랑 싸우느라 성능이 안 나오는 것 같더라고. 레이어 확장은 기존 가중치와 싸우지 않고도 새로운 도메인이 자리 잡을 수 있는 '빈 공간'을 만들어주는 과정이라고 보면 돼. 법률/STEM 분야에서 초기 결과는 꽤 괜찮게 나오고 있어. 물론 아직 도구 호출(tool calling) 테스트는 안 해봐서 그건 장담 못 하겠네.

아키텍처 세부 정보나 학습 검증(중복된 풀 어텐션 레이어가 실제로 학습되었는지 등)은 모델 카드에 정리해 뒀어. 참고로 새로 추가한 레이어가 죽은 가중치로 남지 않고 오히려 기존 슬라이딩 레이어보다 더 잘 작동하는 걸 확인했어.

🔗 https://huggingface.co/TOTORONG/extGemma4-44B

앞으로 코딩 능력이나 도구 호출 기능을 개선하는 작업을 같이 할 사람이 있으면 정말 좋겠어. 데이터셋 공유나 테스트, 혹은 MoE(Mixture of Experts) 관련해서 레이어 확장해 본 경험 있는 사람 있으면 정보 교류하자. GLM-5.2나 DeepSeek V4-Flash 같은 모델에도 똑같이 적용해 볼 계획이야.

출처: reddit/LocalLLaMA

첨부 이미지

해외반응 (16)

수집된 해외 반응입니다.

Dar*****ndy▲ 147

비슷한 크기의 RYS(Repeat Yourself, 단순 순차 레이어 복제) 모델이랑 비교했을 때 어떤지 궁금하네. RYS가 기존 모델을 쉽고 빠르게 키우는 고전적인 방법이라 좋은 기준점이 될 것 같아. 하드웨어가 없어서 직접 돕진 못하지만, 이런 글 읽는 건 늘 재밌네. 조만간 양자화 모델 나오면 테스트해 보고 싶다.

wait********zban▲ 121

우리 서브레딧 유저가 작성한 분석 글 보면, LLM 중간 레이어를 반복 복제했을 때 실제로 성능이 향상된다는 결과가 있어. 꽤 흥미로운 분석이니까 한번 읽어볼 만해.

Ban******dang▲ 104

이거 Llama 2 시절에 유행하던 방식이네. 13B 모델 레이어 복제해서 20B로 만들고 파인튜닝하던 거 말이야. llamacpp 같은 데서 GGUF로 돌리는 거라면 VRAM 터지는 거 말고는 안전상의 위험은 전혀 없으니 걱정 안 해도 됨.

아직 댓글이 없습니다.

첫 번째 댓글을 작성해보세요!

제목
월드컵 현장 취재 중 한국어 실력으로 주목받은 기자 (11) 월드컵 현장 취재 중 한국어 실력으로 주목받은 기자 (11) ·어제·조회 3
탈북자와의 직접 대화, 그들이 말하는 북한의 실상 (14) 탈북자와의 직접 대화, 그들이 말하는 북한의 실상 (14) ·어제·조회 3
외국인이 한국 문화 체험 중 기겁하는 최악의 문화 요소 (18) 외국인이 한국 문화 체험 중 기겁하는 최악의 문화 요소 (18) ·어제·조회 3
글로벌 틱톡에서 유행하는 한국 스타일 남자 메이크업 (11) 글로벌 틱톡에서 유행하는 한국 스타일 남자 메이크업 (11) ·어제·조회 3
일본 오사카에서 한국인에게 고의로 어깨빵한 일본인 참교육 (16) 일본 오사카에서 한국인에게 고의로 어깨빵한 일본인 참교육 (16) ·어제·조회 3
세계인이 평가하는 한국 소주, 정말 맛이 없을까? (17) 세계인이 평가하는 한국 소주, 정말 맛이 없을까? (17) ·어제·조회 3
중국 내 한국인 거주지에 붙은 살벌한 경고문 반응 (9) 중국 내 한국인 거주지에 붙은 살벌한 경고문 반응 (9) ·어제·조회 3
구글 모델 성능 초월 시도, 개인 개발자가 만든 44B 모델 (16) 구글 모델 성능 초월 시도, 개인 개발자가 만든 44B 모델 (16) ·어제·조회 3
미군 vs 한국군 훈련 논란, 미군만 실전 훈련이 가능한가? (13) 미군 vs 한국군 훈련 논란, 미군만 실전 훈련이 가능한가? (13) ·어제·조회 3
한·중·일 사람들의 외모 차이, 외국인 눈에는 어떻게 보일까? (15) 한·중·일 사람들의 외모 차이, 외국인 눈에는 어떻게 보일까? (15) ·어제·조회 3
일본 축구 모리야스 감독 유임 결정에 대한 찬반 논란 (10) 일본 축구 모리야스 감독 유임 결정에 대한 찬반 논란 (10) ·어제·조회 2
일본인 향해 날린 브라질 인플루언서들의 독설 (13) 일본인 향해 날린 브라질 인플루언서들의 독설 (13) ·어제·조회 2
중국 해킹 그룹이 일본 JAXA 등 200곳 공격 (21) 중국 해킹 그룹이 일본 JAXA 등 200곳 공격 (21) ·어제·조회 3
소니 플레이스테이션 물리 디스크 생산 중단 (19) 소니 플레이스테이션 물리 디스크 생산 중단 (19) ·어제·조회 2
한국 축구 월드컵 참사 원인과 시스템 붕괴 분석 (19) 한국 축구 월드컵 참사 원인과 시스템 붕괴 분석 (19) ·2일 전·조회 5
북한 실상에 대한 충격적인 첫 접촉 영상 (12) 북한 실상에 대한 충격적인 첫 접촉 영상 (12) ·2일 전·조회 3
진종오 의원이 KFA 홍명보 감독 선임 논란에 분노한 이유 (16) 진종오 의원이 KFA 홍명보 감독 선임 논란에 분노한 이유 (16) ·2일 전·조회 3
홍명보 감독을 향한 한국 팬들의 진짜 비판 이유 (12) 홍명보 감독을 향한 한국 팬들의 진짜 비판 이유 (12) ·2일 전·조회 4
조선시대 천주교의 자생적 기원과 역사 (12) 조선시대 천주교의 자생적 기원과 역사 (12) ·2일 전·조회 4
한국 드라마 속 외국인 출연자 등장에 대한 해외 반응 (15) 한국 드라마 속 외국인 출연자 등장에 대한 해외 반응 (15) ·2일 전·조회 4

구글 모델 성능 초월 시도, 개인 개발자가 만든 44B 모델

첨부 이미지

해외반응 (16)

댓글 (0)