국대AI 업스테이지, 중국산 AI 논란에 즉각 공개로 맞선 이유
여러분은 AI 모델을 사용할 때, 그 모델이 정말 어디서 왔는지 궁금해 본 적 있나요? 최근 국내 AI 스타트업 업스테이지가 한순간에 ‘중국산 AI 논란’의 중심에 섰다가, 파격적인 행보로 논란을 단칼에 종식시켰습니다. 그들의 선택은 단순한 위기 관리 차원을 넘어, 글로벌 AI 경쟁 속 한국 기업의 생존 전략을 적나라하게 보여주는 사례가 되었죠.
의문의 시작: ‘솔라’ 모델에 스며든 중국어 데이터의 흔적
지난달, 업스테이지가 공개한 고성능 소형 언어모델(LLM) ‘솔라(SOLAR)’는 국내 개발자 커뮤니티에서 큰 관심을 받았습니다. 뛰어난 성능과 효율성으로 ‘한국이 자랑할 만한 오픈소스 AI’로 주목받던 차였죠.
그러나 세상 일이란 늘 그렇듯, 세심한 관찰자들에 의해 이상한 점이 포착되었습니다. 개발자들과 연구자들이 솔라 모델을 파고들어 본 결과, 모델의 사전 학습 데이터에 중국어 데이터가 상당량 포함되어 있을 뿐만 아니라, 모델의 내부 ‘토크나이저'(단어를 조각내는 도구)가 중국어에 특화된 방식으로 구성되어 있다는 의혹이 제기되기 시작했습니다.
더욱이 모델 아키텍처나 학습 기법에서 중국의 대형 AI 연구소 ’01.AI’의 오픈소스 모델 ‘이이( Yi)’ 시리즈와의 유사점이 지적되었습니다. 네티즌과 전문가들 사이에선 “과연 솔라가 진정한 ‘국대(國代) AI’인가, 아니면 중국산 모델에 약간의 손질을 가한 ‘리패키징’ 제품인가”라는 근본적인 질문이 불거졌습니다.
핵심 질문: 이는 단순한 오픈소스 활용의 문제가 아니었습니다. 업스테이지가 정부 지원을 받고 ‘국가 대표 AI’로서의 이미지를 내세운 만큼, 투명성과 원천 기술에 대한 신뢰는 생명선과 같았습니다. 논란은 기술적 차원을 넘어, 기업의 정체성과 윤리를 묻는 것이었죠.
파격의 대응: 모든 카드를 테이블 위에 올리다
많은 기업이라면 이럴 때 표준적인 위기 매뉴얼을 따랐을 겁니다. “내부 검토 중입니다”, “근거 없는 의혹입니다”라는 모호한 입장 발표 후 시간을 벌거나, 기술적 세부 사항은 기업 비밀이니 공개할 수 없다는 입장을 고수했을 수도 있습니다.
하지만 업스테이지의 선택은 정반대였습니다. 논란이 불거진 지 불과 이틀 만인 12월 18일, 그들은 모든 것을 공개하는 초강수를 뒀습니다.
공개 항목 1: 완전한 학습 데이터 레시피 공개
가장 먼저, 그들은 솔라 모델을 학습시킨 정확한 데이터셋의 구성 비율과 출처를 공개했습니다. 한국어, 영어 데이터는 물론, 실제로 포함된 중국어 데이터의 비중(약 5%)과 그 출처(공개된 중국어 데이터셋)를 명시했죠. “우리는 이런 데이터를 썼다”는 사실을 숨기지 않고 정면으로 제시한 것입니다.
공개 항목 2: 토크나이저의 비밀 해제
의혹의 핵심이었던 토크나이저에 대해서는 더욱 과감했습니다. 그들은 자신들의 토크나이저가 중국어 효율성을 높이기 위해 ‘BBPE(Byte-level BPE)’ 방식을 채용했으며, 이는 중국 01.AI의 방식과 유사할 수 있지만, 이는 공개된 기술 영역이며 자신들이 독자적으로 구현했다고 설명했습니다. 더 나아가, 토크나이저를 구성하는 5만 개의 ‘어휘’ 리스트를 그대로 공개해 누구나 확인할 수 있게 했습니다.
공개 항목 3: 아키텍처 비교 분석표까지
마지막으로, 일부에서 제기된 모델 아키텍처 표절 의혹에 대해서는, 01.AI의 이이 모델과 자신들의 솔라 모델을 요소별로 하나하나 비교한 상세한 기술 비교표를 공개했습니다. 두 모델이 공통된 오픈소스 기반 기술(메타의 라마 모델)을 출발점으로 삼았을 뿐, 세부 구성과 확장 방식에서 근본적인 차이가 있음을 데이터와 함께 증명하려 했죠.
“저희는 커뮤니티의 질문에 답변하고, 투명성을 제공하기 위해 학습 데이터 구성, 토크나이저 생성 방법 및 어휘 사전, 그리고 모델 아키텍처에 대한 세부 정보를 포함한 기술 보고서를 공개하기로 결정했습니다.” – 업스테이지 공식 입장 중
왜 이렇게까지 했을까? 위기 속에 숨은 세 가지 전략적 계산
이런 과감한 ‘전면 공개’는 단순히 논란을 잠재우기 위한 감정적인 반응이 아니었습니다. 그 뒤에는 AI 스타트업으로서의 날카로운 생존 전략이 깔려 있었습니다.
첫 번째, 신뢰 자본의 회복과 확장
AI 시대에서 가장 중요한 자산은 ‘신뢰’입니다. 특히 오픈소스 모델은 개발자와 기업이 그 모델을 ‘믿고’ 자신의 서비스에 적용할 때 비로소 가치가 커집니다. 불투명함은 이 신뢰를 순식간에 무너뜨립니다. 업스테이지는 논란을 기회로 삼아, 다른 기업이라면 공개하지 않을 핵심 정보까지 오픈함으로써 ‘세계에서 가장 투명한 AI 기업’이라는 새로운 신뢰 자본을 쌓고자 했습니다. 이는 장기적으로 더 많은 개발자와 파트너를 끌어모을 수 있는 강력한 브랜딩이 되죠.
두 번째, 커뮤니티의 힘을 활용하라
오픈소스 생태계의 힘은 ‘집단 지성’에 있습니다. 업스테이지는 모든 것을 공개함으로써 논란을 내부에서 끙끙 앓는 문제가 아닌, 전 세계 개발자 커뮤니티가 함께 검증하고 토론할 수 있는 공개적인 주제로 바꿔버렸습니다. 이는 결과적으로 솔라 모델에 대한 엄청난 양의 무료 검증과 홍보 효과를 불러왔습니다. “우리는 숨길 게 없으니, 여러분이 직접 확인하세요”라는 메시지는 커뮤니티를 적에서 가장 강력한 옹호자로 만들 가능성이 높습니다.
세 번째, 진정한 ‘국대 AI’의 조건 재정의
업스테이지는 이 사건을 통해 ‘국대 AI’가 반드시 100% 국내 기술로만 만들어져야 한다는 편협한 정의에서 벗어나야 함을 보여주었습니다. 글로벌 오픈소스를 활용하고, 세계적 수준의 기술을 흡수해 한국어와 한국 환경에 최적화된 독창적인 가치를 더하는 것이 현실적이고 강력한 길임을 입증하려 한 것이죠. 그들이 공개한 ‘레시피’는, 그 자체가 한국이 가진 ‘조립과 최적화의 기술력’을 보여주는 결과물이었습니다.
파장과 함의: 한국 AI 산업에 던지는 질문
업스테이지의 이번 대응은 국내 AI 산업에 여러 가지 깊은 화두를 던졌습니다.
첫째, 오픈소스의 윤리적 사용 기준은 어디까지인가? 입니다. 모든 현대 AI는 거대한 오픈소스의 어깨 위에 서 있습니다. 문제는 그 사용의 경계와, 그 출처를 얼마나 투명하게 인정하느냐에 있죠. 업스테이지는 ‘극한의 투명성’이라는 하나의 답안을 제시했습니다.
둘째, 기술 주권에 대한 우리의 태도입니다. 모든 것을 처음부터 만드는 ‘완전 자주’가 과연 가능하고 효율적인가, 아니면 글로벌 생태계에 활발히 참여하면서 우리만의 강점을 부각시키는 ‘개방형 자주’가 현명한 길인가에 대한 고민이 필요해 보입니다.
마지막으로, 이 사건은 AI 시대의 위기 관리 패러다임이 근본적으로 바뀌었음을 보여줍니다. 정보가 투명하게 흐르는 시대에, 은폐와 침묵은 오히려 불을 키우는 연료가 됩니다. 전문가와 대중 모두가 기술을 일정 부분 이해하는 시대, 진실하고 기술적인 소통으로 맞서는 것이 유일한 해법일 수 있습니다.
논란을 넘어선 새로운 출발점
업스테이지의 ‘즉각적 전면 공개’ 작전은 단기적으로는 큰 위험을 감수한 도박처럼 보일 수 있습니다. 하지만 결과적으로 이는 그들을 더 강하게 만들었습니다. 논란은 오히려 솔라 모델과 업스테이지의 이름을 널리 알리는 계기가 되었고, 그들이 제시한 투명성의 기준은 이제 동업자들에게도 적용될 산업의 새로운 표준이 될 가능성이 있습니다.
이 사건은 한국 AI 기업이 글로벌 경쟁장에서 살아남기 위해선 뛰어난 기술력만큼이나 ‘열린 태도’와 ‘용기 있는 소통’이 필수 무기임을 일깨워줍니다. 업스테이지가 중국산 AI 논란에 공개로 맞선 이유는 간단합니다. 그들이 꿈꾸는 미래는, 숨김없이 함께 만들어가는 공개의 세계이기 때문이죠. 그들의 다음 수가 더욱 기대되는 이유입니다.