[ET시론] 오픈소스AI, 골든크로스에 대비하자

 

최근 뉴욕대 교수이자 메타(Meta)의 수석 인공지능(AI)과학자인 얀 르쿤(Yann LeCun) 교수가 오픈소스로 AI 발전에 기여한 점을 인정받아 미국 타임지로부터 '2024년 AI분야 가장 영향력 있는 인물'로 선정되었다는 소식이다. 그에 따르면 AI 시스템은 독점적이고 폐쇄적이어서는 안 되며, 사람들은 그러한 독점적인 시스템 하에서는 일을 하지는 않을 것이라는 주장이다. 그의 주장대로 AI 기술은 공개되면 공개될수록 더 많은 신뢰를 얻고 보편화될 수 있을 것이다.

◇오픈소스AI

오픈소스AI라 함은 딥러닝 모델의 소스코드 뿐만아니라 학습용 데이터와 모델, 모델 튜닝을 위한 툴, 그리고 논문 등 각종 자료 등이 공개된 것으로 직관적으로 볼 때 집단지성의 집약체인 오픈소스 소프트웨어(SW)의 철학을 계승하고 있다. 물론 최근에는 딥러닝의 결과로 얻어진 모델만 공개하는 경우가 많기 때문에 오픈소스SW 철학의 관점에서 엄밀히 보면 오픈소스로 보기 어렵다는 의견들도 있다. 이에 따라 일각에서는 오픈소스AI가 아니라 오픈소스모델 또는 오픈모델이라고 부르는 경우도 있다.

하지만, 광의적 측면에서 볼 때 API만 제공되는 패쇄형AI와는 분명 차이점이 있다. 때마침 오픈소스SW를 정의한 국제적 단체인 OSI(Open Source Initiative)에서 오픈소스AI를 정의하기 위한 작업이 진행되고 있다고 하니 그 과정과 결과에 주목해 볼 필요가 있다.

◇오픈소스AI의 가치

오픈소스AI의 정의에 아직 다소 모호한 부분이 있다손 치더라도 오픈소스AI는 특정 벤더에 의한 장벽이나 종속 없이 누구나 AI 기술에 접근할 수 있는 기회를 제공함으로써 기술공유와 인재양성의 효과 뿐만아니라 각종 산업을 신속하게 혁신시킬 수 있다는 큰 가치를 갖고 있다. 예를 들어, 온-디바이스 AI의 핵심인 AI반도체의 경우 공개된 거대언어모델(LLM)을 해당 AI반도체 위에서 신속히 최적화해 탑재시킴으로써 AI반도체의 상품성을 높일 수 있을 것이다.

한편, 오픈소스AI에 대한 우려의 시선도 있다. 예컨대 LLM의 경우 학습용 코드나 데이터가 온전히 개방되지 않았을 경우 개인정보 유출이나 저작권 분쟁, 비윤리성 등 이른바 안전성을 제대로 검증할 수 없다는 우려가 대두된다. 하지만, 그와 유사한 우려 사항은 폐쇄형AI에서도 존재한다. 오히려 이러한 우려사항에 대응하는 방식에 있어서는 집단지성이 동작하는 오픈소스AI 방식이 더 유리하다는 것이 필자의 판단이다.

◇오픈소스AI의 현황

오픈소스AI 중에 가장 먼저 떠오르는 것은 아마 메타에서 공개한 라마(LLaMA)가 될 것이다. 하지만, 생성형 AI 분야만 놓고 볼 때 지난 1년 사이의 변화는 가히 경탄을 금치 못한다. 메타의 라마 공개 이후 알리바바의 큐원(QWen), 프랑스 AI 기업인 미스트랄 AI의 미스트랄(Mistral), TII의 Falcon 등이 줄지어 공개되었으며, 최근에는 트랜스포머의 원조격인 구글에서도 제미나이의 경량 버전이라 할 수 있는 젬마(Gemma)를 공개하였다. 폐쇄형AI의 길을 걷고 있는 오픈AI와 MS에 대응하여 메타와 알리바바 등이 구축하는 전선에 구글이 온디바이스 AI를 위한 소형언어모델(sLLM)이라는 진지를 구축하며 참전한 셈으로 보인다.

한편, AI 전문기업들은 글로벌 기업들이 공개한 모델을 바탕으로 자신만의 데이터와 기술력을 발휘하여 미세조정 결과물을 발표하며 허깅페이스 리더보드의 상단을 경쟁적으로 갈아치우고 있다. 또한 이미 특정분야에서는 GPT-4를 능가하는 솔루션이 출시되었다는 보도들이 나오고 있는 상황이다.

 

 

◇골든크로스가 오고 있다.

Photo Image LLM 분야 주요 해외 오픈소스 모델

이러한 동향 속에서 가장 주목받는 부분은 메타가 현재 라마3를 준비 중에 있다는 점과 이와 관련한 메타의 행보라 하겠다. 메타의 최고책임자 저커버그가 지난 2월 28, 29일 양일간 방한하여, 삼성전자와 AI반도체 수급에 대한 논의를 진행했을 뿐만아니라 업스테이지 등 한국어 기반의 LLM 전문 스타트업과도 의견을 주고 받은 것으로 보도되었다. 라마3는 라마2와는 다르게 다양한 국가의 언어 정보까지 포함된 막대한 데이타를 AI반도체 같은 막강한 컴퓨팅 파워로 학습시켜 현존하는 LLM의 한계를 뛰어 넘는 모델이 되지 않을까 추정되는 대목이다.

혹여 라마3가 필자가 예상하는 바와 같이 전개되지 않는다손 치더라도, 적어도 LLM 분야 오픈소스AI의 글로벌 동향을 볼 때 오픈소스AI가 폐쇄형 AI를 조만간 뛰어 넘을 기세로 그 격차를 급격히 좁혀져 오고 있다는 것은 분명한 사실이다. 바야흐로 오픈소스AI의 골든크로스가 다가오고 있는 것이다.

그렇다면 골든크로스의 대세에 동참하고 우리나라의 AI 산업이 이를 디딤돌 삼아 글로벌 리더로서 도약하기 위한 대응방안에는 무엇이 있을까? 그 단초를 국내 생태계 활성화, 리더보드 공신력 강화, 국제협력 전개라는 차원에서 찾아볼 수 있을 것이다.

◇생태계 없는 오픈소스AI는 허상

오픈소스AI에 생명력을 불어 넣는 것은 생태계이다. 우선 오픈소스AI가 제대로 활용되려면 공개된 오픈소스AI에 매료된 개발자들이 긴밀히 소통하며 고급개발자로 성장해 갈 수 있는 커뮤니티들이 활성화 되어야 한다. 또한, 나아가 이들을 행정 및 법률적 테두리 하에서 체계적으로 지원하는 비영리 재단이 활성화 되어야 한다. 우리나라에 이러한 커뮤니티 활동을 후원하는 정책과 기업 마인드가 부족한 것은 참으로 아쉬운 대목이다. 한편, 기업 간의 이해관계에 따라 서로의 재원을 출자하여 설립하는 협의체 또한 적극적으로 권장된다. 결국, 다양한 오픈소스AI 커뮤니티와 재단, 협의체 등의 활동이 활발해 질 때 비로소 강건한 오픈소스AI 생태계가 구축되는 것이다.

한편, 이러한 생태계가 활성화되기 위해서는 저렴하게 사용할 수 있는 컴퓨팅 인프라와 신선한 데이터의 지속적인 수혈이 반드시 필요하다. 때마침 과기정통부가 초거대 AI 확산 생태계 조성 사업을 출범시킨다는 좋은 소식이 있다. 향후 이를 보다 확대하여, 풍부한 컴퓨팅 인프라와 신선한 토종 데이터를 지속적으로 제공함으로써 오픈소스AI 생태계가 만개할 수 있게 되기를 기대한다.(원문보기)

 

[출처 : 전자신문 https://m.etnews.com/20240314000105)

[필자 : 김두현 건국대학교 컴퓨터공학부 교수 doohyun@konkuk.ac.kr]