카카오브레인 AI 아티스트 Karlo(이하, 칼로)와 챗GPT 같은 것들을 초거대 AI 모델(이하 초거대 AI)이라고 합니다. 요즘 챗GPT가 인기를 끌면서 근간이 되는 초거대 AI 모델에 대한 관심도 같이 늘어나고 있는데요, 카카오브레인이 정의하는 초거대 AI는 무엇일까요?
“데이터에 레이블링할 수 없을 정도로 많은 데이터를 확보해 성능 및 기능을 향상시킨 AI 모델입니다.”
카카오브레인의 리서치 총괄 디렉터 Clint(이하, 클린트)의 말입니다. 초거대 AI는 데이터를 대량으로 수집하고 비슷한 패턴을 찾아 스스로 학습합니다. 얼마 전 카카오브레인에서 공개한 Image-Text pair 데이터셋 Coyo(이하 코요)는 약 7억 4천만개 정도의 데이터 규모를 가지고 있습니다. 카카오브레인은 초거대 규모의 데이터를 사람이 하나하나 레이블링하는 건 불가능하다고 정의하고, 그걸 AI 자체가 처리하는 방식으로 해결했습니다.
“일일이 레이블링하는 대신 일상 데이터를 수집해 자동으로 처리하는 것으로 방향이 바뀌었습니다.”
그런데, 그러다 보면 잘못된 데이터를 분류하거나 받아들이게 될 수도 있겠지요? 초거대 AI는 애초에 통계적으로 ‘틀린 레이블이 있을 수 있다’는 것을 전제로 데이터에 접근합니다. AI 모델이 스스로 틀린 답이 있을 수 있고, 그런 오답들이 학습에 영향을 주지 않도록 손보는 것도 초거대 AI 개발의 핵심이라고 클린트는 강조합니다.
카카오브레인은 초거대 AI 분야에서 매년 몇십 건의 논문을 발표, 등재하고 논문을 배경으로 AI 아티스트 칼로와 KoGPT, 데이터셋 코요를 공개하는 등 끊임없이 좋은 성과를 내고 있습니다.
“카카오브레인은 연구자들을 위한 오픈 커뮤니티라 보시면 됩니다.”
카카오브레인을 외부에서 바라보면, 여기가 연구소인지, 아니면 교육 기관인지 조금 헷갈릴 수도 있습니다. 그러나 카카오브레인은 ‘AI를 기반으로 사람들에게 가치를 제공하는’ 엄연한 영리 법인입니다.
클린트가 뽑은 카카오브레인의 가장 큰 강점은, 바로 ‘오픈 커뮤니티’를 지향하고 있다는 것입니다. 카카오브레인의 리서치 방식 역시 ‘오픈 리서치’거든요. 그런데, 뭔가 ‘뜨거운 아이스 아메리카노’처럼 생소하지 않나요? 카카오브레인은 엄연히 영리 법인인데 어떻게 공익 집단처럼 오픈 커뮤니티를 목표로 하는걸까요?
카카오브레인은 이렇게 공익적인 행보를 보일 수 있는 것은 첫째, 그만큼 경쟁사가 쉽게 따라올 수 없을 만큼 기술적 장벽을 구축했다는 확신이 있기 때문입니다. 경쟁사나 다른 연구자가 카카오브레인의 연구를 활용해 내놓은 결과물에 새로운 영감을 받아 더 큰 규모의 AI 프로젝트를 시도하는 촉매로 작용할 수도 있고요.
둘째, 연구자 간 선의의 경쟁을 믿기 때문입니다. 카카오브레인이 시도한 AI 프로젝트의 활용 방안이나 한계점 등에 대해 공개하면 외부의 연구자들이 다시 연구하고 더 좋은 아이디어를 제안해줄 것이라고 카카오브레인은 믿습니다.
카카오브레인이 연구한 대부분의 AI 모델을 공개하고 있는 것은 바로 이런 오픈 커뮤니티 문화 때문입니다. ‘B^ DISCOVER’의 근간이 된 알고리즘 역시 논문으로 공개했고 학습할 때 활용한 모델도 공개해 AI 생태계가 모두 함께 성장하도록 지원하고 있습니다.
또한 사내 자체 인프라를 가지고 있다는 것도 큰 힘이 됩니다. 인프라를 단순 계산능력이라고 한다면 구글이나 아마존 등의 인프라를 대여해 쓸 수도 있습니다. 하지만 카카오브레인은 자체 인프라를 직접 구축하고 있습니다.
“카카오브레인이 자체 보유한 ‘브레인 클라우드’는 단순한 컴퓨팅 인프라 만이 아닙니다.”
카카오브레인이 빠르게 성장하는 까닭은 뛰어난 연구자들과 브레인 클라우드가 함께 성장하고 있기 때문입니다. 카카오브레인에서는 라지스케일의 경험과 노하우를 브레인 클라우드 라는 인프라 플랫폼에 시스템으로 통합하고 있습니다. 이러한 브레인 클라우드 덕에 카카오브레인 연구자들은 오늘도 자연스럽게 라지스케일의 환경을 접하고 엔지니어링이나 인프라에 대해 고민하는 시간을 연구에 집중할 수 있는 환경을 통해 더 큰 도전과 놀라운 결과들을 보여주고 있습니다.
지금도 AI 연구는 눈에 띄게 성장을 거듭하며 우리 생활 속으로 들어오고 있습니다. 벌써 사람들은 AI에게 일을 뺏기고 있다고 걱정합니다. 하지만 뺏긴다기보다는 그만큼 AI를 활용하기가 쉬워지는 것이라고 생각의 패러다임을 바꿔야 하지 않을까요?
클린트의 더 깊은 생각은 바이라인 네트워크에 소개된 인터뷰를 통해 자세히 보실 수 있습니다.