카카오브레인의 인공지능 아티스트 Karlo(이하 칼로)의 이미지-텍스트 데이터셋이 Coyo(이하 코요)라는 건 너무나도 자연스러운 연결입니다. 코요는 프리다 칼로의 고향이자 ‘코요테의 마을’이라는 뜻인 코요아칸에서 따온 말이거든요. 프리다 칼로 – 코요아칸, 칼로 – 코요. 누가 이렇게 멋진 이름을 생각했을까요. 그런데 이 이름이 정말 멋진 건 ‘공개’되었기 때문입니다.

카카오브레인은 지난 8월 31일, 약 7억 4천만 개 이미지-텍스트 데이터셋을 공개했습니다. 칼로 만큼, 아니 더 유명해질 코요가 그 주인공입니다. 이 이름의 데이터셋을 구축하고 이름을 붙인 진짜 주인공, 카카오브레인의 Large-Scale 엔지니어링 팀을 소개합니다.

카카오브레인 라지-스케일 엔지니어링팀 딜런 팀장

자, 이 팀에서 가장 공이 많은 분을 꼽는다면 누구일까요?

질문 한 마디에 팀원 모두가 한 사람을 쳐다봅니다.
Dylan(이하 딜런) 빅데이터와 분산학습을 기반으로 인공지능 모델을 연구하는 Large-Scale(라지-스케일) 엔지니어링 팀 전체에 공이 있습니다. (아니, 너무 단답아니에요?)

딜런 팀장은 인터뷰를 하고자 비행기까지 타고 온 유일한 제주도민입니다. 팀장이 제주도에 있어도 되는 건가요? 라는 우문을 던졌지만 온라인으로 만나는데 이미 익숙해져 있고 회식도 종종한답니다. 각자 먹고 싶은 걸 주문하고 모니터 앞에 앉아 수다를 떠는 모습을 상상해봅니다. 재미있나요? 생각보다 재미있다는 대답이 돌아옵니다. 회사가 맛있는 걸 사줘서 그런 건 아니구요? 물론 그것도 맞지만요(사실은 그게 최고에요). 어떤 시대에도 법카 찬스는 회식을 즐겁게 하는 가장 중요한 키워드인가 봅니다.


라지-스케일 엔지니어링팀에 대해 조금 더 자세히 설명 부탁드려요

Sphere(이하 스피어) 추상적으로 큰 Large-Scale(라지-스케일) 모델을 현실에서 돌아가게 만드는 일을 합니다. 커다란 데이터와 모델을 잘 다루고, 더 잘 다루고자 하는 팀입니다.

Jacob(이하 제이콥) 저희 팀은 데이터 확보, 분산 학습, 추론 최적화 등 다양한 작업을 수행하면서 라지-스케일 AI 모델을 구축하고 있어요. 카카오의 100대1 원칙에 따라 최근 라지-스케일 모델 학습에 사용되는 코요 데이터셋을 공개했고 수집한 코요 데이터셋을 기반으로 CLIP, ALIGN, ViT, BiT 등의 AI 모델을 학습하여 카카오브레인이 글로벌 경쟁력을 갖추게 하는 팀이죠.
여기서 조금 더 자세히 파고 들었다가는 ‘뭐든 다하는 팀이죠’라는 말이 나오겠구나 싶었는데, 정말 나왔네요.

카카오브레인 라지-스케일 엔지니어링팀 제이콥

Monk(이하 몽크) 뭐든 다 하는 팀이고요, 인공지능 연구자들의 간지러운 곳을 긁어주는 팀이에요.

Jun(이하 준) 세계 최고 수준의 데이터셋 수집과 세계 최고 수준의 모델 학습 최적화를 추구하는 팀이고요.


드디어 코요 얘기가 나왔네요. 코요 데이터셋을 소개해주세요

딜런) 코요는 7억 4천만 개의 이미지-텍스트 쌍으로 이루어진 데이터셋으로 초거대모델 학습에 꼭 필요한 존재입니다. 앞으로 초거대모델 커뮤니티에서 큰 주목을 받을 거에요.

몽크) 질과 양 모두 뛰어난 맛좋은 데이터셋이에요. (웃음)

아, 그럼 코요에 대한 자세한 이야기는 ‘여기 링크를 참조해주세요’, 라고 넣을게요. (웃음)


코요 데이터셋을 구축/구현했다는 것은 어떤 의미가 있나요?

스피어) 데이터셋은 ML이 존재하기 위해 꼭 필요한 조건이죠. 데이터는 현실과 상상을 모두 포함하고 있다고 생각하는 편인데, ML에게 데이터를 보여줌으로써 ML이 현실 뿐만 아니라 상상 또한 표현할 수 있게 되었다고 생각합니다.

제이콥) 인공지능 분야에서 ImageNet 데이터셋과 같이 공개된 데이터가 없었다면, AI 모델이 이렇게 발전하지 못했을 겁니다. 그만큼 데이터셋 구축/구현하려면 비용도 많이 들고, 수집한 데이터로 라지-스케일 모델을 학습하여 검증한다는 것도 쉽지 않지만 저희 팀에서 데이터를 수집, 확보, 공개, 그리고 검증까지 진행한 코요를 공개하게 되어 앞으로 인공지능 분야에 큰 도움이 될 거라고 생각해요. 굉장히 의미가 큰 일입니다.

몽크) 인공지능에게 최고의 먹이지요. (웃음)

Eric(이하 에릭) 인공지능 분야는 모델이 커지면 성능이 향상된다는 걸 경험으로 배웠고 그래서 모델을 점점 키워가면서 성능을 발전시키는 방향으로 가고 있습니다. 모델이 커지면 데이터셋도 커져야하죠. 최신 인공지능 기술에 데이터셋 구축은 필수입니다. 더 크고 품질 좋은 데이터셋은 말할 것도 없죠.


코요 데이터셋을 구현할 때 가장 중요한 부분은 무엇이었나요?

카카오브레인 라지-스케일 엔지니어링팀 스피어

스피어) 두 가지 있는데요, 첫째, 데이터가 커지면서 메모리 용량, 속도, 활용 리소스라는 부분에 걸맞게 적절한 엔지니어링과 최적화를 진행하는 것이 중요했고, 둘째, 어떤 데이터를 모을 것인지, 더 좋은 데이터가 무엇인지 결정하는 것이 중요했습니다. 우리가 만들고자 하는 딥러닝 모델에게 필요한 데이터가 무엇인지, 더 성능이 좋고 안전한 데이터는 무엇인지 냉정하게 따져 보아야 합니다.

딜런) 아무리 많은 데이터셋이라고 하더라도 잘못된 데이터는 학습에 도움이 되지 않습니다. 따라서 신뢰할 수 있는 고품질 데이터를 구축하는 것이 제일 중요합니다.

제이콥) 리소스를 최대로 활용할 수 있도록 데이터셋 수집 과정을 자동화하고, 수집한 후에는 데이터를 정제하도록 전처리 과정이라고 생각합니다.

코요 데이터셋을 구축할 때 가장 시간을 많이 들인 부분은 무엇인가요?

딜런) 음란, 욕설, 비속어, 폭력성이 포함된 데이터와 학습에 도움되지 않는 데이터셋을 제거하는 과정에 가장 많은 시간을 소요한 것 같아요.

스피어) 누구나 접근할 수 있는 인터넷 세상에는 모두가 받아들일 수 없는 위험한 데이터가 생각보다 많습니다. 최대한 걸러내고자 노력했고 시간도 정말 많이 들었어요.

카카오브레인 라지-스케일 엔지니어링팀 브룩

브룩) 저도 동감이고요, 앞으로 더 많은 데이터를 추가로 수집할 때를 대비해 이를 자동화하는 과정까지 해야했어요.

준) 악성 데이터 외에 이미지의 최소, 최대크기, 텍스트의 길이 등으로 필터링하는 시간도 꽤 많이 들었습니다.


데이터셋 구축에 가장 난해한 요인은 무엇인가요? 이것을 어떻게 해결했나요?

딜런, 제이콥, 몽크, 에릭) 없어요~ (웃음)

스피어) 데이터셋 공개를 결정했을 때 최대한 많은 사람들에게 도움이 되고 싶었지만 나쁜 의도로 사용되지 않도록 하는 것도 중요하기 때문에 여러 논의가 있었습니다.

카카오브레인 라지-스케일 엔지니어링팀 준

준) 라지-스케일 데이터 수집 자체가 비용과 리소스가 많이 드는 데다가 필터링 작업에 있어서 모두를 만족할 수 없다는 점에 의견이 많았어요. 코요를 공개하고 누군가 LGBT 관련 단어가 필터링 되는게 맞는지에 대한 문의를 했는데 앞으로 이런 이슈는 끊임없이 나올 것 같아요. 그래서 코요 공개가 커뮤니티의 발전을 위한 것이기도 하지만 다양한 피드백을 통해 데이터 품질의 향상을 기대하고 있습니다.

스피어) 아 그리고 돈이 많이 많이 많이 들어요. (웃음) 게다가 이것을 공개한다는 것은 더 많은 비용을 감수해야 하는 셈이지요.

브룩) 모델을 개발하고 데이터셋을 구축하는 일 모두 중요한데 아무래도 모델 개발 쪽에 인력이 더 많아요. 그리고 데이터셋에 들어간 데이터의 라이센스 이슈로 구축을 해도 공개를 꺼리기도 합니다.

몽크) 아무래도 저작권 같은 법률적인 문제가 아직까지 깔끔하게 해결되지 않았어요.
이렇게 많은 자원을 투입하고 품질 좋은 데이터셋을 만들었는데 굳이 공개한 까닭은요?

브룩) 사람이 수작업으로 구분하고 주석한 데이터는 수작업이라는 한계가 있어 시간과 비용이 많이 들고, 그만큼 데이터를 키울 수도 없어요. 게다가 다양성도 떨어집니다.

에릭) 세계 최고의 기업들이 거대한 인공지능 모델을 개발하고도 모델이나 API만 공개하는 경우는 있지만 다른 사람이 모델을 만들 수 있는 환경은 만들어주지 않아요. 코요는 세계에서 누구나 탑 티어 급의 인공지능 모델을 만들 수 있는 데이터셋입니다. 공개의 의미가 무척 크죠.

카카오브레인 라지-스케일 엔지니어링팀 에릭

준) 앞에서도 말씀드린 것처럼 여러 이슈에 먼제 대응하는 것도 있고요, 라지-스케일 연구를 진행하는데 있어서 누구가 활용할 수 있는 데이터를 제공했다는 것, 충분히 의미있는 일이라고 생각합니다.

데이터셋을 공개해서 카카오브레인이 얻는 이익에는 어떤 것이 있을까요?

딜런) 우리 회사가 빅데이터 처리 기술을 보유하고 있음을 알리고, AI 커뮤니티에서는 공개된 데이터셋을 기반으로 재현가능한 기술을 연구할 수 있도록 기여할 수 있습니다.

스피어) 데이터셋에 있어서 어느 정도의 표준, 기준으로써 사람들에게 알려지는 것 자체가 이익이라고는 생각합니다.

제이콥) 우리 회사의 기술력 홍보 및 개발한 AI 모델의 활용 가능성이 늘어난다는 것이겠죠. (회사 홍보까지 신경쓰시는 제이콥님… 웃음)

브룩) 우리도 코요 데이터셋으로 인공지능 모델을 개발하는데, 다른 연구자들이 우리 데이터셋을 활용하는 연구나 전략을 참고하여 보다 나은 인공지능 모델을 개발할 수 있을 거라고 봅니다. AI 커뮤니티에서는 이렇게 좋은 데이터셋으로 많은 모델들을 개발하는데 기여한다고 생각해요.

에릭) ImageNet이 비전 분야의 난제들을 해결하는데 지대한 역할을 했어요. 하지만 지금은 성능의 한계랄까, 그래서 전처럼 많이 쓰이지는 않습니다. 그 뒤를 이어 거대 인공지능 모델들이 나오고 있지만 그것들을 만드는데 사용할 데이터넷은 공개된 것이 없어 거대 인공지능 모델들은 세계 일부 대기업들의 독점인 상황입니다. 데이터셋을 공개 함으로서 누구든 대기업들만 갖고 있는 거대 모델을 스스로 학습할 수 있는 기반을 얻게 되었어요.

준) 코요 데이터셋을 공개함으로써 생기는 피드백들이 데이터의 품질 개선에 도움이 된다고 생각합니다.


앞으로의 계획은 무엇인가요?

딜런) 안전하고 윤리적인 세계 최고의 데이터셋을 구축하려고 합니다.

스피어, 에릭) 더 크고 좋은 데이터셋을 만드는 것. 그리고 그것을 자동화하는 것입니다.

제이콥, 준) 세계 최고 수준의 코요 데이터셋을 활용해서 세계 최고 수준의 AI 모델을 확보하고 싶어요.

브룩) 코요를 보다 잘 활용하기 위한 전략이나 코요를 사용한 강력한 인공지능 모델들을 공개하려고 해요.

몽크) 데이터셋을 수집할 때 좀 더 성능이나 자원 측면에서 최적화된 접근 방법을 찾고 싶어요.


마지막으로 코요는 여러분에게 어떤 의미인가요?

딜런) 연구에 필요한 밑거름

스피어) 용암

제이콥) 초석

브룩) 원피스

몽크) 네버엔딩

에릭) 인공지능학계의 자산

준) 끝날 수 없는 일