데이터라벨링의 한계 극복 (1) : 데이터라벨링의 역사

데이터라벨링은 딥러닝 전체 개발 시간의 80%에 달하는 핵심 구성 요소 중 하나입니다. 컴퓨터가 패턴을 학습하고, 예측을 생성하고, 결정을 내리기 위해서는, 우리는 컴퓨터에게 그것이 무엇을 보고 있는지, 그것이 무엇을 의미하는지 가르쳐야 합니다.

데이터라벨링의 역사

데이터라벨링딥러닝 전체 개발 시간의 80%에 달하는 핵심 구성 요소 중 하나입니다. 컴퓨터가 패턴을 학습하고, 예측을 생성하고, 결정을 내리기 위해서는, 우리는 컴퓨터에게 그것이 무엇을 보고 있는지, 그것이 무엇을 의미하는지 가르쳐야 합니다.

이렇게 훈련 데이터에 정확한 라벨을 붙이는 것을 데이터라벨링이라고 합니다. 이번 글에서는 데이터라벨링의 역사를 둘러보며, 특히 ImageNet이 이 분야에 어떤 변화를 가져왔는지 살펴보겠습니다.


ImageNet 이전의 초기의 몇몇 벤치마크 데이터셋은 MNIST와 CIFAR와 같은 데이터셋들이 널리 사용되었습니다.

MNIST는 0부터 9까지의 손으로 쓴 숫자 이미지 70,000개로 구성된 데이터셋이며, CIFAR-10은 10개의 클래스에 대한 60,000개의 32x32 컬러 이미지로 이루어져있습니다.

이 데이터셋들은 경진대회가 끝나고나서도 많은 개발자들이 자신의 모델을 훈련시키고, 그 성능을 평가하는데에 사용되고 있습니다.

데이터라벨링의 역사 - 데이터셋 벤치마크
CIFAR-10 과 MNIST

2006년에 Stanford의 Fei-Fei Li에 의해 기획되고 2010년에 등장한 것이 바로 'ImageNet'이라는 대규모 이미지 데이터셋이었습니다.

ImageNet은 14백만개의 이미지와 2만개 클래스를 포함하는 방대한 규모로 이전에는 볼 수 없었던 차원이 다른 규모의 데이터셋을 제공했습니다.


이미지넷- 데이터라벨링의 역사
ImageNet

이 거대한 데이터셋을 통해 전 세계의 컴퓨터 비전연구가 가속되었다 할 정도로 해당 오픈 데이터셋은 큰 영향을 끼치게 됩니다. 이 데이터셋을 가공한 방식이 바로 데이터라벨링이며 크라우드소싱이라는 방식을 통해 가공 되었습니다.

크라우드소싱의 첫 번째 사례는 Amazon Mechanical Turk입니다. 이 플랫폼은 비대면으로 사람들에게 간단한 작업을 제공하고, 이들이 작업을 완료한 뒤에 그에 따른 보상을 제공하는 플랫폼 인데요.

단 시간 내에 다수의 사람이 참여하여 대량의 데이터를 분류하고, 라벨을 붙이는 작업을 진행하여 대규모 데이터셋 가공이 가능하게 되었습니다.

현재 데이터라벨러라 부르는 직업의 시초는 여기에서 탄생하였다고 할 수 있습니다.

크라우드소싱의 문제점

크라우드소싱은 여러 사람이 동시에 참여하기 때문에 엄청나게 빠른 속도로 데이터셋 구축이

가능한 장점을 가지고 있으나 데이터의 품질이 좋지 않은 것이 큰 문제가 되고 있습니다.


혹자는 크라우드소싱을 통해서도 고품질 데이터를 구축할 수 있다고 주장할지 모르지만

글쎄요.. 아래에서 고품질 데이터 구축이 힘든 이유를 설명하겠습니다.


가령, 인공지능이 학습해야 할 데이터에 표기가 잘못되어 있는 문제가 있을 수 있습니다.

해당 경우는 데이터셋 내부에 고양이를 개로 라벨링한 데이터가 포함되었고 그대로 인공지능이 학습하였을 때의 예시입니다.

데이터 품질 설명 그림
고양이를 잘못 인식한 인공지능

학습 데이터 정보가 잘못되었을 경우 AI는 틀린 답을 토대로 틀린 답을 도출하게 됩니다.


다른 예시도 있습니다. 바로, 작업자의 주관이 개입되는 경우입니다.

사람이 하는 말은 모호할 때가 많습니다.

작업을 위한 가이드라인 작성 단계에서 많이 나타나는데요.


프로젝트가 시작되면 최초 개발자의 의도와는 다르게 작업 가이드라인을 해석하고 작업을 하는가 하면 개발자 역시 막상 작업을 시작해보니 작업자 말이 맞는 경우도 있기에 전체 가이드라인을 수정하면서 기존 작업물을 추가로 수정하는 문제가 발생하기도 합니다.

프로젝트 종료 시점에 그 기준이 하나로 통일이 되느냐 하면 또 그렇지는 않은 것 같습니다.

크라우드소싱은 빠른 시간안에 작업을 완수한다는 장점이 있지만, 일관성이 혼자 작업한 것에 비해 매우 떨어진다고 할 수 있습니다.


컨센서스 라벨링

아마존에서도 비슷한 일들이 계속해서 발생하자 사람들의 오차를 최소화 하고자 컨센서스 라벨링이라하는 방법을 도입하였습니다.

컨센서스 라벨링

그림과 같이 작업자 1, 2, 3이 작업한 데이터를 평균 처리하게 되면 각자의 주관이 희석되어 좀 더 일관성 있는 데이터를 만들어 줍니다.

해당 방식은 작업 속도가 빠르나 검수에 많은 공을 들여야 하는 크라우드소싱 방식과 잘 어울리며 데이터셋의 품질을 높여줄 수 있습니다.

구축 비용이 3배가 되는 문제가 여전히 남아있긴 하지만요.


결론

데이터라벨링 업계에서는 아직 까지 해결 해야 할 숙제들이 많습니다.

인공지능 모델 개발을 위해 기업들은 수천 만원에 달하는 데이터 가공 비용을 책정해야 하고 이는 인공지능을 도입하려는 기업에게 큰 허들임이 분명합니다.

다음으로 이어지는 글은 업계에서 어떻게 비용을 줄여 효율적으로 데이터라벨링을 진행하는지에 대해 소개해드리려 합니다.

다른 글 더보기
도입 문의, 제품 개발 고민 상담 안내
비효율적인 데이터 라벨링 시간
애자일그로스로 대폭 단축해보세요.
도입을 고민하신다면?
Coffee Chat