AI 데이터 구축을 위한 데이터 라벨링이란?

인사이트

2024-10-18

데이터 라벨링이란?

최고의 요리가 좋은 재료에서 시작되듯, AI 솔루션의 품질 또한 고품질의 데이터에 달려 있습니다. 데이터 라벨링은 AI 데이터를 준비하는 과정 중 하나로, 수집, 라벨링, 전처리 단계를 포함합니다. 데이터 라벨링의 중요성 및 과정과 이 작업이 AI 개발에 어떻게 기여하는지 자세히 살펴보겠습니다.

‍

좋은 데이터란 무엇일까요?

‍

우리는 스마트폰을 사용할 때마다 데이터를 생성하고 있습니다. 소셜 미디어에 게시글을 올리거나, 온라인 쇼핑을 하거나, 심지어 웨어러블 기기를 통해 운동을 기록하는 등, 다양한 방식으로 데이터를 만들어 내고 있습니다. 그러나 그 중 실제로 인공지능 시스템에 유용한 데이터는 일부에 불과합니다. 그렇다면 AI 개발에 적합한, ‘좋은’ 데이터란 무엇일까요?

좋은 AI 데이터는 네 가지 기준을 충족해야 합니다.

‍

1) 데이터 정확성

잘못된 정보나 편향된 데이터는 AI의 학습 과정을 방해할 수 있습니다. 이에 대처하기 위해서는 데이터 수집 과정에서 오류를 최소화하고, 수집된 데이터를 엄격히 검증해야 합니다.

2) 데이터 관련성

문제 해결과 직접적으로 연관된 데이터를 사용해야만 AI가 올바르게 학습할 수 있습니다.

3) 데이터 다양성

다양한 유형의 데이터가 충분히 있어야 AI가 다양한 상황을 인식하고, 대처할 수 있습니다.

4) 데이터 완전성

학습 데이터에 오류가 포함된 데이터가 전혀 없다면, AI는 학습을 올바르게 할 수 없습니다.

‍

위 네 가지 중요 요소를 충족하는 데이터는 결국 AI의 학습 효율성과 정확성에 직접적인 영향을 미칩니다. 특히 데이터 라벨링 과정은 데이터를 ‘좋은 데이터'로 만드는 데 중요한 역할을 합니다. 데이터 라벨링 작업은 단순 반복 작업으로 보일 수 있으나, AI의 효율성과 정확성을 결정하는 중요한 요소입니다.

‍

데이터 라벨링 쉽게 이해하기

‍

‍

데이터 라벨링에 관해 이야기하기 전에, AI 학습 방법 중 하나인 ‘지도학습'에 대해 알아봅시다. ‍

‍

지도학습이란?

머신러닝은 크게 지도학습, 비지도 학습, 강화학습으로 나눌 수 있습니다. 쉽게 설명하면, 지도학습은 미리 데이터와 정답을 AI에게 제공하여 학습시키는 방법입니다.

예를 들어, 개와 고양이를 구분하려는 AI에게 개와 고양이 사진을 보여주고, 각각에 대해 ‘개’, ‘고양이’라는 라벨을 부여하는 것이죠. 이러한 방식으로 AI는 사진과 레이블 사이의 관계를 학습하게 됩니다. 이 때 각 사진이 개인지 고양이인지 표시하는 것을 ‘라벨’이라고 합니다.

일상적인 예로, 슈퍼마켓에서 각 상품에 붙어 있는 이름과 가격 정보는 물건에 대한 정보와 값을 명시해 소비자가 쉽게 제품을 이해할 수 있도록 합니다. 이와 마찬가지로, 데이터 라벨링은 AI에게 데이터에 라벨을 붙여 각 데이터에 대한 이해도를 높여주는 과정입니다. 이렇게 라벨링 된 데이터는 AI가 각 데이터를 이해하고 기준에 따라 분류할 수 있도록 도움을 줍니다.

‍

데이터 라벨링이 중요한 이유

AI는 크게 데이터와 코드로 이루어져 있습니다. AI의 성능을 높이려면, 데이터나 코드의 퀄리티를 올려야 합니다. 코드의 경우, 대부분 오픈 소스로 공개되어 있고, 이미 상당한 수준으로 공개되어 있습니다. 따라서 코드의 퀄리티를 올리는 것은 의미가 있지만, 그 영향력은 한계가 있습니다.

따라서 이제 AI의 성능 차이를 결정짓는 요소는 고품질 데이터의 확보 여부입니다. 이 데이터의 품질을 좌우하는 첫걸음은 바로 정확한 좋은 데이터를 확보하는 것, 즉 데이터 라벨링에서 시작됩니다. 데이터 라벨링이 제대로 이루어지지 않으면, AI는 학습할 수 있는 올바른 데이터를 제공받지 못하고, 그 결과 성능이 저하될 수밖에 없기 때문입니다.

‍

데이터 라벨링의 진행 절차

데이터 라벨링의 중요성과 이론적 내용에 대해 살펴보았고, 이번 챕터에서는 실제로 데이터 라벨링 작업 진행 과정을 가상의 예시 상황과 함께 알아보겠습니다.

‍

‍

1️. 프로젝트 목적에 맞는 원천 데이터 수집

오픈 데이터 소스 수집 (AI hub 등)
인터넷 데이터를 크롤링하여 수집
기존에 가지고 있던 사내 혹은 개인 데이터 활용
자체적으로 데이터 수집

‍

원천 데이터를 수집하는 방법은 다양합니다. 먼저, 프로젝트의 태스크를 해결할 수 있는 데이터의 형태를 정의하고, 쿼리를 작성하여 따로 수집하는 작업을 거치게 됩니다. 이렇게 데이터 수집 단계 이전이나 수집 단계에서 AI 모델 기획은 이미 완성이 되어 있어야 합니다. 모델의 목적과 아웃풋에 따라 어떤 데이터를 수집해야 할 지가 결정되기 때문입니다. 대량의 데이터의 경우 수집하는 시간도 오래 걸리기 때문에 충분한 시간을 두어야 합니다.

‍

2️. 데이터 전처리

수집한 원천 데이터를 바로 라벨링할 수 있지만, 앞서 언급했듯 라벨링 작업은 상당한 노동력이 필요하고, 노동력은 비용으로 직결되는 문제입니다. 따라서 퀄리티 높은 데이터를 전달해야 비용 대비하여 퀄리티 높은 라벨링 결과가 나올 수 있기 때문에 데이터 전처리 작업이 필요합니다.

‍

3️. 데이터 라벨링 설계

전처리된 데이터를 라벨링 단계로 전달하고, 라벨링 완료된 데이터를 어떻게 받을 것인지 설계하는 단계입니다. Input과 Output의 형태 및 형식부터 자세한 라벨링 방식, 모호한 부분에 대한 처리 방법 등을 고민하는 단계입니다.

‍

4️. 라벨링 가이드 작성

설계가 끝났다면, 라벨러가 정확하게 작업을 수행할 수 있도록 명확하고 구체적인 라벨링 가이드를 작성합니다. 가이드는 진행할 태스크에 대한 명확한 설명과 데이터 구축의 목적, 용어 등 중요하게 고려해야 할 사항을 보기 쉽게 설명하는 것이 중요합니다.
라벨링 설계를 완료했다고 하더라도, 라벨링 가이드 작업은 꽤 많은 시간이 소요될 수 있습니다. 이유는 예외 데이터들을 찾아내는 것 때문입니다. 실제로, 데이터 라벨링 작업을 시작하면 라벨링 가이드에서 언급하지 않은 다양한 예외 데이터들이 많이 나타나기 때문입니다.
해당 현업에서 종사하는 도메인 전문가의 검토 과정도 필요합니다. 데이터 라벨링의 품질을 크게 결정하는 '일관성'을 떨어뜨리는 요인 중 하나가 도메인 지식입니다. 따라서 가이드에는 필요한 도메인 지식이 있다면 반드시 포함시키면서, 주관성이 짙을 것으로 예상되는 데이터의 경우에는 라벨링 결과 예시도 함께 넣는 것이 좋습니다.

‍

6️. 데이터 라벨링

데이터 라벨링 작업에서는 앞서 전처리된 데이터와 라벨링 가이드를 바탕으로 각 데이터마다 라벨을 붙입니다. 데이터 라벨링 작업 과정에서 효율적인 데이터 라벨링 툴을 쓰는 것이 중요한 부분 중 하나입니다. 기본적으로 많은 노동력이 들어가는 작업이기에 속도, 작업자의 사용성, 프로젝트 목적성을 고려한 데이터 라벨링 툴을 사용해야 높은 효율로 작업을 완료할 수 있습니다.

‍

7️. 데이터 검수

라벨러 작업자 작업 → 라벨러 검수자 검수
라벨링 작업과 검수 작업을 반복하면서 진행하면 라벨러 간의 '일관성'이 맞춰져 라벨링을 재작업해야 하는 상황을 막을 수 있습니다.

‍

데이터 수집 - 가공 - 검수 토탈 케어 전문, 알체라

‍

1) 데이터 구축 One-Stop 서비스 노하우

알체라는 데이터 수집부터 정제, 가공, 검수, 납품에 이르는 전 과정을 외주를 거치지 않고 100% 인하우스로 진행하는 자체 Total Process를 갖추고 있습니다. 알체라 연구소의 얼굴 인식, 행동 감지 기술을 사용해 보다 정밀하고 정확한 AI 데이터를 제공합니다.

‍

2) 모든 분야 데이터 대응 가능‍

알체라는 AI 데이터뿐만 아니라 일반 가공까지 다양한 분야의 데이터 가공 경험을 보유하고 있습니다. 이를 통해 고객의 요구에 맞는 데이터 솔루션을 제공할 수 있고, 모든 프로젝트에 대해 최상의 결과물을 보장합니다.

‍

3) 업계 최고 수준의 맨파워

알체라는 데이터 전문 PM(프로젝트 매니저) 교육 커리큘럼을 통해 업계 최고 수준의 맨파워를 확보하고 있습니다. 전문 매니저는 100명 이상, 누적 파견 인력은 1,000명이 넘습니다. 데이터 전문 PM은 고객사와 1:1 실시간 소통을 통해 빠르게 대응합니다. 또한 고객의 요구사항을 깊이 이해하여 고객 맞춤형 AI 데이터를 제공합니다. 이와 같은 철저한 고객 중심의 접근 방식 덕분에 매우 높은 고객 만족도를 유지하고 있습니다.

‍

4) 20+ 도메인 전문가와 함께

알체라는 교육, 헬스케어, 스마트팩토리, 통신, 자동차, 정부과제 등 20곳 이상의 산업 도메인 지식을 갖춘 전문가와 함께합니다.

‍

5) 자체 데이터 구축을 위한 자체 인프라

알체라는 데이터 구축을 위한 인프라를 전부 갖추고 있습니다.

‍

자체 데이터 구축 플랫폼: 알체라 자체 데이터 구축 플랫폼 ‘treeD 스튜디오’를 통해 더욱 빠르고, 정밀한 데이터를 구축할 수 있습니다.
스튜디오: 맞춤형 데이터 수집을 위한 스튜디오 공간을 갖추고 있습니다.
자체 작업 공간: 호치민, 언주, 선릉에서 데이터 센터를 운영하고 있으며, 300명 이상의 전문 데이터 라벨러를 수용할 수 있습니다.

‍

목록보기