실무에서 깨달은 IQ 150 AI 데이터셋 구축의 핵심
IQ 150의 AI를 만드는 비결은 데이터에 있습니다. 데이터 품질을 진단 및 개선하고, 블록체인 기반 거버넌스로 신뢰할 수 있는 AI를 구축하는 전 과정을 보여드립니다.
IQ 150에 해당하는 사람은 전 세계에서 과연 몇 % 정도일까요? 상위 약 0.045%~0.05% 내외에 해당한다고 합니다. 매우 희귀하죠.
AI의 발전 속도를 지켜보신 분들이라면 IQ 150의 AI가 그저 허황된 꿈이 아니라는 걸 아실 겁니다. 불과 2년 전만 해도 간단한 질문조차 엉뚱한 답을 내놓던 AI가, 이제는 전문가 수준의 분석과 판단을 내놓고 있으니까요. AI는 이미 많은 영역에서 평균적인 인간의 인지 능력을 넘어서고 있습니다.
- 이제는 담당자님의 전문성과 IQ 150 수준의 AI의 역량이 합쳐져, 기업의 리스크를 줄이는 선택을 내리고 복잡한 상황에서도 빠르게 판단할 수 있습니다.
- 피지컬 AI라면 현장에서 실시간으로 위험을 감지하고 최적의 작업 순서를 제안하는 AI를 만들 수 있어요.
IQ 150의 AI를 만드는 데이터셋 구축 조건 2가지
데이터셋 구축 과정을 설명하기 전, 실무를 겪으며 직접 깨달은 내용을 먼저 말씀드리려 합니다. 고지능 AI가 반드시 갖추어야 하는 전제 조건 2가지입니다.
1) AI의 경험치, 즉 ‘데이터의 품질’ 자체가 높아야 합니다.
데이터의 품질이 떨어진다면, 노이즈도 증가합니다. AI는 좋은 패턴과 나쁜 패턴을 구분하지 못한 채 모든 것을 학습하려 하죠. 노이즈까지 학습하면서 잘못된 판단 기준을 내재화하게 되고, 장기적으로 봤을 때 AI의 성능이 떨어지게 됩니다. 결국 AI에 대한 유지비용은 계속 늘어나게 되죠.
잘못된 예시가 섞인 10만 건의 데이터보다, 정확하게 레이블링되고 다양한 맥락을 담은 1만 건의 데이터가 더 나은 AI를 만들 수 있습니다. 실제로 많은 AI 프로젝트가 실패하는 이유는 모델의 문제가 아니라, 품질 낮은 데이터를 대량으로 투입했기 때문입니다.
2) 데이터의 구조, 품질, 출처 등을 스스로 설명할 수 있어야 합니다.
능력이 우수한 사람 중에서도 유독 뛰어난 사람들의 비결은 무엇일까요? 자신이 배운 것을 타인에게 논리정연하게 잘 설명할 수 있다는 점입니다. 그 과정에서 학습한 내용이 더 강화되기도 하고, 자신이 모르는 것과 부족한 것을 발견해 채워나갈 수도 있습니다. 이를 '메타인지(Metacognition)'라 부릅니다.
기업 환경에서 AI의 활용성이 높아지는 현 시점, 많은 분들이 AI를 활용하여 비즈니스에서 중요한 의사결정을 내리고 있습니다.
- 이때 "AI가 이렇게 추천했어요"라는 말만으로는 다소 설득력이 부족합니다. 왜 그런 결론에 도달했는지, 어떤 데이터를 근거로 했는지 추적 가능해야 합니다. 특히 금융, 의료, 법률 같은 고위험 영역에서는 꼭 필요합니다.
- 데이터 품질 관리 과정에서 이러한 구조가 갖춰져야 AI는 자신의 판단 근거를 투명하게 제시할 수 있습니다. 또한 필요시 데이터를 역추적해 오류를 수정하거나 개선할 수 있고요.
- 이와 같은 구조가 AI Ready 데이터의 기본이라고도 할 수 있습니다. 페블러스가 궁극적으로 추구하는 모습이죠!
페블러스의 데이터셋 구축 프로세스
페블러스에서 고객사의 데이터셋을 구축하는 과정을 상세하게 말씀드리겠습니다. 3D 프린터에 대한 데이터셋을 분석하고 개선하는 일련의 과정을 설명드리려 합니다.
1) 컨설팅
기업에 대해 이해도가 높은 고객사 담당자님의 의견을 듣고, 데이터에 대한 이해도가 높은 페블러스 데이터 인프라 전문가들이 컨설팅을 진행합니다.
곧바로 데이터 품질을 진단하는 게 아니라, 다소 번거로움이 있을지라도 컨설팅을 꼭 진행하셔야 하는데요. 그 이유는 무엇일까요?
명확한 ‘기준’ 없이 데이터 품질을 진단하면, 진단 결과가 왜곡될 확률이 높기 때문입니다.
데이터 품질에는 ‘절대적인 기준’이 없습니다.
아무리 비슷한 산업군이라고 해도, 데이터 품질을 정의하는 기준은 저마다 다릅니다. 예를 들어 같은 제조업이라도 특정 기업에서는 불량률 0.01%도 치명적입니다. 하지만 또다른 기업에서는 5% 정도까지는 오차를 허용할 수 있습니다.
즉 컨설팅을 통해 서로 의논하며, 현장의 ‘맥락’을 파악하여 품질의 기준을 정의해야 합니다. 오직 우리 기업을 위한 데이터 품질 기준이 필요합니다. 그래야 비로소 현실에서 필요한 AI를 개발할 수 있습니다.
실무자 입장에서 데이터 품질은 ‘암묵지’로 존재하는 경우가 많습니다.
"이 데이터, 뭔가 이상한 것 같아요"라는 직관은 있지만, "정확히 무엇이 문제이고, 어떤 기준으로 개선해야 하는가?"라는 질문에는 답하기 어렵습니다. 현장에서 10년 일한 베테랑도 자신의 노하우를 구조화된 언어로 표현하기는 쉽지 않죠.
페블러스는 컨설팅을 통해 이러한 암묵지를 명시적인 기준으로 끌어올립니다. 여러분이 암묵지로 설명해주셔도 괜찮습니다. 예를 들어 "이 각도에서 찍은 사진은 왠지 학습이 잘 안 되는 것 같아요" 같은 표현으로도 충분합니다.
페블러스가 오랜 경험을 통해 이를 "조명 밝기 200 lux 이하 데이터 제외", "촬영 각도 30도 이상 데이터만 선별" 같은 명확한 기준으로 정의해드릴 수 있습니다.
페블러스가 컨설팅 시 질문드리는 3가지
또한 페블러스는 아래 3가지를 중점적으로 컨설팅을 진행합니다.
- 비즈니스 목표
여러분의 회사가 3D 프린터 기업이라고 가정해보겠습니다. 이 기업의 최종 목표가 ‘출력 품질 예측’인지, ‘고장 예측’인지에 따라 필요한 데이터 품질 기준이 완전히 달라집니다.
- 출력 품질 예측이 목표라면 프린팅 중간 과정의 세밀한 온도 변화, 필라멘트 흐름 데이터가 핵심입니다.
- 반면 고장 예측이 목표라면 모터 진동, 소음 패턴, 사용 시간 같은 데이터가 더 중요하죠.
데이터가 비즈니스 목표와 무관하다면 아무런 의미가 없습니다. 페블러스는 "이 데이터로 궁극적으로 어떤 목표를 지원해야 할 수 있는지"를 먼저 질문드리고, 그에 맞는 품질 기준을 수립합니다.
- 기술적 요구사항
현장에 사용할 수 있는 AI를 만들기 위해서는 ‘현장에서 사용할 수 있는 데이터’가 우선 필요합니다.
그런데 현장에는 항상 제약이 있습니다. 센서 해상도, 카메라 위치, 수집 주기 등 다양한 조건부가 따르는 것이죠. 기업에서 사용하는 기술에 대한 이해도가 있어야 하고요. 이러한 제약과 기술을 반영하여 데이터셋을 구축합니다.
- 예산 및 타임라인
사실 품질 좋은 데이터를 무한정 수집하는 건 비현실적입니다. 현실적으로 기업 입장에서는 예산과 시간의 한계가 있기 때문이죠. 페블러스는 기업의 예산, 타임라인까지 고려합니다. 현실적인 제약 안에서 실행 가능한 최선의 데이터를 확보하는 것이 더 중요합니다.
2) 데이터 품질 진단
데이터클리닉의 품질 진단 과정
아래에서는 데이터클리닉의 품질 진단 과정을 보여드리려 합니다. 참고로 데이터클리닉 회원에 가입 후 Pro 요금제부터 데이터 품질 진단이 가능합니다!

우선 품질을 진단할 데이터셋의 이름을 작성하겠습니다. 데이터클리닉에서는 크레딧에 따라 여러 데이터셋을 분석하고 진단 리포트를 확인할 수 있는데요. 이렇게 이름을 붙여주어 데이터셋을 구분지을 수 있습니다!

그 다음은 데이터셋을 업로드할 차례인데요. 단 특정 양식대로 업로드하셔야 합니다. 페블러스에서 제공하는 샘플 데이터를 확인하시면 그 기준을 알 수 있습니다.
샘플 데이터를 보시면 데이터가 train 폴더, test 폴더로 분류되어 있다는 걸 알 수 있습니다. 둘은 어떤 차이가 있을지, 비유를 통해 쉽게 말씀드리겠습니다.

- train 폴더: 문제집과 같은 역할입니다. 많은 데이터가 담겨 있고, 결함이 있는 데이터와 정상적인 데이터가 섞여 있습니다. 데이터의 품질에 대해 학습하는 단계입니다.
- test 폴더: 시험지와 같은 역할입니다. train 폴더 속 데이터와 겹치지 않는 데이터를 준비합니다. 참고로 test 폴더는 데이터 품질 개선에 활용되며 진단에 직접 이용되지는 않습니다. 최종적으로 데이터 품질을 개선할 때 데이터가 잘 개선되었는지 판단하는 기준이 되는 것입니다.
어떤 데이터를 어느 폴더로 분류해야 할지 어렵게 느껴지실 수 있습니다. 하지만 걱정하지 마세요. 페블러스와 컨설팅 시 모든 분류 기준을 상세히 안내해드리고 있습니다.
그러면 실제 예시를 보여드리겠습니다. 3D 프린터에 대한 데이터셋을 분석해보기로 했습니다. 샘플 데이터처럼 test, train 폴더로 분류했고, 전체 폴더를 .zip파일로 압축해준 후, 파일을 업로드했습니다. 참고로 한 번 업로드할 때 최대 1TB까지 업로드 가능하니,데이터의 용량이 많은 분들은 참고해주세요.

이후 단계는 아래와 같이 나누어집니다.
- 데이터 품질 진단 완료: 진단은 일반적으로 10분 내로 완료되나, 데이터셋 개수 및 화질에 따라 최대 2시간까지 소요될 수 있습니다.
- 데이터 품질 리포트 생성: 이후 진단 리포트 생성은 빠르면 10분 내에, 진단 건수가 몰릴 경우 영업일 기준 최대 2영업일 내에 완료됩니다.
예시로 진단한 3D 프린터 데이터셋의 경우 진단 자체는 4분, 리포트 작성은 30분 가량 소요되었습니다.

이제 데이터 품질 진단 리포트를 확인해볼까요? 리포트 중 문제점이 드러나는 부분, 이를 개선하는 방향성을 말씀드리려 합니다.
따라서 리포트는 촬영 환경(조명, 노출) 기준으로 데이터를 분리하고, 부족한 조명 조건의 데이터를 보충할 것을 권장하고 있는 것이죠!
이러한 이유로 리포트에서도 데이터 양을 줄이는 데이터 다이어트보다, 데이터 벌크업(합성데이터 생성)을 추천하고 있습니다. 부족한 패턴의 데이터를 추가로 생성해 균형을 맞추는 전략인 것이죠.

이 부분은 데이터 렌즈로 심층 분석하여 도출한 밀도 차트 분석 결과에서 좀 더 자세히 확인할 수 있습니다.
현재 데이터셋은 결함의 특성보다 밝기 차이에 따라 데이터가 구분되는 경향을 보이고 있다고 언급했었는데요. 아래 2가지 차트에서 하나의 주요 고밀도 영역과 함께 두 개의 저밀도 클러스터가 확인되었습니다.
현재 밝기가 유사한 이미지 데이터들이 많아, 그로 인해 데이터 차트에서 서로 가까운 위치에 모여 하나의 밀집된 영역을 형성하게 됩니다.
- 밀도 차트: 비슷하다고 느끼는 데이터들이 어느 구간에 많이 모여 있는지를 보여주는 시각화 도구입니다.
- 데이터 등밀도선: 밀도 차트와 원리는 유사합니다. 등고선을 더해서 밀도의 분포를 데이터의 거시적 분포와 함께 관찰할 수 있도록 합니다. 밀도와 함께 보면 거시적 분포의 클러스터를 더 쉽게 발견할 수 있습니다.
- 고밀도 클러스터: AI가 가장 자주 접하는 대표적인 이미지 유형입니다. 붉은 색이 진할수록 데이터의 밀도가 높습니다. 밀도가 과도하게 높으면 중복 데이터가 많을 가능성이 높습니다.
- 저밀도 클러스터: 고밀도 클러스터보다 상대적으로 소수의 이미지 패턴을 뜻합니다. 밀도가 낮은 데이터들은 이상치이거나 희귀한 케이스일 가능성이 큽니다.


Level II 요약 결과에서 본 것처럼, AI가 결함 자체를 학습하기보다 조명이나 노출 조건을 중요한 기준으로 인식할 가능성이 높다는 것을 시각적으로 증명합니다. 만약 이 상태로 AI를 학습시킨다면 어떻게 될까요? 현장에서 조명이 조금만 바뀌어도 AI의 판단이 완전히 달라질 수 있습니다. 신뢰할 수 없는 AI, 현장에서 쓸 수 없는 AI인 것이죠.
이처럼 데이터클리닉은 단순히 "데이터에 문제가 있다"고 말하는 데 그치지 않습니다. 어떤 문제가 있고, 왜 그 문제가 AI 성능을 저하시키는지, 그리고 어떻게 개선해야 하는지까지 구체적으로 제시합니다.
3) 데이터 품질 개선
기존의 데이터클리닉의 경우 데이터 품질 진단까지만 자동화하고, 이후 데이터 품질 개선은 페블러스의 전문가가 직접 개선해드립니다.
여기서 잠깐! 기존 데이터클리닉보다 한층 발전한 ‘데이터클리닉 2.0’이 있습니다.
- 데이터클리닉 2.0이란 자율형 인공지능 데이터 과학자(AADS, Agentic AI Data Scientist)가 탑재된 데이터 관리 엔드투엔드 자동화 시스템입니다.
- 쉽게 말해 데이터 품질 진단은 물론, 데이터 품질 개선까지 프롬프트 한 줄로 사용자가 직접 진행할 수 있는 솔루션입니다.
- 이후 AI 에이전트는 실시간으로 데이터 품질을 모니터링하고, 문제가 발견되면 즉시 자동으로 개선 작업을 수행합니다. 대규모 데이터를 다루거나 지속적인 품질 관리가 필요한 기업에게 적합합니다. 아래 사용 영상을 보면 이해하기 쉽습니다.
데이터클리닉 2.0 사용 영상
AI는 자신이 배운 데이터를 설명할 수 있어야 합니다.
IQ가 높은 AI의 공통점은 품질 높은 데이터를 가지고 있을 뿐만 아니라 자신이 배운 데이터의 출처를 명확하게 설명할 수 있어야 한다고 말씀드렸습니다. 쉽게 말해 메타인지가 높은 AI가 되는 것이죠!
- 데이터의 출처는 명확한가?
- 어떤 과정을 거쳐 정제되었는가?
- 개선 전후로 무엇이 달라졌는가?
이런 질문에 답하지 못한다면, AI는 아무리 성능이 좋아도 신뢰할 수 없습니다. 이에 대한 해결책으로, 페블러스는 ‘데이터를 거래하기 위한 가상 환경 플랫폼’ 특허 기술(등록번호 10-2912944)을 고안했습니다.

페블러스의 시스템은 데이터의 품질을 진단하고, 합성 데이터를 통해 이를 개선한 뒤, 그 기여도를 블록체인 네트워크에 기록합니다.
특히 피지컬 AI를 구축하는 기업에게 이러한 투명성은 더욱 중요합니다. 피지컬 AI가 작동 중 자칫 실수하면, 제조 현장의 로봇 팔 오작동처럼 현실 세계에서 장비 파손이나 작업자 부상과 같은 큰 사고가 발생할 우려가 있습니다.
이런 치명적인 문제 상황을 해결하려면, AI가 어떤 데이터로 학습했고, 그 데이터가 얼마나 신뢰할 수 있으며, 개선 과정에서 어떤 검증을 거쳤는지를 명확히 설명할 수 있어야 합니다. 사고 발생 시 데이터 이력을 추적할 수 없다면 원인 파악은 물론, 재발 방지도 불가능하기 때문입니다.
IQ는 모델 아키텍처에서 이미 결정 나는 거 아닌가요?
많을 분들이 이렇게 생각하실지도 모릅니다. 물론 AI 아키텍처 자체도 중요합니다. 잘못 설계된 모델은 아무리 좋은 데이터를 투입해도 발전의 한계가 있으니까요.
그런데 비슷한 성능의 두 AI가 있다면, 데이터가 성능 차이를 가르는 핵심이 됩니다. AI는 사람을 닮기 때문에, 사람으로 예를 들어보겠습니다.
선천적인 능력치가 비슷한 두 개발자가 있습니다. 한 사람은 정해진 업무 매뉴얼과 기존 코드만 반복해서 학습합니다. 다른 한 사람은 최신 기술 컨퍼런스에 참여하고, 실무 고수들의 코드 리뷰를 받으며, 다양한 프로젝트의 실패 사례까지 분석합니다.
여기서 신경 가소성(Neuroplasticity)이 작용합니다. 우리의 뇌가 경험하는 것에 따라 시냅스 연결을 재구성하며 스스로 발전할 수도, 오히려 퇴보할 수도 있다는 의미죠.
- 양질의 경험을 쌓은 개발자는 문제 해결 능력이 월등히 높아지고, 복잡한 시스템 설계까지 해낼 수 있는 인재로 성장합니다.
- 반면 반복적이고 단편적인 경험만 한 개발자는 능력치가 정체되거나 시장에서 도태됩니다.

AI도 마찬가지입니다. 같은 구조의 모델이라도 어떤 데이터로 학습했느냐에 따라 전혀 다른 지능 수준에 도달합니다. 단순 반복이 많은 데이터로만 학습한 AI는 특정 패턴 인식만 가능하지만, 다양한 맥락과 예외 상황, 복잡한 추론 과정이 담긴 데이터로 학습한 AI는 새로운 문제 상황에서도 기업의 방향성에 알맞은 해결책을 제시할 수 있습니다.
이제부터 ‘모델 중심 사고’ 대신, ‘데이터 중심 사고’로 변화할 시간입니다.
여러분의 AI 모델 속, 여러분도 미처 발견하지 못한 가능성이 숨어 있을 수 있습니다. 품질 높은 데이터셋 구축을 통해 그 가능성을 발견해보세요. IQ 150의 AI에 한 걸음 더 가까워질 것입니다.
IQ 150의 AI를 만들고 싶다면, ‘건강한 데이터셋 구축’부터 시작하세요.
데이터클리닉은 단순히 데이터를 진단하고 개선하는 것을 넘어, 그 과정을 투명하게 기록하고 증명할 수 있는 시스템을 구축했습니다. 그리고 이 과정에서 여러분도 미처 발견하지 못한 AI 모델의 성장 가능성을 발굴해냅니다.
지금 보유하신 데이터셋을 개선하고, 고지능의 AI를 만들고 싶다면, 데이터클리닉 홈페이지에서 ‘문의하기’ 버튼을 눌러 데이터셋 구축에 대한 고민을 말씀해주세요. 데이터클리닉의 전문가가 질문에 대해 심도 있게 고민한 후, 영업일 2~3일 내로 답변해드리겠습니다.
IQ 150의 AI로 가는 첫걸음, 지금 시작하세요.
매주 가파르게 쌓이는 데이터 역량, 페블러스 뉴스레터에서!

본 기사는 페블러스의 기획 하에 AI를 보조적으로 활용하여 작성되었으며, 페블러스의 엄밀한 감수를 거쳐 출간되었습니다.