데이터 품질 진단, 이렇게 하면 됩니다.
우리 데이터 품질, 괜찮은 걸까? 몇 번의 클릭만으로 바로 확인할 수 있어요. AI 학습 데이터를 점검하는 가장 쉬운 방법, 데이터클리닉
AI 성능이 기대만큼 나오지 않는 이유는 대부분 모델이 아니라 데이터에 있습니다. 데이터가 불균형하거나, 중복되어 있거나, 라벨이 잘못되어 있다면 아무리 좋은 모델을 써도 결과는 흔들릴 수밖에 없습니다.
데이터클리닉은 이런 문제를 사전에 발견하고, 정량적으로 진단해주는 데이터 품질 진단 서비스입니다.
데이터 품질 진단은 무엇을 해주나요?
데이터클리닉의 진단은 단순한 통계 리포트가 아닙니다.
AI 학습 데이터가 실제로 AI에 쓰일 준비가 되었는지(AI-Ready) 를 다음과 같은 관점에서 점검합니다.
- 데이터 수량은 충분한가?
- 클래스 간 분포는 균형적인가?
- 중복 이미지, 깨진 파일은 없는가?
- 라벨 구조가 학습에 적합한가?
- train / test 분리가 올바른가?
이 모든 것을 자동화된 진단 엔진으로 분석하고, 사람이 이해할 수 있는 결과로 제공합니다.
지금 바로 데이터의 건강 상태를 확인하러 가볼까요? 데이터클리닉에서 데이터를 진단하는 방법을 알려드립니다!
현재는 이미지 데이터만 진단이 가능해요. 추후 성능 차트, 동영상, 센서 데이터 등 멀티모달 데이터를 진단할 수 있도록 지원할 예정이에요.
데이터 품질 진단 신청하기
1️⃣ [진단 신청하기] 클릭

데이터클리닉 진단 페이지에 들어오면 가장 먼저 눈에 띄는 버튼이 바로 [진단 신청하기] 입니다.
“일단 눌러도 괜찮을까?”
네, 아직 비용 차감도 없고 설정만 확인하는 단계라 부담 없이 클릭하셔도 됩니다.
2️⃣ 진단 과정 확인 후 [계속하기] 클릭

다음 화면에서는 데이터클리닉이 어떤 순서로 데이터 품질을 진단하는지 한눈에 보여줍니다.
- 레벨 I · II · III 진단
- 종합 평가 및 개선 제안
“아, 이런 걸 보는구나” 하고 한 번 훑어본 뒤 [계속하기] 버튼을 눌러주세요.
3️⃣ 사용 가능한 진단 크레딧 확인 후
[그대로 진행하기] 클릭

여기서 많이 안심하시는 포인트 하나!
✔ 현재 보유한 진단 크레딧
✔ 이번 진단에 얼마나 사용되는지
팝업으로 명확하게 표시됩니다.
- “크레딧 충분하네” → [그대로 진행하기]
- “부족하네” → 크레딧 충전 후 진행
👉 [그대로 진행하기] 를 누르고 다음 단계로 넘어가시면 됩니다.
4️⃣ 진단할 데이터셋 이름 정하기

이제 본격적으로 내 데이터 차례입니다.
여기서는 이번에 진단할 데이터셋의 이름만 정해주면 돼요.
✔ 이름 짓는 간단한 팁
- 영문 + 숫자 추천: 예) AnimalFaceDataset_1
- 언더바(_), 하이픈(-) 사용 가능
- 이외 특수문자 사용 불가
- 나중에 마이페이지에서 수정 가능
📌 이 이름으로 진단 결과 리포트가 저장되기 때문에 나중에 알아보기 쉽게만 지어주시면 됩니다.
5️⃣ 데이터셋 폴더 구조 만들기

이 단계에서는 정해진 틀만 맞추면 됩니다.
기본 구조는 아래 데이터셋 폴더 구조 양식을 참고해 주세요.

✔ 이미지 확장자: jpg, png, jpeg
✔ train, test 폴더 모두 필요
✔ 클래스(label) 이름은 동일해야 함
데이터클리닉이 데이터를 정확히 분석할 수 있도록 기본 구조를 꼭 지켜주세요!
1. train 폴더 (필수 진단 데이터)
학습용 이미지들을 담는 폴더입니다.
train 폴더 안에 클래스(라벨)별로 하위 폴더를 만들고, 그 안에 이미지 파일(jpg, png, jpeg)을 넣어주세요.
2. test 폴더 (품질 개선 참고용)
이 폴더는 진단에 직접 이용되지는 않지만, 전체적인 데이터 품질 개선을 분석하는 데 활용됩니다.
train 폴더와 동일하게 클래스별 폴더를 생성해 이미지를 분류해 주세요.
6️⃣ 압축 후 업로드하기

폴더 정리가 끝났다면 마지막 단계입니다!
- 파일 압축: train + test 폴더를 하나의 .zip 파일로 압축합니다.
- 업로드: 압축한 zip 파일을 업로드 창에 끌어다 놓으세요. 또는 [파일 업로드] 버튼 클릭!
최대 1TB까지 대용량 업로드가 가능하니 용량 걱정은 NO! - 계속하기: 모든 준비가 끝났다면 [계속하기] 버튼을 누릅니다.
💡 작성 팁!
데이터 형식이 헷갈린다면? 화면에 있는 '샘플 데이터 다운로드'를 클릭해 미리 양식을 확인해 보세요. 훨씬 감을 잡기 편하실 거예요.
7️⃣ 사용 예정 크레딧 확인

- 이번 진단에 몇 장의 이미지가,
- 얼만큼의 크레딧이 사용되는지
고객님께 안내하는 단계예요.
문제 없으면 👉 [진행하기] 클릭
8️⃣ 진단 신청 전 최종 확인 후
[계속하기] 클릭

마지막 단계입니다.
이제 진단은 데이터클리닉이 알아서 자동 진행합니다!
여기까지 왔다면, 진단 신청 완료입니다 🎉

정리해보면 데이터클리닉 진단 신청은 총 3단계예요. 생각보다 훨씬 간단하죠?
1️⃣ 진단할 데이터셋 이름 정하기
2️⃣ 데이터셋 폴더 구조 만들기
3️⃣ 압축 및 업로드하기
AI 성능이 불안하다면 데이터부터 점검해보세요.
모델은 거짓말하지 않습니다.
데이터가 가진 만큼만 성능이 나올 뿐이에요.
지금 바로 데이터클리닉에서 내 데이터의 상태를 진단해보세요.
AI 학습 전에 가장 먼저 해야 할 일입니다.