합성데이터 생성, 정의 및 사례 - 실제 데이터를 완벽히 대체할 수 있을까?
합성데이터는 실제를 완벽히 대체할 수 있을까요? 데이터클리닉에선 충분히 가능합니다. 그뿐만 아니라 합성데이터의 정의부터 생성 원리, 실제 사례까지 살펴볼게요!
데이터가 넘쳐나는 세상이지만, 현실적으로는 ‘깔끔하고, 양 많은 고품질의 데이터’는 희귀하죠. 바닷속에서 진주를 찾는 것과 비슷합니다.
지금 전 세계 AI 기업들이 주목하는 해답이 있습니다. 희귀한 데이터를 손안에 넣을 수 있는 방법, 바로 ‘합성데이터 생성’입니다.
합성데이터 생성이란?
실제 데이터 셋에 존재하는 패턴을 학습하여, 실제 데이터 셋과 유사한 가상의 데이터를 만드는 과정을 말합니다.
합성데이터의 장점
- 개인정보 보호: 실제 데이터 중 개인정보가 민감한 정보들이 있는데요. 해당 정보의 핵심을 보호하면서도 개인 정보를 가리는 방식으로 합성데이터 생성을 할 수 있습니다. 이를 보통 ‘재현 데이터’라고 부릅니다!
- AI 모델 개발 비용 절감 및 개발 속도 증가: 실제 데이터를 수집하는 것 자체가 많은 시간과 비용이 들어갑니다. 이렇게 수집한 실제 데이터에서 노이즈, 중복을 걸러내느라 시간이 더 들어가죠. 고성능 솔루션을 활용하면 필요한 만큼의 고품질의 합성데이터를 생성할 수 있어요.
합성데이터의 유형
합성데이터는 크게 3가지 유형으로 나누어지는데요. ‘합성데이터의 출처’에 따라 달라진다고 보시면 됩니다.
- 실제 데이터 셋 기반 생성: 실제 데이터를 기반으로, 데이터를 설명하는 생성 모델을 만들어줍니다. 데이터의 속성을 그대로 학습하는 것이죠. 해당 모델을 사용해서 합성 데이터를 생성합니다.
- 실제 데이터 셋 사용 없이 생성: 분석가가 가진 기존 모델을 사용합니다. 해당 합성 데이터에 대한 배경지식을 이용해 생성하기도 하고요.
- 소수의 실제 데이터셋과 분석적인 시뮬레이션 모델을 동시에 사용: 앞서 말씀드렸던 2가지 방법을 동시에 사용하는 것인데요. 가장 자주 사용되는 합성데이터 생성 방법입니다!
합성데이터 생성이 필요한 이유가 무엇일까요?
그런데 왜 실제 데이터를 더 수집하지 않고, 인공적으로 합성 데이터를 만드는 걸까요? 실제 데이터를 수집하고 활용하는 게 가장 좋지 않을까요?
1) 현실적으로 건강한 실제 데이터를 수집하기 어려운 상황
인간은 건강한 음식을 먹어야 건강한 육체, 마음으로 살아갈 수 있죠. 인간을 닮은 인공지능도 그렇습니다. 건강한 음식처럼 ‘건강한 데이터’를 학습해야 성능이 좋아집니다.
그런데 실제 데이터만으로는 이런 건강한 데이터를 수집하기 어려울 때가 있습니다. 예를 들어 볼까요?
- 군부대 감시 체계: 군부대 감시 체계 역시 현실적인 한계에 부딪힙니다. 맑은 날의 데이터는 쉽게 확보할 수 있지만, ‘파도가 높은 날’이나 ‘폭풍이 몰아치는 날’처럼 위험한 기상 환경의 데이터는 충분히 수집하기 어려워요. 그렇다고 인위적으로 이런 기후를 만들어 촬영할 수도 없죠. 자연 현상은 인간의 의지로 통제할 수 없는 영역이기 때문입니다.
- 의료용 AI 시스템: ‘희귀 질환’에 관한 실제 데이터 자체는 분명 존재하겠지만, 일반적인 질환보다는 그 양이 불충분합니다. 극히 적은 양의 데이터로 AI 서비스를 만든다면 정확도가 떨어지고, 해당 서비스를 임상에서 활용할 경우 위험한 상황이 발생합니다.
악조건의 상황에서도 품질 높은 AI 서비스를 만들기 위해서는, 합성데이터 생성이 정답입니다. 실제 데이터를 더 이상 확보하기 불가능한 환경에서도 그 한계를 극복할 수 있습니다.
2) 실제 데이터가 있지만 활용하기 어려운 상황
정보 자체는 사용할 수 있어도, 특정 데이터의 경우 개인정보 보호와 같은 사유로 실제 데이터를 그대로 활용하기가 어렵습니다. 이런 케이스는 개인 정보를 보호하는 선에서, 실제 데이터와 유사한 합성 데이터를 만드는 것이 숙제입니다.
합성데이터, 정말 실제 데이터를 완벽히 대체할 수 있을까?
합성데이터의 한계? 합성데이터의 품질!
합성데이터는 가상의 데이터인데, 과연 실제 데이터를 완벽히 대체할 수 있을까?
여러분의 의문처럼, 사실 많은 합성데이터들이 아직 완벽하지 않습니다. 가상의 환경에서 생성되는 만큼, 데이터의 품질 관리 측면에서 몇 가지 한계가 있어요. 실제 데이터처럼 합성 데이터도 품질 관리가 필요합니다.
1) 데이터 과학자, 엔지니어의 실력에 따라 합성 데이터의 품질이 결정됩니다.
기존 데이터 셋 없이 합성데이터을 생성하는 경우, 합성데이터의 품질은 데이터 사이언티스트의 실력과 데이터 사이언티스트가 가진 기존 모델의 성능에 따라 달라지죠.
그런데 데이터 사이언티스트가 해당 합성 데이터에 대한 배경지식이 부족하고, 자체적으로 개발한 모델의 성능이 뒤처진다면? 실제 데이터를 완벽히 재현하기 어렵습니다.
2) 원본 데이터의 품질을 관리하지 못하면, 합성 데이터의 품질이 떨어집니다.
실제로 데이터클리닉의 모든 구성원들도 이 한계를 극복하기 위해, ‘현실적인 합성 데이터 생성’을 목표로 수없이 많은 시행착오를 겪어왔는데요.
기술력을 갖춘 지금, 자신 있게 답변드릴 수 있습니다. AI 서비스를 고성능으로 만드는 데이터클리닉의 기술력으로, 실제 데이터를 완벽하게 대체할 수 있습니다! 그 이유는 2가지입니다.
1) 실제보다 더 정확한 합성 데이터 생성? '데이터 다이어트' 덕분
사실 품질 좋은 AI를 개발하기 위해서는 무조건 ‘많은 데이터’가 정답은 아닙니다. 데이터의 양 자체는 많지만 품질이 떨어진다면, 이를 기반으로 생성된 합성 데이터도 품질이 떨어지게 됩니다. 결국 불필요한 데이터를 정제하느라 더 많은 리소스를 투입해야 하죠.
실제로 데이터클리닉의 고객사, 자이언트스텝도 데이터클리닉을 만나기 전 자체적으로 합성 데이터를 다수 생성했습니다. 그러나 오히려 중복 데이터가 늘어났고, AI 모델의 성능은 추가된 합성 데이터의 양에 대비해서 기대치 만큼 높아지지 않았습니다.

여기서 합성데이터 생성의 핵심을 눈치챌 수 있습니다. 학습데이터를 만들 땐 사전에 ‘불필요한 데이터를 정제’하는 과정이 반드시 필요합니다.
2) 데이터 레플리카, 듀얼 거버넌스 엔진으로 안전하게 생성합니다.
데이터클리닉에서는 데이터 벌크업뿐만 아니라 ‘데이터 레플리카’라는 단계가 있습니다. 개인정보 보호가 필요한 데이터의 경우 원본 내용을 보호하기 위해 통계적, 분포적 특성이 유사한 합성데이터를 생성하는 것인데요. 실제 데이터의 패턴, 맥락을 그대로 반영합니다.
AI 서비스가 늘어나면서, AI 데이터로 인해 개인정보 침해, 윤리성을 위배하는 상황이 발생하고 있습니다. 이를 예방하기 위해 전 세계적으로 AI 규제 법안이 나타나고 있어요.
데이터클리닉도 여러분이 이러한 흐름에 대비할 수 있도록, 새롭게 출시할 데이터클리닉 2.0에는 '듀얼 거버넌스 엔진'이 탑재되어 있어, 규제 리스크를 완벽하게 대비할 수 있습니다.
데이터클리닉 2.0, 2개월 무료 체험 혜택!
또한 ‘품질 높은 합성 데이터 생성’을 위해 기술을 개발한 결과, 좋은 성과가 돌아왔습니다.
- 세계적인 IT 기술 연구 및 자문 기관 가트너(Gartner)에서 페블러스가 ‘데이터 품질 분야 추천 파트너’와 ‘정밀 타게팅 합성데이터 생성 분야 주요 기업’으로 선정되었어요!
- 가트너에서 매년 발표하는 기술 트렌드 보고서에서도 페블러스가 언급되었습니다.

합성데이터 활용 분야 및 사례 소개: 해병대
해병대는 대한민국을 지키고, 데이터클리닉은 ‘해병대의 데이터’를 지킵니다! 🫡
기업은 물론 해병대와 같은 국가 조직에서도 건강한 합성데이터 생성을 위해 데이터클리닉을 사용하고 있어요! 해병대의 데이터를 건강하게 지키기 위해 어떤 과정을 거쳤을까요? 참고로 자세한 데이터는 AI-Hub에도 확인할 수 있어요!
해병대 X 페블러스 - 군 경계 작전 환경 합성데이터 생성
해병대가 안고 있던 문제점: “특수한 상황에 대한 실제 이미지가 부족합니다.”
해병대는 군 경계의 해상에서 발생할 수 있는 위험한 상황에 대비해야 했고, 이에 대한 감시 체계를 만들기 위해 이미지, 영상 데이터가 필요했습니다.
그런데 작전 상황이 아닌 이상 실제로 선박, 항공기 등을 직접 등장시키기란 어렵죠. 여기에 다양한 변수까지 고려해야 합니다.
- 계절, 시간대
- 날씨: 눈/비 환경, 극심한 안개 환경 등
- 북한군 전투기, 전함, 드론, 삐라, 오물폭탄 등
- 자연 현상: 높이에 따라 1~7급으로 나누어지는 파도
다양한 변수가 조합되면서 이미지가 달라지는데, 이를 표현하기란 촬영 데이터는 한정적이었어요. 특히 실제 데이터는 깊은 바다가 아니라 해안가에서 촬영한 이미지였기 때문에, 태풍이 오지 않는 한 황천 1~3급 정도의 높은 파도를 촬영하기 어려웠죠.
데이터클리닉의 해결책!
그래서 데이터클리닉은 선박, 항공기 등 객체를 포함하면서도 기후, 시간대 등 다양한 변수를 반영하는 합성데이터를 만들게 되었습니다! 그 퀄리티를 보실까요?
날씨가 흐리고 날이 어두워지는 시간대의 선박, 헬기를 담은 모습입니다. 합성데이터가 아닌 실제 모습 같죠.

태풍이 몰아치는 날도 합성데이터로 구현했습니다. 이전보다 파도의 높이도 더 높게 조정하여 1~7급의 황천을 모두 표현했죠. 이렇게 시간대별, 계절별, 기상별, 황천 급별 분포로 나누어 데이터를 생성했습니다.

데이터클리닉의 합성데이터를 검증하기 위해 TTA(한국정보통신기술협회)에서는 비주얼 튜링 테스트(Visual Turing Test)를 진행했어요.
- 비주얼 튜링 테스트란? 검사자에게 실제 이미지와 합성 이미지를 무작위로 보여주고, ‘이게 실제일까, 합성일까?’를 구분하게 하는 방식이에요.
- 두 검사자 모두 합해서 100점을 받으면 합성 이미지가 실제 이미지와 쉽게 구분된다는 뜻이죠. 즉 검사자 한 명당 50점을 받아야 실제에 가까워집니다.
결과는 놀라웠습니다. TTA 소속 검사자 두 명이 테스트를 진행한 결과, 한 명은 50점, 다른 한 명은 49점을 기록했습니다. 즉, 두 검사자 모두 실제 이미지와 합성 이미지를 거의 구분하지 못했습니다.
“합성데이터가 아닌 줄 알았어요. 실제 사진인지, 합성 데이터인지 구별하기 힘들 정도로 퀄리티가 좋네요.” - 검사자분들의 평가


추가로 페블러스는 합성데이터의 정확도를 검증하기 위해 데이터의 다양성, 정확성, 유효성까지 세밀하게 분석했어요!
- 요건적 다양성: 합성데이터는 실제 작전에서 발생할 수 있는 다양한 환경과 상황을 반영해야 해요. 선박, 항공기, 해상 구조물 등 여러 객체가 중첩된 장면을 구현했어요. 그 결과 ‘구성비 중첩률 평균 92%’를 달성했습니다. 실제 해상 작전과 거의 동일한 수준의 ‘상황 다양성’을 확보한 것이죠!
- 구문 정확성: 이미지 내 객체의 위치, 형태, 크기, 구문적 구성을 정밀하게 분석한 결과, 평균 99.9%의 정확성을 기록했어요. AI가 학습할 때 객체를 혼동하거나 잘못 인식할 가능성이 거의 없다는 의미입니다.
- 의미 정확성: 이미지의 내용과 설명 문장, 분류 태그가 서로 일치하는지를 평가했습니다. ‘이 이미지는 선박인가? 항공기인가?’와 같은 의미 수준의 매칭률에서평균 97.7%의 정확성을 달성했습니다.
해병대 사례처럼, 대한민국 국방 산업에서도 AI 시스템이 활발하게 개발되고 있어요. 특히 다른 산업보다도 국방, 방산 산업은 개발 과정에서 ‘합성데이터 생성’은 필수입니다.
현실에서 일어나기 어려운 상황을 데이터로 재현해야만 비로소 성능 높은 AI 시스템을 개발할 수 있기 때문이죠. 예를 들어볼까요?
- 전투기와 탱크가 동시에 움직이는 복합 작전 상황
- 악천후 속의 해상 정찰 장면 등
훈련으로 재현을 하더라도 실제의 그 상황을 그대로 재현하기가 어렵습니다. 실제로 촬영을 하거나, 반복 수집하는 것 자체가 사실상 불가능한 것이죠.
이러한 이유로 국내 포함, 전 세계적으로 국방 분야의 합성데이터 수요가 폭발적으로 증가하고 있어요. 글로벌 합성데이터 전문 기업들도 이미 국방, 방산용 데이터를 개발하고 있는데요. 국내 기업, 페블러스 또한 이러한 수요에 대해 만반의 준비를 해두었습니다.


데이터클리닉은 실제 작전 환경에서 탱크, 무인항공기, 드론이 움직이는 듯한 이미지를 재현했어요. 여기에 기상, 시간대, 지형 등 다양한 변수까지 세밀하게 반영했어요. 가상이지만, 현실보다 더 현실같은 합성데이터죠!
합성데이터 생성으로 AI 모델 성능 80% 높이는 비결? 여기에 다 있습니다.
‘데이터클리닉 웨비나’에서 모든 비결을 공개합니다!
2025년 11월 18일에 개최됩니다. 연사는 페블러스 이정원 부대표님과 대구디지털혁신진흥원(DIP) 김건욱 센터장님 두 분인데요.
대구디지털혁신진흥원과 연계된 대구 소재 기업들이 데이터 품질 개선으로 AI 성능을 올린 사례와 노하우를 말씀드릴 예정입니다.
단 1시간의 웨비나로, AI 모델 성능을 올릴 수 있는 기회.
단순히 합성데이터만 만드는 솔루션 VS 합성데이터 생성의 본질을 이해하고, 데이터 진단부터 정제까지 전 과정을 자동화하는 솔루션.
데이터클리닉은 후자입니다. 정확한 합성데이터 생성을 통해, 퀄리티 높은 AI 프로덕트를 만드는 과정에서 도움드리겠습니다.
합성데이터 생성 중 현실의 한계에 부딪히셨다면, 데이터클리닉이 한계를 넘어설 수 있는 발판이 되어드릴게요!
건강한 합성데이터 생성, 데이터클리닉 2.0에서!
데이터 과학자의 AI 데이터 관리 비결!