멀티모달 데이터셋이란? 구축 시 주의사항 4가지, 실제 활용 사례까지!
다양한 유형의 데이터를 이해하고 결합하는 멀티모달 데이터셋. 응용 분야, 구축 시 주의사항, 페블러스에서 실제로 구축한 사례까지 알아보겠습니다.
AI가 세상을 바라보는 시야가 넓어졌습니다. 마치 사람처럼요.
사람은 눈으로 보고, 귀로 듣고, 글을 읽으며 세상을 인식합니다. 그런데 과거의 AI는 어땠을까요? 대부분 텍스트만 이해하거나, 이미지만 인식하는 식으로 한 가지 유형의 데이터만 처리했습니다. 이를 ‘유니모달(Uni-Modal)’이라고 부릅니다.
그러나 지금은 AI가 세상을 이해하는 시야가 넓어졌습니다. AI가 텍스트, 이미지, 음성, 영상을 ‘동시에’ 이해하고 처리할 수 있는 시대가 왔습니다. AI가 사람의 똑똑한 조수가 될 수 있게 해준 이것, 바로 ‘멀티모달(Multi-Modal) 데이터셋’ 덕분입니다.
멀티모달 데이터셋(Multimodal Dataset)이란 무엇일까요?
멀티모달 데이터셋은 텍스트, 이미지, 음성, 영상 데이터 등 여러 유형의 데이터를 포함하면서도, 이들 간의 관계성을 학습하고 처리할 수 있도록 구성된 데이터를 말합니다.
멀티모달 데이터셋에는 텍스트, 이미지, 음성, 영상이 대표적이지만, 그 외에도 데이터 유형이 다양합니다. 카메라 센서 데이터, 레이더 데이터, 지도 데이터, LiDAR(라이다) 데이터 등 다양한 센서 정보도 포함될 수 있습니다.
자율주행 자동차를 떠올려보세요. 카메라로 주변 환경을 촬영하고, 레이더로 거리를 측정하며, GPS로 위치를 파악합니다. 이처럼 멀티모달 데이터셋을 종합해서 판단해야 안전하게 주행할 수 있습니다.
- 예를 들어볼까요? 고양이 사진 한 장이 있습니다. 이 사진 옆에 “귀여운 고양이가 소파에 앉아있다”라는 텍스트 설명이 있습니다. 멀티모달 데이터셋은 이 두 가지를 따로따로 보는 게 아니라, ‘이미지 속 고양이’와 ‘텍스트 설명’이 서로 연결되어 있다는 것을 학습합니다.
- 즉, AI가 이미지를 보고 “이건 고양이구나”라고 인식하는 동시에, 텍스트로 “고양이가 소파에 앉아있어”라고 설명할 수 있게 되는 것이죠.

멀티모달 AI란?
멀티모달 AI는 다양한 유형의 데이터를 종합적으로 이해하고 판단할 수 있는 AI를 말합니다. 텍스트만 읽거나 이미지만 보는 게 아니라, 텍스트도 읽고, 이미지도 보고, 소리도 듣는 AI인 것이죠. 마치 사람이 여러 감각을 동시에 사용하는 것처럼요. 멀티모달 AI의 활용 범위는 무궁무진합니다.
- 의료 분야: 환자의 X-ray 이미지를 분석하면서 동시에 의료 기록(텍스트)을 읽고, 과거의 진료 영상들까지 함께 참고할 수 있다면? 의료진들은 AI를 활용하여 정확하고 빠른 진단이 가능해지겠죠.
- 고객 서비스 챗봇: 고객이 보낸 제품 사진을 보고 문제를 파악하면서, 동시에 고객의 텍스트 설명을 읽어 더욱 정확한 해결책을 제시할 수 있습니다.
멀티모달 AI 중 특히 주목 받는 것이 VLM(Vision-Language Model)입니다. VLM은 이미지(Vision)와 텍스트(Language)를 함께 이해하고 추론하는 AI 모델입니다. 멀티모달 AI의 일종이죠.
멀티모달 데이터셋 구축 시 주의사항 4가지
그런데 유니모달과 멀티모달 데이터셋을 비교해봤을 때 어느 쪽이 더 구축하기 어려울까요? 단언컨대 멀티모달입니다.
페블러스가 멀티모달 데이터셋을 구축해오면서 심도 있게 연구하며 쌓아온 노하우, 페블러스만의 특허 기술로 탄생하였습니다. 이 노하우 중 일부를 공개합니다. 멀티모달 데이터셋 구축 시 조심해야 할 포인트가 무엇일지, 이를 해결해온 페블러스의 노하우가 담겨 있습니다.

1) 정합성을 맞추어야 합니다.
멀티모달 데이터 연결의 본질은 서로 다른 형식의 데이터를 같은 ‘의미 좌표계’에 올려놓는 것입니다.
- 앞의 예시처럼 고양이 사진 한 장과 "귀여운 고양이가 소파에 앉아있다"라는 텍스트가 있다고 가정해 보겠습니다. 이때 텍스트와 이미지가 두 가지가 같은 대상, 같은 장면을 말하고 있는지 확인해야 합니다.
- 만약 사진 속에는 고양이가 바닥에 누워있는데, 텍스트는 "소파에 앉아있다"고 설명한다면? 이미지와 텍스트가 서로 다른 내용을 말하고 있는 것이죠. 이런 불일치가 바로 정합성 문제입니다.
이처럼 멀티모달은 유니모달과 다르게 각 모달별 관계도 고려해야 합니다. 이 모달이 연결되어야 비로소 의미가 발생하는 구조입니다.
따라서 실무에서는 이렇게 정합성을 체크해야 합니다.
- 이미지 ↔ 텍스트: 서로 같은 장면/의도/속성을 말하는지
- 오디오 ↔ 영상: 같은 타이밍/화자/행동을 가리키는지
- 센서 ↔ 지도 데이터: 같은 위치/시간대를 나타내는지
게다가 영상, 오디오 등 시간 축이 있는 데이터는 난이도가 훨씬 높아집니다. 영상의 3분 25초와 자막의 3분 25초가 정확히 일치하는지, 음성의 화자와 영상 속 인물이 같은 사람인지 등을 모두 맞춰야 하기 때문입니다.
또한 모달별로 표현력 해상도 차이가 많이 납니다. 예를 들어 "귀여운 고양이가 소파에 앉아있다"는 텍스트 표현은 하나이지만, 여기에 대응되는 이미지는 무수히 많을 수 있습니다.
2) 모달 간 편향으로 인해 한쪽 모달의 데이터에만 익숙해집니다.
멀티모달 데이터셋은 여러 모달이 있는 만큼 각 모달별로 데이터 편향이 발생할 수 있습니다. AI는 데이터를 따라가기 때문에, AI도 편향이 발생할 수 있는 것이죠.
- 텍스트 데이터는 90% 정확한데 이미지 데이터에는 노이즈가 많다고 가정해봅시다. 이렇게 되면 모델이 텍스트만 믿는 AI가 되는 것이죠. 이미지는 아예 무시하고 텍스트만 보고 답을 내놓습니다.
- 이건 어찌 보면 '멀티모달인 척'하는 것이라 볼 수 있습니다. 실제 결과는 유니모달과 비슷하니까요. 멀티모달 AI를 만들었다고 하지만, 실상은 텍스트만 보는 AI인 셈입니다.
만약 여러분이 일부러 눈을 가린 상태로 일상 생활하게 되면 어떨까요? 시각 정보에 전혀 의존할 수 없기 때문에 청각, 촉각, 공간 감각 같은 다른 감각을 더 적극적으로 사용하게 됩니다.
실제로 어두운 환경에서 자란 사람은 청각이나 촉각, 미세한 공기 흐름이나 소리의 방향 변화에 더 민감해지는 경우가 많다는 이야기도 있죠. 이는 특정 감각이 사라졌을 때, 뇌가 다른 감각 정보를 더 정교하게 활용하도록 적응하기 때문입니다.
3) 오류가 발생할 경우, 유니모달보다 개선하기 까다롭습니다.
유니모달이라면 문제가 있는 데이터 하나만 제거하면 됩니다. 텍스트 데이터에 오류가 있다면, 텍스트만 삭제하면 끝입니다.
그런데 멀티모달은 다릅니다. 한 샘플이 여러 파일, 스트림으로 엮여 있기 때문에, 더욱 품질을 관리하기 어렵습니다.
예를 들어, 자율주행 데이터 1초에는 카메라 영상, 레이더 센서값, GPS 좌표, LiDAR 포인트 클라우드가 모두 연결되어 있습니다. 이 중 하나라도 문제가 있다면 처리가 복잡해지는 것이죠. 자칫하면 다른 데이터도 유실될 수 있고요.
페블러스는 데이터의 연결 구조까지 세밀하게 파악하여, 실제로 불필요한 부분만을 제거하고, 필요한 경우에는 합성 데이터로 이를 보완합니다.
4) 주제 전문가(SME)와 긴밀한 협업이 필요합니다.
멀티모달 데이터셋을 구축하기 위해서는 각 기업, 기관의 주제 전문가(SME, Subject Matter Expert)와의 긴밀한 협업이 필요합니다. 멀티모달 데이터셋은 단순히 데이터를 모으는 것이 아니라, 특정 상황을 정확하게 재현해야 하기 때문입니다.
- 예를 들어, 제조 현장에서 불량품을 탐지하는 멀티모달 AI를 만든다고 가정해봅시다. 이때 전제조건이 필요합니다. 어떤 불량이 발생하는지에 대한 명확한 기준이 필요합니다.
- 이 때 데이터 품질 전문가뿐만 아니라 제조 현장을 잘 아는 전문가의 역량도 필요합니다. "정상 작동 상황", "경미한 불량 상황", "심각한 불량 상황" 등 각 시나리오마다 어떤 데이터가 수집되어야 하는지, 어떤 조건에서 촬영해야 하는지 모두 정의해야 합니다.
페블러스는 주제 전문가의 지식을 바탕으로 그 산업군을 세세하게 분석합니다. 제조, 안전, 로봇 등 각 분야의 특성을 깊이 이해하고, 그에 맞는 데이터셋을 설계하는 것이죠.
멀티모달 데이터셋 구축 사례, 쌀 한 톨마저 인식하는 AI 탄생!
페블러스에서 구축한 멀티모달 데이터셋 PoC 제작 사례에서도 위 원리 중 일부가 적용되었습니다. 쉽게 말하자면 식판 속 음식을 인식하여, 섭취량, 영양소를 분석해내는 ‘식단 모니터링’ 서비스인데요. AI 푸드테크 기업, 조리/주방 현장 속 피지컬 AI 기반 로봇을 개발하는 기업이라면 눈여겨 보실만한 서비스입니다.


식단 모니터링 AI 개발 시, 데이터셋의 문제점은?
문제점과 해결책을 크게 두 갈래로 분류할 수 있습니다.
- 데이터 확보의 어려움: 실제 식판 사진을 수만 장 찍고, 그 안의 음식 종류와 양을 일일이 수동으로 라벨링한다면? 수백, 수천 시간과 몇천만원 상당의 비용이 소요됩니다. 또한 해당 서비스를 사용하는 국가에 따라 데이터도 달라집니다. 각 국가별로 식문화가 다르기 때문에, 현지에 알맞는 데이터를 수집해야 합니다. 결국 이를 보완하는 방법이 합성데이터 생성입니다.
- 좀 더 문제점을 자세히 들여다보자면, 잔반 데이터까지 구해야 섭취량이 어느 정도 되는지 정확하게 파악 가능합니다. 그런데 '먹기 전' 데이터는 많지만, 지저분하게 섞이거나 일부만 남은 '잔반' 데이터는 현실에서 구하기 매우 까다롭습니다.
- 이를 직접 촬영하려고 해도, 실제 급식 현장에서 촬영하는 일 자체가 사용자의 개인정보 노출에 대한 위험이 있습니다.
- 부피 및 영양소 측정의 부정확성: 식단 모니터링 서비스는 식단의 섭취 칼로리를 체크하는 게 핵심입니다. 그런데 단순히 2D 사진만으로는 음식의 정확한 높이나 부피를 알기 어렵죠. 섭취 칼로리도 부정확합니다. 식단 이미지, 부피 및 영양소 정보가 담긴 텍스트 데이터를 각각 연결지어서 의미를 형성해야 하는 것이죠.
식단 모니터링 서비스를 위한 멀티모달 데이터셋 구축 과정
그러면 이제 페블러스가 멀티모달 데이터셋을 구축한 과정을 자세히 말씀드리겠습니다. 먼저 고객사가 사용하는 특정 식판 모양이나 재질(스테인리스, 플라스틱 등)을 그대로 반영해야 합니다.
Q. 식단을 모니터링하는 건데 왜 식판 데이터까지 구축하나요?
그 답은 이렇습니다. 학습 데이터의 식판 모양이 실제 고객사 환경과 다르면, AI는 어디까지가 음식인지, 식판인지 파악하기 어렵습니다. 그래서 고객사 맞춤형으로 식판 이미지 데이터까지 생성해야 합니다.
그리고 재질을 구분하여 제작하는 이유도 있습니다. 예를 들어 스테인리스를 사용하면 반사광이 발생하고, 그림자 왜곡, 음식 색상 왜곡이 발생할 수 있습니다. 이러한 왜곡을 막기 위해 재질까지 명확히 구분짓는 것이죠.

또한 페블러스는 촬영하기 어려운 이미지 데이터를 ‘무한 생성’할 수 있었습니다. 원리는 이렇습니다. 페블러스는 음식을 단순히 단일 이미지로 생성하지 않습니다. 3D 자산으로써 다양한 각도, 조명, 식판 구성을 조정하며 무한히 조합할 수 있습니다. 페블러스 내부 전문가 분들의 기술력으로 현실감 있는 3D 데이터를 구현할 수 있었고요.
그리고 여러분이 현실에서 보는 식판을 상상해보세요. 식판 속 음식은 항상 정갈하게 놓여져 있지 않습니다. 국물이 식판 바깥으로 흐르거나, 소스가 묻은 식판, 남은 잔반으로 가득한 식판 등 예외 상황이 정말 많습니다.

- 여기에 음식마다 부피, 무게를 정확히 일치하게 만들어야 합니다. 그래야 정확한 영양소, 섭취량을 파악할 수 있으니까요.
- 이를 위해서는 식재료를 2차원의 이미지가 아니라 3차원으로 모델링해야 하고, 식재료에 대한 깊은 이해가 필요합니다. 실제로 AI 푸드테크 기업의 담당자님과 협업하여 식재료별 영양소 정보에 대해 학습했습니다. 현실에서 활용 가능한 AI를 개발하기 위해서였습니다.
이렇게 정교한 멀티모달 데이터셋을 구축한 결과, 음식의 양을 픽셀 단위, 심지어 쌀 한톨마저 정밀하게 예측할 수 있는 식단 모니터링 AI 모델이 되었습니다.


또다른 멀티모달 데이터셋 품질 진단 사례가 궁금하다면?
멀티모달 데이터셋에 대한 진단 리포트가 궁금하시다면, 아래 두 가지 사례를 참고해보세요!
- 공공 교통 영상 협회의 영상, 이미지 자료로, 실제 왕산들사거리 CCTV 데이터의 품질을 분석하였습니다.
- 이미지와 오디오가 결합된 멀티모달 데이터셋을 분석했습니다. 원본 오디오를 Chroma(채도)를 특징으로 삼아, 시각적 표현을 추출하여 16종류로 구분된 데이터셋입니다.
참고로 데이터클리닉의 모든 진단 리포트는 웹에서 곧바로 확인 가능합니다. 제조, 농업, 금융, 식품, 문화예술 등 다양한 주제 중 귀사의 업종에 알맞는 리포트를 확인해 보세요!
멀티모달 데이터셋 구축, 페블러스와 함께라면 가능합니다.
- 허울만 좋은 게 아니라, 피지컬 할루시네이션이 없이실제 현실에서 도움을 주는 AI. 그 밑바탕이 ‘멀티모달 데이터셋’입니다.
- 기획 의도는 훌륭하지만 그 기획 의도를 그대로 실현하지 못한 채 수십억대의 투자금을 날리는 AI가 아니라, 생활 속에 진정한 도움이 되는 AI를 개발하실 수 있도록 페블러스가 출발점을 설계해드립니다.
VLM이 어디에서 실패하는건지, 그 실패를 데이터 단계에서 어떻게 예방해야 하는지. 여러분이 겪는 모든 고민, 페블러스가 먼저 고민합니다. 그리고 끝내 해결책을 찾아냅니다.
홈페이지에서 '문의하기' 버튼을 누르신 후, 기업에서 현재 겪고 있는 문제 상황을 설명해주세요. 페블러스 데이터 컨설턴트가 영업일 2-3일 내로 연락드려, 문제 상황에 대한 해결 방향을 말씀드리겠습니다.
복잡하고 답답한 VLM 개발, 해결책을 알아내고 싶다면?

데이터 과학자의 노하우, 경쟁사보다 빠르게 습득하는 방법
본 기사는 페블러스의 기획 하에 AI를 보조적으로 활용하여 작성되었으며, 페블러스의 엄밀한 감수를 거쳐 출간되었습니다.