11만 건의 LLM 데이터셋 만들기, 직접 진행한 과정 모두 공개합니다.

데이터 과학과 품질 및 규제 분야 내 공신력 있는 문서 285건으로 11만 건의 LLM 데이터셋을 구축했습니다. 실제 데이터 구축 파이프라인을 공개합니다.

LLM 데이터셋, 어디서부터 어떻게 만들지?
LLM 데이터셋, 어디서부터 어떻게 만들지?


많은 대표님, 담당자님들이 공감하시겠지만, sLLM(소형 언어 모델) 수준까지는 어떻게든 도전하고 해낼 수 있습니다. 그런데 LLM(대규모 언어 모델)로 넘어가는 시점부터 난이도가 급격히 높아지죠. 방대한 데이터, 데이터를 선정하는 기준부터 검증 과정까지… 놓치기 쉬운 사항들이 많습니다.  

그래서 페블러스가 실제로 LLM 데이터셋을 어떻게 설계하고, 구축하고, 검증하는지 그 전 과정을 투명하게 공유하려 합니다. 여러분이 잘 살피지 못했을지도 모르는 디테일까지 공유합니다.


이번 LLM 데이터셋을 만든 사례로, 데이터클리닉 2.0을 예로 들어보려 합니다. 

  • 데이터클리닉 2.0은 LLM AI를 접목한 데이터 품질관리 솔루션으로, 기존 1.0 프로덕트에서 한 단계 업그레이드한 버전입니다.

  • 단순히 자동 데이터 품질 진단 결과를 보여주는 도구가 아니라, 여러분이 데이터를 입력하고, AI 데이터 과학자와 ‘대화’하며 데이터 품질을 실시간으로 점검하고 관리할 수 있도록 설계되었습니다. 이전보다 좀 더 데이터 품질 관리를 쉽게 해낼 수 있는 것이죠! 


데이터클리닉 2.0이 단순한 챗봇이 아닌 이유는 그 안에 들어간 LLM 데이터셋의 성격 덕분입니다.

  • ‘AI 데이터 과학자’라는 이름에 걸맞게끔, 페블러스는 데이터 과학, 데이터 품질 관리, 규제 및 거버넌스 등 전 영역을 아우를 수 있도록 신뢰도 높은 질문–답변(QA) 자원을 체계적으로 구축했습니다.

  • 이 데이터셋을 기반으로, 데이터 품질관리에 특화된 커스텀 LLM을 개발한 것입니다.

데이터셋 11만 건을 구축한 파이프라인 4단계 


페블러스는 이 LLM이 탄생하기까지의 과정을 하나씩 공개하려 합니다. 총 4단계의 파이프라인을 거쳐 만들어졌습니다. 

1) 문서 전처리 → 2) 지식 그래프 구축 → 3) QA 생성 → 4) 품질 검증


1) 문서 전처리


페블러스는 데이터클리닉 2.0을 개발하기 위해 총 285건의 문서를 수집했습니다. 양도 중요하지만, 문서의 품질도 중요했습니다. 이렇게 수집한 문서는 모두 ISO 국제 표준, 최신 학술 논문, 정부 가이드라인 등 공신력 있는 자료를 중심으로 구성되었습니다. 카테고리는 아래 내용처럼 5개로 분류됩니다. 

  • 규제와 거버넌스 (45.09%): 데이터클리닉 2.0은 법과 제도를 기반으로 데이터의 품질을 판단할 수 있는 시스템을 갖추었습니다. 따라서 학습용 EU AI Act, GDPR, 데이터산업법, 인공지능 기본법, NIST AI RMF, 전국 교육청 생성형 AI 조례, 검찰청·소방청 등 정부 데이터 지침 등을 학습했습니다. 

  • 데이터 품질과 표준 (28.84%): 데이터 품질 관리의 교과서인 ISO/IEC 5259 시리즈, 공공데이터 품질관리 매뉴얼도 물론 학습했습니다. 

  • 도메인 응용 (14.06%): 결국 데이터는 실무 현장에 적용되어야 합니다. 실무에서 발생하는 현실적인 질문에 답할 수 있는 LLM 데이터셋이 필요하죠. 따라서 데이터클리닉 2.0은 로봇, 제조, 사회안전 분야의 지식, AI Hub 구축 가이드를 학습했습니다. 현장에서 실제로 사용되는 데이터의 구조, 제약, 맥락을 담고 있습니다. 

  • 데이터 과학 기초 (9.89%): 이 영역은 LLM의 사고 깊이를 담당하는 ‘기초 체력’이라 할 수 있습니다. 데이터 분석과 모델 판단의 논리적 배경을 만들기 위해, ICML 등 최신 AI 학회 논문 등 데이터 과학 이론 자료를 학습했습니다.

  • 페블러스 데이터클리닉 (2.11%): 전체 비율로 봤을 때 비중은 작지만, 정체성 측면에서 가장 중요한 영역이 바로 이 카테고리입니다. 페블러스 내부 기술 문서, 데이터렌즈 진단론 등 페블러스 데이터 과학자들이 쌓아온 지식, 사고 방식을 그대로 학습시켰습니다. 

또한 각 영역별로 데이터를 구축하는 순서도 중요했습니다. 어떻게 순서를 정하느냐에 따라 데이터클리닉 2.0의 답변 품질도 달라지기 때문입니다.


우선 지식 기반을 탄탄하게 구축하는 것이 필요했습니다. 따라서 규제 관련 핵심 법령 문서와 데이터 과학 기초, 도메인 응용 관련 문서를 최우선으로 적용했습니다. 그 외는 문서를 수집한 순서대로 순차적으로 적용하는 식으로 진행했습니다. 

이렇게 수집한 문서들은 각각 총 3단계에 거쳐서 전처리를 했습니다. LLM이 이해할 수 있는 형태로 문서를 재구성한 것이죠. 

데이터클리닉 2.0의 데이터 구축 파이프라인 
데이터클리닉 2.0의 데이터 구축 파이프라인 

  • 1단계 PDF 텍스트 추출 - 불필요한 헤더, 푸터는 제거하고, 필요한 텍스트만 추출했습니다. 또한 텍스트 레이어가 없는 PDF는 분명 본문에 글씨가 담겨 있지만 드래그가 되지 않습니다. 이미지 형태죠. 이런 경우는 OCR 처리를 했습니다. 이미지 속 글자를 읽어서 텍스트로 바꿔주는 기술이죠. 

  • 2단계 LLM 기반 텍스트 정제 - LLM이 지식을 오해하여 학습하지 않도록, 텍스트를 추출한 후에도 텍스트를 정제했습니다. OCR 과정에서 발생한 텍스트 오류를 수정했습니다. 수식을 복원하고, 반복 텍스트도 제거했죠.

  • 3단계 Document 객체 캐싱 - pickle 형식으로 최종 문서를 객체로 저장했습니다. 전처리가 끝난 문서는 텍스트만 있는 게 아니라 문단 구조, 메타데이터, 분류 정보 등이 같이 존재하죠. 그래서 이를 인식하기 편하도록 한 묶음으로 묶어두었습니다. 또한 LLM 개발 이후에도 데이터가 추가 및 수정된다면 시스템이 그 변화를 감지해서 전처리 결과를 다시 감지하도록 구축했습니다. 

2) 지식 그래프 구축

지식 그래프(Knowledge Graph) 구축이란, 문서 속 지식을 AI가 이해하고 활용할 수 있게 ‘구조화’하는 단계입니다.


평소 글을 읽는 상황을 상상해보세요. 두 가지 글이 있습니다. 어떤 글은 전혀 이해가 되지 않습니다. 그런데 어떤 글은 물 흐르듯 잘 읽을 수 있습니다. 그 차이가 발생하는 이유가 ‘구조화’에 있습니다.

💡
유익하고 좋은 내용을 준비했더라도, AI가 이 내용을 쉽게 이해하지 못할 수도 있겠죠. 잘 이해하지 못했기 때문에 오류가 가득한 답변을 내놓을지도 모릅니다. 그래서 구조화를 통해 내용을 이해하기 쉽게 만들어야 합니다. PDF 속 내용을 의미 단위로 쪼개고, 유의미한 관계끼리 연결하여 ‘이해 가능한 지식 구조’로 만드는 것이죠.


아래는 지식 그래프를 구축하는 핵심 과정 5단계입니다.

  1. 의미 없는 컨텍스트 필터링

    모델이 배워선 안 되는 무의미한 컨텍스트를 걷어내는 단계입니다. 문서에 있는 내용이 한 문장 한 문장 모두 유익하기만 한 것은 아닙니다. 중복되거나 불필요한 문장들은 오히려 학습에 방해가 됩니다. 문서에서 실제 지식이 되는 부분만 남겨야 해요.

  2. 문서 노드(Node) 생성

    이제 ‘이 문서 자체가 어떤 지식을 담고 있는지’를 하나의 노드로 정의해야 합니다. 문서 하나를 하나의 독립된 지식 개체(Entity), 지식 그래프의 기준점(Node)로 만드는 과정입니다.

  • 노드가 왜 필요한 걸까요? 2단계 다음 3단계가 문서를 쪼개는 단계, 청킹입니다. 그런데 노드가 없다면 청크들이 어떤 문서에서 왔는지, 어떤 지식을 대표하는지를 알 수 없습니다. 노드가 기준점 역할이기 때문이죠.

  • 이 명확한 상위 개념이 없다면, AI가 정보를 조합하여 답변을 내놓더라도 오류가 발생할 수 있습니다. 서로 다른 문서의 내용을 같은 맥락으로 오해하거나 답변 근거를 정확히 추적하지 못하는 문제가 생깁니다.

  1. 청킹

    청킹은 문서를 의미 단위로 잘게 쪼개는 작업입니다. 이때 주의할 점은 문장을 일정 길이로 자르는 게 아니라, ‘내용이 완결되는 단위’로 자르는 게 핵심입니다. 조항 단위, 정의 단위, 표 설명 단위로 나누는 것도 포함됩니다. 

  2. 키프레이즈 추출 (LLM 기반)

    청크를 나누었으면, 각 조각이 무슨 내용인지를 한눈에 파악해야 해야 합니다. 핵심 개념, 표준 이름, 지표 코드, 법령 명칭 등을 담은 키프레이즈를 뽑아냅니다. 

  3. 청크 간 관계 구축

    각 청크들을 연결합니다. 분명 아까 나누었는데, 왜 또다시 연결하는 걸까요? 좀 더 정확히 말하자면 ‘의미적으로 연결하는 것’입니다. 예를 들어보겠습니다.  
정의 적용 = ‘데이터 완전성 정의’ 청크 ↔ ‘완전성 평가 방법’ 청크


위 예시처럼 정의와 적용이라는 각각의 개념은 연관되어 있습니다. 정의를 내려야 실제로 데이터 품질 관리를 적용할 수 있어요. 이처럼 서로에게 도움을 줄 수 있는 지식들을 연결한다면, 지식의 힘은 강해집니다.


3) QA 생성


이제 질문과 답변(QA)를 생성할 차례입니다. 회사 면접을 보러가는 분들 중, 예상 질문을 정리하여 답변을 연습하는 분들이 많습니다. AI도 이런 식으로 예상되는 질문들을 미리 준비하여 사용자들에게 답변할 수 있도록 연습합니다.

그런데 여기서 조금 더 깊게 들어가보겠습니다. 사람은 면접 자리에서 예상 질문 외에 갑작스러운 질문, 어려운 질문을 받을지라도, 고심하여 답변을 내놓습니다. 이렇게 대처할 수 있는 이유는 그간 쌓아온 ‘사고력’ 덕분입니다. 

페블러스가 만들고자 한 것도 이것입니다. 예상 질문을 넘어서, 자율적으로 답할 수 있는 AI, 인간처럼 ‘사고력이 높은 AI’입니다. 그래서 페블러스는 단일 문맥, 다중 문맥 질문 모두에 답할 수 있는 AI를 만들었습니다. 

  • 단일 문맥(Single Hop): 하나의 정보만 보면 답이 나오는 질문입니다. 정의 설명, 요약에 강합니다. 다만 질문 속 문맥이 좀 더 늘어난다면 대응하기 어려워집니다. 단순 정보 검색용 AI에 가까워지는 것이죠. 

  • 다중 문맥(Multi Hop): 여러 문서, 여러 정보 조각을 연결해야만 답이 나오는 질문을 말합니다. AI는 이런 질문을 보면 문맥 A, B, C 모두를 전반적으로 살펴보고 이를 조합하여 답을 내놓습니다. 


그렇게 단일 문맥은 6,720개, 다중 문맥은 23,992개를 만들어냈습니다. 실무에서는 단일 문맥만으로 해결하기 어려운 상황이 많기 때문에, 다중 문맥에도 대응할 수 있는 AI가 중요합니다. 데이터클리닉 2.0은 이처럼 복잡한 문제 해결 능력과 추론 능력을 갖추고 있습니다. 

데이터클리닉 2.0의 단일 문맥 예시
데이터클리닉 2.0의 단일 문맥 예시
데이터클리닉 2.0의 다중 문맥 예시
데이터클리닉 2.0의 다중 문맥 예시
데이터클리닉 2.0의 다중 문맥 예시

QA 데이터셋의 경우 이뿐만 아니라 질문 답변의 형식도 중요합니다. 서술형, 요약형, 객관식, 참/거짓 등 다양한 형식의 질문-답변 쌍을 포함하여 구성했습니다. 그 결과 각각 30,711개의 데이터셋을 구축했습니다. 

데이터클리닉 2.0의 서술형, 요약형, 객관식, 참/거짓 형태의 답변
데이터클리닉 2.0의 서술형, 요약형, 객관식, 참/거짓 형태의 답변


또한 골든셋이라는 정확한 기준을 퓨샷 프롬프팅에 일부 사용하여, 대량의 합성데이터를 생성할 때 도움을 받을 수 있었습니다. 참고로 여기서 골든셋 데이터는 전문가가 직접 검증한 고신뢰 데이터를 말합니다. 


4) 품질 검증


앞선 단계들을 통해 문서 전처리 → 지식 그래프 구축 → QA 생성을 거쳐 LLM 데이터셋이 완성되었습니다.

하지만 여기서 끝이 아닙니다. 페블러스는 이 데이터셋 구축이 실제로 수행되었고, 기준을 충족했는지를 객관적으로 증명하기 위해 공인시험기관(CAS)을 통해 시험 평가를 진행했습니다. 시험 평가 워크플로우는 3단계로 나누어집니다. 

  1. 시험 환경 준비
  • 하드웨어(A100 GPU × 4, CPU 56 core, RAM 768GB): 대규모 QA 데이터셋을 처리하고, LLM 기반 생성 및 검증 작업을 안정적으로 수행할 수 있도록 환경을 구성했습니다!

  • 소프트웨어(Ubuntu 20.04, Python, WolframScript): 데이터 처리, 검증 로직 실행, 수치 비교를 위한 표준화된 분석 환경을 사용했습니다.

  • 데이터 파일(pebblous_qadatasets.json): 실제 LLM 학습 및 평가에 사용되는 QA 데이터셋 원본 파일을 기준으로 시험을 진행했습니다.
  1. 데이터셋 개수 검증

    시험 환경 준비가 완료된 후, 구축된 QA 데이터셋이 설계된 수량을 충족하는지를 검증했습니다. QA 데이터셋의 총 개수를 확인하고, 단일 문맥 및 다중 문맥 QA 구성 여부도 점검했습니다. 

  2. 목표치 비교

    마지막으로 사전에 설정한 데이터셋 구축 목표와 실제 검증 결과를 비교했습니다. 양질의 측면에서 데이터셋의 목표를 점검하고 검증했습니다. 
💡
양적인 측면에서 많은 데이터를 구축하는 것도 좋지만, 결국 똑똑한 LLM은 정확한 답변을 내놓을 수 있도록 품질 높은 데이터를 구축하는 것이 핵심이기 때문이죠.



양적인 목표 및 검증 결과

  • 목표: 데이터클리닉 2.0의 핵심 기술 AADS(Autonomous AI Data Scientist, 자율형 데이터 과학자)를 구성하는 LLM 학습/평가 데이터셋 11만 건 구축하기

  • 실제 검증 결과: 페블러스의 LLM QA 데이터셋은 목표 대비 103.8%를 달성한 것으로 확인되었습니다! 기존 목표보다 더 많은 데이터를 생성하였습니다.
AADS LLM 학습/평가 데이터셋 11만 건 구축
AADS LLM 학습/평가 데이터셋 11만 건 구축

질적인 목표 및 검증 결과

  • 목표: 페블러스 QA 데이터셋으로 학습시킨 AADS-KONI 모델이 GPT-4 대비 최소 90% 높은 성능을 달성하는 것이 목표였습니다. 여기서 말하는 성능이란, LLM의 질문 및 답변의 정확도를 말합니다.

  • 실제 검증 결과: GPT-4 대비 최소 95.63% 최대 142.57% 상승한 성능으로, 기존 목표보다 초과 달성할 수 있었습니다!
AADS-KONI QA 정확도, GPT-4 대비 121% 성능 상승
AADS-KONI QA 정확도, GPT-4 대비 121% 성능 상승

'글로벌 AI 빅테크 육성사업'의 2단계에도 선정된 AADS!


이 4단계의 과정을 거친 결과, AI 데이터 과학자 AADS는 글로벌 AI 빅테크 육성사업 2단계에 선정되어 공동연구기관 KISTI와 함께 2026년에 총 20억 규모의 연구비를 지원 받았습니다! 

페블러스는 성장을 멈추지 않습니다. AADS는 글로벌 AI 빅데크 육성사업 2단계를 통해 멀티모달 VLM 데이터셋까지 구축할 예정입니다. 텍스트뿐만 아니라 이미지, 영상 등 다양한 데이터까지 품질 높은 데이터로 개선할 수 있는 기반을 만드는 것이죠. 

CAS 시험성적서 - 진위확인코드 Ou7G1JQrRA
CAS 시험성적서 - 진위확인코드 Ou7G1JQrRA

또 다른 사례가 궁금하다면?


이렇게 4단계 파이프라인을 소개해드렸습니다. 또한 페블러스에서는 데이터클리닉 2.0뿐만 아니라 제조, 안전, 로봇다양한 산업 분야를 대상으로 한 LLM 데이터셋을 만들고 있습니다. 그 예시도 확인해보시길 바랍니다. 


이 모든 과정을 거쳐 만들어진 ‘데이터클리닉 2.0’이 궁금하시다면, 현재 사전 신청을 통해 2개월간 무료로 체험해보실 수 있습니다. 참고로 2개월이 지난 후에는 자동 결제가 되지 않으니, 안심하고 사용해보세요. 

데이터를 입력하고, ‘데이터 품질 관리를 해줘’, ‘데이터 품질을 평가해줘’처럼 질문을 남겨보세요. AI 데이터 과학자가 빠르고 정확하게, 여러분의 데이터 품질을 점검하고 개선해드립니다. 

AI 데이터 과학자, 지금 무료 체험해보세요.

데이터클리닉 2.0 무료 체험하기

데이터 과학자의 노하우를 매주 메일로 보내드려요!

데이터클리닉 뉴스레터 구독하기