AI 거버넌스 프레임워크, 똑똑하면서도 윤리적인 AI를 만들려면?

AI 거버넌스 프레임워크란 AI-Ready 데이터를 지속적으로 유지하는 윤리적 가이드라인입니다. AI 거버넌스를 구축하는 노하우 5가지까지 확인해 보세요. 

고객의 신뢰를 얻는 AI, AI 거버넌스로 만들어집니다!
고객의 신뢰를 얻는 AI, AI 거버넌스로 만들어집니다!

여러분들이 같이 일하는 팀원으로 딱 한 명만 택해야 한다면, 누구를 선택하고 싶으신가요? 

👨
실력은 좀 부족하지만 착한 직원 VS 성격은 좀 안 좋지만 실력이 뛰어난 직원


양자택일을 하기 참 어렵죠? 그런데 만약 AI 모델이라면, 둘 중 하나만 택할 수 없습니다. 둘 다 갖추어야 하는 것이죠. 즉 똑똑하면서도 윤리적인 AI를 개발해야 합니다. 

많은 분들이 똑똑한 AI를 개발하는 것을 주 목표로 삼으시죠? 그런데 좀 더 깊이 생각해보면, AI는 결국 사람을 돕기 위해 만들어졌습니다. 만약 똑똑하다 하더라도 그 과정에서 윤리성, 공정성이 떨어진다면 진정으로 사람에게 도움이 될 수 없습니다. 


AI 거버넌스 프레임워크란 무엇일까?


AI 거버넌스 프레임워크는 신뢰할 수 있는 결과물을 지속적으로 만들어낼 수 있도록 ‘AI Ready 데이터’ 상태로 지속적으로 관리하는 윤리적 가이드라인을 말합니다. 똑똑하면서도 윤리적인 AI를 개발하기 위한 체계인 것이죠.


AI 거버넌스 프레임워크가 반드시 필요한 이유

1) AI 모델은 기존의 소프트웨어와 근본적으로 전혀 다른 방식으로 작동합니다.



따라서 AI를 제대로 활용하려면 기존과는 다른 관점의 관리 체계가 필요합니다. 둘을 좀 더 자세히 비교해볼까요?

  • 기존의 소프트웨어: 우리가 알던 소프트웨어는 한 가지 값을 넣으면 항상 동일한 결과를 도출합니다. 수학 공식에 비유하자면 f(x)=y처럼 항상 일정한 공식이 있는 셈이죠. 개발자가 의도한 범위 안에서만 작동하고, 예측 가능성이 매우 높습니다.
함수
함수
  • 새로운 AI 모델: 내부의 판단 기준과 예측 방식이 계속 변화합니다. 같은 입력값을 넣더라도 이전과 다른 결과가 나올 수 있습니다. 학습 데이터가 달라졌거나, 환경이 바뀌었거나, 모델이 업데이트되는 경우 그렇습니다.

  • 또 하나 중요한 차이가 있습니다. 현실 세계가 변화하면 AI도 그 변화를 그대로 반영합니다. 사용자의 행동 패턴이 바뀌거나, 산업 트렌드나 기준이 달라지거나, 과거에는 존재하지 않았던 새로운 사례(엣지 케이스)가 등장하면 AI에 입력되는 데이터 자체가 달라지는 것이죠.



이 경우, 기존 소프트웨어보다 AI의 출력 결과는 훨씬 더 크게 변화할 수 있습니다. 즉 AI 모델은 정해진 답만 도출하는 게 아니라, 어느 정도는 자율성이 있다고 볼 수 있는 것이죠. 그런데 무작정 자율성만 보장하는 AI는 윤리적으로 옳지 않은 방향으로 나아갈 수 있습니다.

개인정보를 침해하거나, 특정 집단에 불리한 편향을 강화하거나, 차별과 고정관념을 그대로 재생산할 수 있습니다. 의도하지 않았더라도 실제 사회적 피해로 이어질 수도 있고요.

 

그래서 AI 거버넌스 프레임워크라는 윤리적 가이드라인이 필요합니다. AI의 판단과 결과가 믿을 수 있고, 설명 가능하며, 안전하게 유지되도록 돕는 장치죠. AI가 인간에게 있어서 점점 더 많은 의사결정에 관여하는 지금, AI 거버넌스는 더 이상 선택이 아닌 필수 인프라라고 볼 수 있습니다.

2) AI 모델을 믿고 사용할 수 있도록, AI 모델 자체의 신뢰도를 높여야 합니다. 



여러분이 AI 모델을 열심히 개발해서 AI 모델을 세상에 출시했다고 가정하겠습니다. 아무리 도움이 되는 서비스라고 강조하더라도 사용자가 신뢰하지 않으면 AI 서비스는 선택되지 않습니다.

  • 답변의 품질 저하: 처음엔 답변의 품질이 괜찮아보일 수도 있습니다. 그러나 점점 사용할수록 질문과 상관없는 답을 하거나, 그럴듯해 보이지만 사실과 다른 정보를 내놓을 수도 있죠. 답변의 근거를 제대로 설명하지 못합니다. 한쪽에만 치우쳐진 답변을 내놓을 수도 있고요. 이른바 환각, 할루시네이션(hallucination) 문제죠.

  • 개인정보 문제: 내가 입력한 정보가 어디까지 저장되는지, 개인정보가 외부로 유출되지는 않는지, 학습에 무단으로 활용되지는 않는지… 이런 걱정까지 생기면, 아무리 기능이 좋아도 서비스를 계속 쓰기 어렵습니다.



그래서 AI 모델의 신뢰도를 높이려면 AI 거버넌스가 필요합니다. AI 거버넌스 프레임워크는 AI의 판단과 데이터 활용 과정을 체계적으로 관리하고, 그 기준을 외부에 설명할 수 있도록 만들어줍니다. 

💡
예를 들어 데이터는 어떤 기준으로 수집 및 가공되었는지, 개인정보 보호 원칙은 어떻게 적용되는지, 오류나 편향이 발견되면 어떤 절차로 개선되는지 등 기준이 명확히 정리하는 것이죠. 이를 투명하게 공개한다면 사용자는 훨씬 안심하고 AI를 사용할 수 있습니다.



3) 인공지능 규제법을 준수해야 합니다. 



과학기술정보통신부가 발표한 ‘2024 인터넷이용실태조사’에 따르면 우리나라 전국민 중 만 6세 이상의 인구 중 60.3%가 AI 사용 경험이 있다고 합니다. 

2024 인터넷이용실태조사 
2024 인터넷이용실태조사 

또한 AI는 현재 의료, 교육, 물류, 자동차, 금융, 제조 등 거의 모든 산업 분야에서 활용되고 있습니다. 여기에 이제 로봇, 자율주행, 산업 자동화와 결합한 피지컬 AI가 도입된다고 하고요. 

이처럼 활용 범위가 넓어질수록 각 산업마다 요구되는 기준과 책임도 달라집니다. 뿐만 아니라 모든 분야를 아우르는 규제가 함께 사용되기도 합니다. 산업마다 고유한 요구 사항을 해결하는 동시에 광범위한 보호를 유지하는 균형 잡힌 접근 방식을 구축하는 것이죠. 

💡
이러한 추세에 알맞게 AI 규제는 시작되고 있습니다. 세계 최초로 한국에서 2026년 1월부터 인공지능 규제법이 시행될 전망입니다. 그 다음으로 유럽에서 AI 관련 법이 본격적으로 시행될 예정이고요. 이제는 AI를 개발하는 기업이라면 반드시 데이터 및 개인정보를 철저히 지켜야 합니다.


이를 AI 거버넌스 프레임워크로 대비할 수 있습니다. 규제에 벗어나는 문제가 생긴 후 뒤늦게 대비하기 보다는, AI 거버넌스로 위험이 발생하기 전 미리 대응하세요. 


AI 거버넌스를 구축하는 노하우 5가지 



그렇다면 지금부터는 실무에서 바로 적용할 수 있는 AI 거버넌스를 구축하는 핵심 노하우 5가지를 하나씩 살펴보겠습니다.

1) 편향성을 조절해야 합니다. 



가장 먼저 점검할 요소는 편향성입니다. 편향성이란 데이터가 특정 조건, 집단, 패턴에 한쪽으로 쏠려 있는 상태를 의미합니다. 이 상태에서 학습한 AI는 결과 역시 자연스럽게 편향된 방향으로 도출하게 됩니다.

  • 나쁜 예시: 예를 들어 채용 추천 AI를 개발한다고 가정해보겠습니다. 과거 데이터에 특정 성별, 특정 학교, 특정 지역 출신만 과도하게 포함되어 있다면 AI는 이를 ‘우수 인재’의 기준으로 학습하게 됩니다. 특정 집단을 반복적으로 우대하고, 다른 집단을 구조적으로 배제합니다. 채용 결과에서 차별이 나타나는 것이죠. 

  • 예외적인 예시: 다만 편향이 항상 나쁜 것은 아닙니다. 특정 목적을 가진 AI라면 일부 편향은 오히려 도움이 될 수도 있는 것이죠. 특정 지역에서 고령층 낙상 위험을 예측하는 AI를 만든다고 가정해볼게요. 이 AI의 목적은 명확합니다. 고령자의 위험 상황을 빠르게 감지하는 것이죠. 이 경우 학습 데이터가 20~30대보다 60대 이상 데이터에 더 많이 집중되어 있다면 ‘의도된 편향’이라고 볼 수 있습니다.



그렇다면 편향은 어떻게 조절을 해야 할까요? 

  • 첫 번째, 특정 데이터가 많아 보인다면, 그 데이터가 과도한건지 정말 적정한 양인지 판단할 수 있는 기준을 정립해야 합니다. 만약 과도하다고 판단했다면 이를 데이터 다이어트(데이터 경량화)로 줄여야 하고요. 

  • 두 번째, 과밀한 데이터가 있으면 그만큼 과소한 데이터가 있을 수도 있습니다. 이 경우에는 부족한 데이터를 합성데이터로 보완하거나 학습 비중을 조정하는 방식으로 전체 데이터 분포의 균형을 맞춰야 합니다.

데이터클리닉은 이 원리 그대로 학습 데이터의 편향성을 점검하고 조절하고 있습니다. 실제로 데이터클리닉을 통해 AI 결과의 품질을 크게 개선한 기업 사례들도 존재합니다.



2) 개인정보를 철저히 보호해야 합니다. 



쿠팡 개인정보 대규모 유출 사건을 알고 계신가요? 아무리 대기업이라도, 개인정보 유출이라는 한 번의 사고로 인해 한 순간에 신뢰를 잃어버리게 됩니다. 결이 조금 다른 유통 기업의 사례였지만, AI 모델에서도 개인정보는 여전히 중요합니다.

쿠팡 홈페이지 캡쳐
쿠팡 홈페이지 캡쳐

AI는 방대한 데이터를 학습하는 만큼, 그 안에는 이름, 연락처처럼 명확한 개인정보를 학습할 수 있습니다. 문제는 이 데이터를 조합하면 개인이 식별될 수도 있다는 점이죠. 법적, 윤리적 리스크부터 발생하게 됩니다. 아무리 공들여서 신뢰를 쌓았더라도, 한 순간에 무너질 수 있습니다.

그래서 AI를 안전하게 운영하려면 개인정보를 어떻게 다룰 것인지에 대한 기술적 장치가 필요한데요. 그 방법 중 하나가 ‘가명처리’입니다. 

  • 가명처리는 개인정보의 일부를 삭제하거나 다른 값으로 대체하여, 추가 정보 없이는 특정 개인을 식별할 수 없도록 만드는 방식을 말합니다.

  • 이렇게 처리된 가명정보는 통계 작성, 과학적 연구, AI 학습 및 분석에만 이용 가능합니다. 개인정보는 보호하면서도 데이터의 활용 가치는 유지하며 균형을 유지하는 방식이라 볼 수 있습니다. 



데이터클리닉에서는 여기서 한층 나아가, ‘데이터 레플리카(Data Replica)’라는 기술을 활용하고 있습니다. 

👍
데이터 레플리카는 합성데이터를 생성하는 과정에서 실제 데이터를 그대로 복사하는 방식이 아니라, 원본 데이터의 구조와 분포 특성은 유지하면서 개인을 식별할 수 없는 형태의 합성데이터를 생성하는 기술입니다.
데이터 레플리카, 벌크업, 다이어트
데이터 레플리카, 벌크업, 다이어트


3) 투명하게 보여주어야 합니다. 



AI가 내놓은 결과가 아무리 그럴듯해 보여도, 어디서 나온 판단인지 알 수 없다면 신뢰하기 어렵습니다. 그래서 빠질 수 없는 요소가 ‘투명성’입니다. 

💡
투명성이란 단순 정보 공개를 넘어, AI가 어떤 데이터로 학습되었고, 어떤 기준으로 판단을 내리는지 투명하게 설명 가능한 상태입니다. 데이터의 출처, 가공 및 처리된 방식, AI의 의사 결정 로직 등 이 모든 것을 조직 내부와 외부 모두가 이해할 수 있어야 합니다.


그래서 AI 거버넌스는 AI가 다음과 같은 요소를 명확하게 문서화하도록 요구합니다. 사용 중인 알고리즘의 종류와 목적, 학습에 활용된 데이터 소스, 데이터 처리 및 가공 방식, 의사 결정에 영향을 미치는 주요 변수 등 다양하죠. 

투명성을 준수하기 위해서는 어떻게 해야 할까요? 결국 객관적으로 통용되는 기준을 준수해야 합니다. 내부에서 봤을 때는 규제를 준수한 것 같아도, 실제로 외부에서 보기엔 그렇지 않을 수 있습니다. 외부에서도 인정할 수 있도록, 표준 기반 평가가 필요합니다.

💡
그렇다면 어떤 표준을 준수해야 할까요? ‘42001 표준’을 준수해야 합니다. 인공지능을 얼마나 투명하게 사용하는지를 평가하는 표준을 말합니다. 데이터가 42001 표준에 적합한 데이터라면 갑작스러운 외부 감사에 무리 없이 대비할 수 있습니다.



그런데 표준을 학습하고 하나 하나 지키려면 복잡하고 어려운 부분이 많죠. 이러한 문제의식에서 출발하여, 페블러스는 기존 데이터클리닉을 한 단계 확장하여 데이터클리닉 2.0을 개발했습니다.

데이터클리닉 2.0은 42001 표준을 기반으로 하여 AI가 투명하게 사용되고 있는지를 지속적으로 점검합니다. 단편적인 경험이 아닌, 국제표준에 근거한 수치로 AI 투명성을 설명할 수 있는 것이죠.

4) 정형 데이터에 대한 품질 뿐만 아니라, ‘비정형 데이터’에 대한 품질 관리 표준도 준수해야 합니다. 


정형데이터 위주로 사용되던 과거와 달리 현 시점에서 주의하셔야 할 점이 있습니다. 과거의 표준이 아닌, ‘새로운 표준’을 준수해야 하는 것이죠.

  • ISO/IEC 25012 표준: 과거에는 ISO/IEC 25012 표준이 활용되었습니다. 데이터 품질을 정확성, 완전성, 일관성, 신뢰성, 현재성 등 15가지 품질 특성으로 구조화하여 ‘무엇을 품질이라 볼 것인가’를 정의하죠. 그러나 이 표준은 정형 데이터의 품질관리를 위한 표준입니다. 비정형 데이터가 활용되는 현 상황에는 적합하지 않은 것이죠.

  • ISO/IEC 5259 표준: 반면 5259 표준은 25012 표준에서 말하는 정형 데이터에 대한 품질 관리 내용뿐만 아니라 ‘비정형 데이터’의 특성까지 반영하여 나온 표준입니다. 한국지능정보사회진흥원(NIA)에서 발간한 인공지능 학습용 데이터 품질관리 가이드라인에도 일부 반영되어 있죠. 



또한 데이터클리닉 2.0에서는 이 두 가지 표준을 모두 준수하며 품질 관리를 진행하고 있습니다. 데이터클리닉은 데이터의 형태가 변화하면, 이를 놓치지 않고 품질 관리 방식도 변화시키고 있습니다. 

5) 지속적인 관리 및 개선이 필요합니다.



앞서 말씀드렸듯이, AI는 한 번 만들고 끝나는 시스템이 아닙니다. 자율성으로 인해 창의적인 답변을 도출하고, 시간이 지나면서 데이터의 원천인 현실 환경이 변하기 때문이죠. 그래서 정확성, 윤리성 측면에서 지속적인 관리가 필요합니다. 

😔
문제는 이 모든 과정을 한두 번은 몰라도, 사람의 손으로 지속적으로 관리하기란 어렵습니다. 즉 분명 데이터 품질 관리를 했는데도 불구하고 정확성, 윤리성이 떨어지는 모순적인 현상이 나타나게 됩니다.



이 문제도 데이터클리닉 2.0이 해결할 수 있습니다.

  • 데이터클리닉 2.0의 핵심 기술을 쉽게 설명하자면 ‘AI 데이터 과학자’입니다. 데이터 과학자의 지식을 그대로 담고 있는 AI 데이터 과학자가 AI 거버넌스의 핵심 요소를 자동으로 진단하고 개선할 수 있도록 설계되었습니다. 

  • 여러분이 데이터 품질 관리에 할애하는 시간을 절감하고, 꼭 필요한 업무에 사용하세요. 여러분이 다른 일을 하고 있는 동안 데이터 품질은 올라갑니다.


똑똑하면서도 윤리적인 AI를 완성하고 싶다면, 데이터클리닉 2.0의 도움을 받아보시는 것도 좋은 방법입니다.


그저 이론적으로만 나열된 윤리적 가이드라인만 보여드리는 게 아니라, 실제로 여러분의 AI에 그대로 적용하여 개선합니다. AI Ready Data를 지속적으로 관리하는 구조가 필요하다면, 데이터클리닉 2.0을 통해 개선해보세요.

AI 데이터 과학자, 데이터클리닉 2.0

사전 신청 바로가기

데이터 과학자의 인사이트, 매주 뉴스레터로 받으세요.

뉴스레터 구독하기