주민


1. 생성형 AI 실태점검: 어떤 문제들이 드러났나

(1) 주민등록번호·신용카드번호 등 민감정보가 AI 학습데이터로

2024년 개인정보위는 챗GPT, 구글, MS, 메타, 네이버, 뤼튼 등 6개 주요 생성형 AI 기업을 대상으로 사전 실태점검을 실시했습니다. 그 결과, 대부분의 AI 모델이 인터넷상 공개된 데이터를 대규모로 수집해 학습에 사용하고 있었고, 이 과정에서 주민등록번호나 신용카드번호 등 한국 이용자들의 민감정보가 섞여 있을 수 있음이 확인되었습니다.

이 같은 사실은 이미 2023년 기준 2만 999개 온라인 사이트에서 주민등록번호·여권번호 등이 노출된 사례가 있다는 통계를 통해 뒷받침됩니다(참고: 개인정보위 자료). 온라인상에 공개된 이미지·영상 등도 마찬가지로 AI 모델에 학습 데이터로 포함될 수 있어, 개인정보 노출 범위가 매우 광범위해질 위험이 존재합니다.

(2) “인적 검토” 과정에서 사용자 입력 데이터 검수

또한 AI 기업들이 파인튜닝(Fine-tuning) 또는 답변 품질 향상을 위해 내부 인력을 투입, 실제 사용자의 질문과 AI 답변 내용을 열람·검토한 뒤 모델 성능을 개선하고 있음이 밝혀졌습니다. 하지만 대부분 AI 이용자들은 이러한 “사람에 의한 직접 검토”가 이뤄진다는 사실을 명확히 인지하지 못하고 있으며, 이 과정에서 민감정보나 이메일 내용 등 사생활 침해 요소가 있을 수 있다는 우려가 제기됩니다.

(3) AI 서비스의 취약점 신속 대응 어려움 및 아동 연령 확인 부재

점검 결과, 오픈소스 형태로 배포되는 AI 모델은 취약점이 발견되어도 즉시 개선되기 어려운 사례가 드러났습니다. 또한 일부 AI 서비스에서는 만 14세 미만 아동을 대상으로 충분한 연령 확인 절차 없이 운영되는 문제가 지적되어, 아동 개인정보 보호 측면에서도 취약점이 노출되었습니다.

주요 이슈 요약

  1. AI 모델 학습데이터에 민감정보 포함(주민등록번호, 여권번호 등)
  2. 사용자 질문·답변 내용 검토 시 인적 검토 과정 존재, 사생활 침해 우려
  3. 오픈소스 AI 모델 취약점 발견 시 신속 대응 체계 부족
  4. 아동 개인정보 보호 미흡 (14세 미만 보호자 동의 절차 부재)


2. 개인정보위 실태점검 대상과 결과 개요

(1) 점검 대상: 6개 주요 생성형 AI 기업

개인정보위가 밝힌 점검 대상은 다음과 같습니다.

  1. 오픈AI: ChatGPT 등 대화형 AI 서비스
  2. 구글: Bard, PaLM 등 초거대 AI 모델
  3. MS(Microsoft): Bing Chat 등 GPT-4 기반 AI
  4. 메타: Llama2 등 언어 모델과 AI 챗봇 서비스
  5. 네이버: HyperCLOVA 등 국내 초거대 AI 모델
  6. 뤼튼: 국내 스타트업 기반 AI 생성 서비스

이들은 모두 **대규모 언어 모델(LLM)**을 기반으로, 텍스트·이미지·음성 등 다양한 데이터를 학습해 생성형 AI 기능을 제공하고 있습니다.

(2) 실태점검 주요 결과

개인정보위는 각 기업이 제출한 서면 자료와 현장 방문 등을 통해 △개인정보처리 방침 △데이터 전처리 △이용자 입력 데이터 처리 △개인정보 침해 예방·대응 △투명성 등을 종합적으로 점검했습니다. 그 결과, 법이 요구하는 기본적 요건(개인정보처리방침 공개 등)은 대부분 충족했으나, 세부적인 개인정보 보호 측면에서 취약점이 다수 발견되었음을 지적했습니다.

1) 공개 데이터 수집 → AI 학습데이터 활용

  • 주민등록번호, 신용카드번호 등 한국 이용자의 민감정보가 포함될 수 있는 사실이 확인
  • 학습데이터에서 사전 제거가 충분치 않아, 개인정보 노출 가능성 존재

2) 사용자 입력 데이터 인적 검토

  • 파인튜닝 등 목적으로 사람이 직접 사용자 질문·답변 열람, 이용자는 이를 잘 모름
  • 민감한 개인정보가 DB에 축적될 위험

3) AI 모델 취약점 신속 대응·아동 연령 확인 절차 미흡

  • 오픈소스 기반 모델의 보안 취약점 발견 시 신속한 개선이 어려운 경우 존재
  • 만 14세 미만 이용자 보호 절차 부족

3. 개인정보위의 개선 권고 사항

실태점검에 따라 개인정보위는 6개 기업에 대해 개선 권고를 의결했으며, 그 구체적인 내용은 다음과 같습니다.

(1) 이용자 데이터 인적 검토 고지 및 보호 강화

인공지능 모델을 파인튜닝하기 위해 “인적 검토” 과정을 거치고 있다면, 이용자들이 이를 명확히 알 수 있도록 공지해야 한다고 권고했습니다. 또한 민감정보나 사적 내용이 입력될 경우, 해당 정보가 AI 학습에 활용되지 않도록 하는 내부 통제 절차 마련이 요청됩니다.

(2) 학습데이터 내 민감정보 사전 제거 강화

오픈AI·구글·메타 등 해외 기업들은 학습데이터 내 중복·유해 콘텐츠 제거 조치를 적용하고 있지만, 주민등록번호 등 한국식 주요 식별정보를 사전에 제거하는 체계가 충분치 않은 것으로 지적되었습니다. 개인정보위는 이들 기업에 한국 이용자 개인정보가 노출된 페이지(URL) 삭제 등을 반영하는 보호조치 개선을 추가 권고했습니다.

(3) 취약점 발견 시 신속 대응 체계 구축

AI 서비스가 취약점을 발견해도 즉각적인 대응이 어려운 구조일 경우, 개인정보 침해가 장기화될 위험이 커집니다. 개인정보위는 오픈소스 AI 모델이나 API 연동 모델에서도 취약점이 발견되면 신속히 패치하고, 이용자에 공지할 수 있는 비상 체계를 마련하도록 요청했습니다.

(4) 아동 보호 및 국외이전 문제

만 14세 미만 이용자의 연령 확인 절차나 보호자 동의 절차가 제대로 갖춰지지 않은 사례가 확인되어, 이를 보완하도록 권고했습니다. 또한 데이터 국외이전과 관련한 문제(개인정보 국외이전 고지·동의 등)가 간과될 가능성이 크므로, 각 기업이 관련 절차를 보강해야 한다는 점도 강조되었습니다.


4. 개인정보 유출 위험과 대응 과제

(1) AI 학습데이터에서의 개인정보 노출 위험

인터넷상 공개된 정보 중 상당수에 민감정보가 포함된 상태가 계속 확인되는 만큼, 생성형 AI 서비스가 해당 데이터를 학습하면서 개인정보 유출 사고가 발생할 가능성이 늘어납니다. 특히 한국 이용자의 주민등록번호는 세계적으로 유례없이 범위가 제한적이어서, 만약 이를 학습데이터로 처리할 경우 특정 개인을 식별하는 데 악용될 소지가 큽니다.

예시: 지난 해 기준, 총 2만여 개 웹사이트에서 주민등록번호나 여권번호가 노출된 것으로 파악(개인정보위), 이 데이터가 크롤링되어 AI 모델에 학습될 경우, 재생성·노출 가능성 존재

(2) 사용자 입력 보호: 인적 검토 문제

사용자가 AI에 입력하는 질문이 업무 기밀·의료 정보·사적인 이메일 내용일 수도 있는데, 이를 사람이 직접 검토하는 과정은 사생활 침해로 이어질 위험이 큽니다. 기업 차원에서 “민감정보는 AI 모델 학습에서 제외한다” 등 명확한 가이드라인을 마련하고, 사용자 동의·안내가 필수적으로 뒤따라야 합니다.

(3) 기술적·관리적 해결책 모색

  • 기술적 측면: 민감정보 패턴 자동 감지·차단, AI 모델 출력 필터링, 모델 업데이트 시 재학습(파인튜닝) 절차 투명화, 머신 언러닝(Unlearning) 기법 연구 등
  • 관리적 측면: 개인정보 영향평가(PIA), 취약점 모니터링, 거버넌스 체계 구축(CPO 중심), 데이터 국외이전 절차 개선 등

5. 앞으로의 전망: AI 기본법과 글로벌 규제 흐름

현재 국회에서 논의 중인 「인공지능 발전과 신뢰 기반 조성 등에 관한 기본법(이른바 ‘AI 기본법’)」 제정안은, AI 사업자에게 위험 식별·평가 등 전반적 관리방안 수립 의무를 부과하는 내용이 포함되어 있습니다. 개인정보위의 이번 실태점검 및 개선 권고는, 향후 AI 기본법이 통과될 경우 기업이 감당해야 할 의무와 책임을 미리 보여준 사례라 할 수 있습니다.

글로벌 규제 흐름 역시 유럽연합의 AI Act, 미국 FTC의 AI 규제 가이드 논의 등으로 이어지며, 생성형 AI개인정보 보호 간 충돌 문제를 다루는 데 관심이 높아지고 있습니다. 국내에서도 “인공지능이 주민등록번호를 학습해버린다”는 사실이 확인된 만큼, 개인정보 보호 제도 전반의 재검토가 불가피할 것으로 보입니다.


결론 및 시사점

이번 개인정보위의 사전 실태점검으로, 대규모 생성형 AI 서비스가 실제로 주민등록번호, 신용카드번호 등 민감정보를 학습데이터로 활용할 가능성이 있다는 점이 명확히 드러났습니다. 이는 AI 혁신개인정보 보호 사이의 간극이 얼마나 큰지를 다시금 확인해 주는 사례입니다.

  • 기업 측면: AI 서비스 운영자는 입력 데이터와 학습데이터에 민감정보가 포함되지 않도록 기술적·관리적 장치를 마련해야 하며, 인적 검토 과정을 사용자에게 투명하게 안내해야 합니다.
  • 정부·기관 측면: 개인정보위의 개선 권고 내용이 실제로 이행되는지 모니터링하고, AI 기본법 등 추가 입법·정책 마련으로 발생 가능한 사각지대를 메워야 합니다.
  • 이용자 측면: AI에 입력하는 내용이 사람이 들여다볼 수 있음을 인지하고, 민감정보를 함부로 전달하지 않도록 주의할 필요가 있습니다.

앞으로 AI 모델이 점점 정교해지고, 데이터가 글로벌하게 유통되는 추세 속에서, 개인정보와 AI의 상호 충돌 문제는 더욱 복잡해질 전망입니다. 현실적이고 균형감 있는 규제·감독 체계를 마련하려면, 기업·정부·시민 사회가 협력해 프라이버시 보호와 기술 발전이 조화를 이루는 대안을 모색해야 합니다.

Leave a Comment