
1. 왜 ‘공개된 개인정보’ 처리 기준이 필요한가
인공지능(AI) 기술이 급속도로 발전하면서, 챗GPT나 생성형 AI 모델 대부분은 인터넷상 공개된 데이터를 통해 학습 과정을 거칩니다. 예컨대, 커먼크롤(Common Crawl), 위키백과(Wikipedia), 블로그, 웹사이트 등 ‘누구나 합법적으로 접근할 수 있는’ 데이터가 광범위하게 AI 학습에 투입되고 있습니다. 이러한 공개 데이터 중에는 개인의 주소·고유식별번호·신용카드번호 등 각종 민감 정보가 섞여 있을 가능성이 높습니다.
이처럼 개인정보가 포함된 공개 데이터를 대규모로 수집해 AI가 학습하게 되면, 사생활 침해와 프라이버시 침해 문제가 발생할 수 있습니다. 게다가 기존 개인정보 보호법이 전통적 데이터 처리 방식을 전제로 작성된 탓에, 인공지능(AI) 학습을 둘러싼 세부 가이드라인이나 안전조치는 상대적으로 미비했습니다.
- 법적 공백: 현행 법령에서 공개된 개인정보를 대규모로 수집·분석할 때, 일일이 동의를 받을 수 없고, 계약 체결 조항도 적용하기 어렵습니다.
- 기술적 특성: 인공지능(AI)은 전통적인 DB 처리와 달리, 데이터가 모델 내부로 흡수되면서 재가공·추론이 이뤄지는 형태입니다. 이 과정에서 ‘안전성 확보조치’를 어떻게 적용할지 불명확했습니다.
개인정보위는 이러한 상황을 해소하기 위해 공개된 개인정보 처리 기준을 명확화하고, 인공지능(AI) 개발·서비스 과정에서 필요한 최소한의 안전조치 방향을 안내하고자 이번 가이드라인을 마련했습니다. 기업 입장에서는 법적 불확실성을 줄이고, 국민 입장에서는 개인정보 침해 우려를 완화하는 효과가 기대됩니다.
2. 안내서의 핵심: ‘정당한 이익’ 및 안전조치 가이드
2-1. ‘정당한 이익’ 조항 해석의 명확화
개인정보 보호법 제15조제1항제6호에서는, 정보주체의 권리보다 정보처리자의 이익이 우선하며 그 목적이 명백히 합리적인 경우, 개인정보를 별도의 동의 없이 처리할 수 있다고 규정합니다. 이를 ‘정당한 이익’ 조항이라 부르는데, 이번 안내서는 공개된 개인정보를 인공지능(AI) 개발·서비스에 활용하는 것을 이 조항의 적용 대상으로 명시했습니다.
- 인공지능(AI) 개발 목적의 정당성
- AI 기술 혁신, 공익적 가치 창출, 사회·경제 발전 등에 기여한다는 점에서 AI 개발은 충분히 정당한 이익을 형성합니다.
- 개인정보 처리의 필요성
- 모델 학습을 위해서는 대규모 데이터가 필수적이므로, 공개된 개인정보를 이용하는 것이 불가피한 경우가 많습니다.
- 이익형량(利益衡量)의 구체성
- AI 기업이 얻는 이익과 정보주체의 권리 침해 우려를 비교·평가해, 이익이 명백히 우선한다고 판단되는 경우에만 데이터를 활용하도록 규정합니다.
이로써 국내외적으로 논의가 활발한 ‘정당한 이익’을 근거로, 기업들은 법적 위험 부담을 줄이면서 AI 학습데이터를 확보할 수 있게 되었습니다. 영국·프랑스 등 유럽 주요국 역시 유사한 입장을 통해 공개된 개인정보의 AI 활용을 합법화하고 있어, 국제적으로 상호 운용성을 높이는 측면에서도 의의가 큽니다.
2-2. 안전성 확보조치와 정보주체 권리보장
안내서는 인공지능(AI) 기업이 ‘정당한 이익’을 근거로 공개된 개인정보를 처리할 때, 적용 가능한 기술적·관리적 안전조치를 구체적으로 제시하고 있습니다. 다만, 빠르게 변하는 AI 기술 환경을 감안해, 모든 조치를 일괄적으로 의무화하기보다는 기업이 ‘최적 조합’을 자율적으로 선택할 수 있도록 유연성을 두었습니다.
- 기술적 조치 예시
- 데이터 필터링/클리닝: 주소·주민등록번호 등 민감 정보가 포함된 도메인이나 URL을 학습 대상에서 배제
- 비식별화 기법: AI 학습 전, 이름·연락처 등을 해시 처리하거나 익명화 처리
- 로그 모니터링: AI가 수집한 데이터 중 개인정보 노출 가능성이 높은 영역을 집중 추적해, 문제 발생 시 곧바로 수정·제거
- 관리적 조치 예시
- (가칭) AI 프라이버시 담당조직 운영: 개인정보보호책임자(CPO)를 중심으로 인공지능(AI) 성능 개선, 기술 변경, 위험 요인 등을 주기적으로 점검
- 외부 협력: 개인정보위·한국인터넷진흥원(KISA) 등과 협력해, 공개된 개인식별정보(PII)가 노출된 URL을 탐지하고 신속 대응
- 권리 구제 절차 마련: 정보주체가 자신의 정보가 AI 학습에 쓰였음을 인지하고, 삭제나 정정 요구를 할 수 있는 창구 운영
결국 안내서의 취지는, 기업들에게 일정 수준의 안전장치를 마련하도록 유도하는 동시에, AI 성능 저하나 편향성 우려를 최소화하며 자율적으로 조합을 선택하도록 했다는 점에서 균형점을 찾고자 했습니다.
3. 해외 정책 동향과 국내 AI 기업의 대응 움직임
3-1. 국제 동향: 영국·프랑스·미국의 사례
인공지능(AI) 기술의 안전성을 확보하고 개인정보를 보호하려는 노력은 주요 선진국에서도 급물살을 타고 있습니다.
- 영국: 웹 스크래핑 데이터의 AI 학습 사용을 ‘정당한 이익’으로 인정할 수 있는지에 대한 의견수렴을 2024년 1월까지 진행하고 있습니다.
- 프랑스: 2023년 10월부터 인공지능(AI) 학습 목적으로 개인정보를 처리할 때, ‘정당한 이익’을 적용하는 구체적인 기준을 제시하고 있습니다.
- 미국: 2024년 4월 발의된 연방 개인정보보호법(APRA) 초안에서, ‘공개된 정보’를 개인정보 범위에서 제외함으로써 AI 훈련을 자유롭게 할 수 있도록 논의 중입니다.
이처럼 각국은 공통적으로 개방성과 개인정보 보호의 균형을 고민하고 있으며, 공개 데이터 처리에 대한 명확한 가이드를 제정해 업계 혼선을 줄이려는 추세입니다.
3-2. 국내 AI 기업의 대응 및 사례
한국에서도 대규모 언어모델(LLM)을 비롯해 다양한 AI 서비스를 준비하는 기업이 늘고 있습니다. 개인정보위는 지난 3월 ‘인공지능(AI) 사전실태점검’을 통해 대규모 언어모델(LLM) 사업자들의 안전조치 이행 현황을 파악하고 개선을 권고한 바 있습니다. 대표적인 사례는 다음과 같습니다.
구분 | 핵심 점검 내용 | 개선 결과 |
---|---|---|
도메인 정보(URL) 배제 | 주민등록번호·여권번호 등 노출된 URL의 차단 | AI 기업, 해당 URL 목록을 받아 학습 데이터에서 제외 |
민감 데이터 필터링 | 고유식별정보·신용카드번호가 포함된 데이터 제거 | 전처리 알고리즘 개선, 자동 감지·필터링 시스템 고도화 |
침해사고 대응 프로세스 | 유·노출 신고 채널, 신속 처리 절차 구축 | AI 서비스 내 신고 기능 강화, 즉시 조치 인력 배치 |
CPO 중심의 내부 조직 구성 | 기술 변경·위험 모니터링·법률 검토 체계 수립 | 기업별 (가칭) AI 프라이버시 전담팀 운영, 주기적 보고·평가 |
(표 1. 2023년 개인정보위 AI 사전실태점검 주요 내용과 개선 사례)
개인정보위는 이러한 점검과 협력 과정을 통해, 지금까지 노출된 민감정보가 담긴 도메인 정보를 주기적으로 탐지·통보하고, 해당 정보가 AI 학습에 쓰이지 않도록 기업들이 학습 데이터를 적시에 정비하도록 유도하고 있습니다.
4. 전망과 과제: 신뢰할 수 있는 AI 개발의 길
이번 안내서는 국내 인공지능(AI) 개발 생태계가 공개된 개인정보를 안전하게 활용할 수 있는 발판을 마련했다는 점에서 의미가 큽니다. 하지만 앞으로도 해결해야 할 과제가 적지 않습니다.
4-1. 기술적·법적 이슈의 지속적 업데이트 필요
AI 기술이 하루가 다르게 진화하기 때문에, 지금 발표된 안전조치 가이드가 향후 몇 년간 그대로 유효하리란 보장은 없습니다. 개인정보위 역시 “안내서 내용을 지속적으로 업데이트하고, 해외 규제 정비 동향에 맞춰 유연하게 대응하겠다”고 밝혔습니다.
- AI 모델 구조 변화: 트랜스포머(Transformer) 기반 LLM 외에도 멀티모달 AI 등 새로운 모델이 등장하면, 현재의 필터링·비식별화 방식이 적용이 안 되거나 보완이 필요할 수 있습니다.
- 추가 법령 개정 가능성: 사전적정성 검토제나 규제샌드박스가 AI 기술 발전 속도를 따라가지 못한다면, 법령 개정이나 보완 입법이 검토될 수 있습니다.
4-2. 사생활 보호와 혁신성의 균형점 모색
기업들 입장에서는 개인정보를 최대한 확보해 정확도 높은 AI 모델을 개발하고 싶어도, 과도한 데이터 수집은 곧 ‘사생활 침해’ 리스크를 키웁니다. 반면, 지나치게 엄격한 규제로 AI 개발이 막히면 기술 경쟁에서 뒤처질 수 있습니다. 이번 안내서의 취지는 바로 이 두 가치(사생활 보호와 혁신성) 사이에 ‘적정한 절충점’을 찾는 것이며, 실제 기업 현장에서 얼마나 잘 실행될지는 지켜봐야 할 것입니다.
4-3. 책임 소재와 신속한 권리 구제
AI 서비스가 잘못된 개인정보를 학습해 오류를 발생시키거나, 민감정보를 무단 노출했을 경우, 누가 어떤 방식으로 책임을 져야 할지도 아직 명확치 않습니다. 안내서에서는 개인정보보호책임자(CPO)를 중심으로 내부 거버넌스를 정비하고, 침해사고 발생 시 신속 대응·권리구제 방안을 마련하도록 권고했습니다. 하지만 실무적으로는 여러 하청·협력사, 해외 데이터 소스가 연계되는 복잡한 구조가 많아 실제 책임 소재를 가리는 데 한계가 있을 수 있습니다.
결론 및 시사점
인공지능(AI) 시대에 공개된 개인정보를 어떻게 처리하느냐는 향후 AI 기술 발전과 사회적 수용성을 가르는 결정적 문제입니다. 이번에 개인정보위가 발표한 「인공지능(AI) 개발·서비스를 위한 공개된 개인정보 처리 안내서」는 국내 기업들에게 합리적인 처리 근거(정당한 이익)와 안전조치 방향을 제공함으로써, 법적 안정성과 프라이버시 보호 사이의 균형을 모색하고 있습니다.
- 법적 근거 확립: 인공지능(AI) 학습에 필요한 공개된 개인정보가, 보호법 제15조제1항제6호의 ‘정당한 이익’ 조항에 따라 처리 가능하다는 점을 명시
- 기술·관리적 안전조치 제시: 기업이 자율적으로 ‘최적 조합’을 선택·적용하되, 최소한의 지침을 갖춰 위험을 줄이도록 유도
- 국제적 흐름과의 조화: 영국·프랑스·미국 등 주요국도 유사한 방향으로 규제를 마련 중이므로, 해외 AI 생태계와 상호 호환성 확보
결국, 신뢰할 수 있는 AI를 만들기 위해서는 개발 초기 단계에서부터 개인정보 보호 원칙을 반영하고, 안전조치를 체계화하는 것이 필수적입니다. 정부 차원에서는 제도와 기술 트렌드 간 격차를 줄이기 위해 정책을 지속적으로 업그레이드하고, 민간에서는 안내서를 토대로 자율적인 거버넌스를 구축해보는 노력이 필요합니다. 그렇게 축적된 모범사례가 국내 AI 산업의 경쟁력과 국민 신뢰를 동시에 견인할 수 있을 것으로 기대됩니다.