Issue Brief

디지털사회 제50호: 생성형 인공지능 이후 데이터주체의 권리

작성자
ssk
작성일
2024-01-10 14:59
조회
173

생성형 인공지능 이후 데이터주체의 권리

이정현(중앙대학교 인문콘텐츠연구소 HK연구교수)

지난 해 챗지피티(ChatGPT)의 공개는 지금까지 이루어진 어떤 인공지능 기술보다 뜨거운 반응을 불러 왔다. 사회의 각 영역에서 챗지피티를 사용한 후기가 쏟아져 나왔다. 하지만 잠시 후 피해 사례들도 여럿 보고되었다. 일례로 사업장 내에서 챗지피티 사용을 허용한 삼성전자 디바이스솔루션 부문은 기업 기밀 정보가 챗지피티를 통해 유출되는 사고가 발생했다고 알렸다. 반도체 ‘설비 계측’과 ‘수율 및 불량’ 등과 관련한 삼성전자 프로그램 내부 소스 코드가 미국 기업의 학습 데이터로 입력된 것이다. 사업장 내 챗지피티 사용 허가 이후 챗지피티에 관련 내용을 업무 차 입력했을 뿐이지만 챗지피티는 이 내용을 그대로 챗지피티 성능 향상을 위한 자료로 학습했고 다른 이용자에 의해 제기된 유사한 질문에 삼성전자 내부 기밀에 해당하는 내용을 답변으로 제시했다. 이 사건 이후 삼성전자 및 일부 국내 대기업들은 사업장 내에서 챗지피티 사용을 제한하거나 단독 프로그램을 개발하는 등 ‘서비스 사용으로 인한 기밀 유출’에 대비했다.


<국내 개인정보처리방침 필수 표기 항목(출처: 개인정보보호위원회)>

 

생성형 인공지능의 개발 이전까지 일상생활에서 가장 두드러지는 인공지능 기술은 추천 알고리즘이었다. 추천 알고리즘은 수집한 이용자의 행태 정보(behavioral information)를 기반으로 이용자의 관심과 취향을 추론하여 맞춤형 정보를 제공하는 것을 의미한다. 여기서 ‘행태’란 온라인에서 기록이 가능한 여러 행동정보를 의미하는데, 웹사이트 방문 이력, 앱 사용 이력, 구매 및 검색 이력 등 이용자의 관심, 기호, 성향 등과 연관이 있을 것이라 추론할 수 있는 온라인상의 이용자 활동 정보를 의미한다. 추천 알고리즘은 이 같은 행태 정보를 적극적으로 수집하여 이용자가 동일한 플랫폼을 사용하는 와중에도 개인화된 서비스를 경험할 수 있도록 만들어 왔다.

하지만 이용자의 ‘행태’를 ‘취향’으로 구성하기 위해서는 양적으로 많은 데이터뿐 아니라 매우 광범위한 이용자 활동 정보가 수집되어야 한다. 때문에 추천형 알고리즘을 제공하는 미디어 서비스들은 해당 웹사이트 소유주뿐 아니라 자사와 계약을 맺은 광고 네트워크 사업자나 계열사 미디어 서비스와 이용자의 행태 정보를 공유하여 보다 정교한 알고리즘을 개발해왔다. 이 같은 추천 알고리즘이 이용자 데이터에 가져오는 위협은 이용자의 동의 없이 이용자의 데이터가 광범위하게 수집되어 기업의 이윤을 위해 활용된다는 점이었다. 때문에 국내외에서는 정책 및 법제를 통해 미디어 서비스 사업자가 이용자의 개인정보를 수집하는 시점, 범위, 목적, 기한, 폐기 시기 등을 명시한 이용자 약관 및 개인정보 처리방침을 명문화하여 이용자에게 사전에 동의를 받도록 하고 있다. 국내에서는 「개인정보 보호법」 및 관계 법령에 따르고 있다.

즉, 이용자는 미디어 서비스를 이용하기 시작하는 단계에서 미디어 서비스 사업자가 이용자 데이터를 수집하고 활용한다는 사실에 암묵적으로 동의하고 있는 셈이다. 서비스에 가입하기 위해서 반드시 동의해야 하는 이용자 약관 및 개인정보 처리방침은 사실상 가입의 순간에 이용자의 데이터가 수집되고 활용되는 것을 이용자 스스로 허용할 수밖에 없는 구조를 만든다. 하지만 챗지피티로 대표되는 생성형 인공지능 이후 이용자 데이터의 맥락은 조금 더 복잡해졌다.

챗지피티, 혹은 생성형 인공지능의 ‘학습 구조’는 회사 기밀뿐 아니라 개인정보 등 광범위한 이용자 데이터를 유출할 수 있는 가능성을 갖고 있다. 생성형 알고리즘의 경우 대용량의 온라인 데이터가 1차적으로 수집되어 모델을 학습시킨다. 이 과정에서 서비스 개발자들은 사실상 온라인에 존재하는 모든 인터넷 데이터를 이용자의 동의 없이 크롤링(crawling)하여 서비스 기획 및 개발에 이용하고 있다. 이 때 이름 등 개인정보를 포함하는 내용은 필터링을 통해 비식별처리하여 학습하도록 하고 있지만 이용자의 개인정보가 동의없이 수집된다는 사실은 변함이 없다. 지금 우리가 사용하고 있는 생성형 알고리즘 기반 미디어 서비스들은 크롤링한 데이터를 학습하는 단계를 거쳐 어느 정도 완성된 결과물이 공개된 것인데, 더 흥미로운 점은 우리가 사용하는 것이 완벽한 완성도를 가진 알고리즘이 아니라는 사실이다.

생성형 인공지능은 대량의 데이터를 학습한 모델을 인간의 피드백 기반 강화 학습을 거쳐 모델의 성능을 개선하고 있다. 즉, 서비스를 이용하는 동안 이용자가 입력한 데이터를 미디어 소유주가 수집하여 알고리즘 모델의 성능을 개선하거나 미디어 사업자의 새로운 서비스를 개발하는 데 사용하고 있는 것이다. 이것이 앞선 사례에서 삼성전자의 내부 정보가 외부로 유출될 수 밖에 없었던 맥락이며 유사하게 챗지피티와 대화하는 중에 다른 이용자의 개인정보가 유출되는 사례도 해외에서 빈번하게 있어 왔다. 챗지피티를 개발한 오픈에이아이(OpenAI)사의 개인정보처리방침에는 이용자가 챗지피티에 입력한 데이터를 당사의 서비스를 향상시킬 목적으로 사용할 수 있음을 밝히고 있다. 같은 맥락에서 구글(Google)의 생성형 인공지능 서비스인 바드(Bard) 역시 개인정보처리방침에서 바드와 대화할 때 기밀 정보나 구글이 제품, 서비스, 머신러닝 기술을 개선하는 데 사용하지 않았으면 하는 데이터는 입력하지 않도록 이용자에게 권고하고 있다.

 


<구글 바드 개인정보처리방침 중 일부(출처: Bard 개인정보보호허브)>

 

추천 알고리즘이 꽤 오랜 시간 온라인 플랫폼을 장악하는 과정에서 수많은 개인정보침해 사례가 발생했고 「개인정보 보호법」 및 관련 법령 및 규정은 이용자가 알고리즘 서비스를 이용하는 동안 정보주체로서 이용자 권리를 충분히 보장받을 수 있도록 여러 장치를 마련해 왔다. 하지만 포털, 검색엔진에서 맞춤형 알고리즘으로, 또 다시 생성형 알고리즘으로 그 기반 기술을 확장하고 있는 현재의 기술 환경은 이용자가 최초에 미디어 서비스에 가입하며 동의했던 정보 제공 및 공유의 범주를 넘어서서 이용자 데이터를 활용하고 있다. 하지만 구글 바드나 네이버 클로바 등 기존의 포털 대기업이 만든 생성형 인공지능의 경우 기존 서비스 가입자들은 별도의 가입 절차 없이 사용이 가능하여 생성형 인공지능의 맥락에서 새로이 수집되고 활용되는 이용자 데이터 및 개인정보처리방침이 사전에 충분하게 고지되고 있지 않다. 챗지피티 역시 개인정보처리방침을 영문으로만 제공하고 있으며 별도의 가입절차 없이도 사용이 가능해 그마저도 무색한 상황이다. 생성형 인공지능 서비스의 개인정보처리방침에서 (형식적으로나마) 이용자가 입력하는 데이터를 자사의 서비스를 개선하거나 신규 서비스를 기획하는데 활용할 수 있다고 명시하고는 있지만 ‘서비스 개선’이나 ‘신규 서비스 기획’이라는 용어의 실제 의미가 굉장히 광범위하며, 추천 알고리즘에서 생성형 알고리즘으로의 전환 사례처럼 기술의 패러다임 자체가 바뀌는 경우에도 추가적인 이용자 보호조치 없이 기존의 개인정보보호법이나 관련 절차를 유지해도 되는지 체계적인 논의가 필요한 사안이다.

지금 우리가 인공지능이라고 지칭하는 기계학습의 초기 단계에는 알고리즘이 학습할 수 있는 대량의 데이터를 확보하는 것이 목적이었기에 사회적, 윤리적 논의가 무르익지 않은 상태에서 이용자가 생성하는 데이터를 그대로 학습 데이터로 활용하겠다는 단순하고 위험한 생각이 실제 제품 개발로 이어졌고, 그 결과는 우리가 익히 알고 있는 이루다 사태다. 이루다가 두 번째 버전으로 돌아왔을 때 이루다의 대답은 좀 더 윤리적이라기보다는 철저한 필터링을 통해 관련 질문에 대한 답을 회피했다. 생성형 인공지능은 어떻게 될까? 이용자의 권리를 침해할 수 있는 요소에 대해 생성을 멈출까? 아니면 늘 그래왔듯 교묘하게 회피하여 정보주체로서 이용자의 권리가 보장되지 않은 편의만을 제공할까? 생성형 인공지능의 개발과 확장은 이미 시작되었고, 생성형 인공지능 서비스를 이용하고 성능에 감탄하느라 이에 연루된 이용자 데이터의 권리 보호를 위한 움직임과 대응책 마련이 너무 늦어졌다.
전체 0