디지털사회 제73호: 소음이 된 사람들: AI 데이터 노이즈 제거의 정치학
작성자
ssk
작성일
2026-05-15 17:58
조회
44
소음이 된 사람들:
AI 데이터 노이즈 제거의 정치학
백지연(한림대 미디어스쿨)
오늘날 우리는 화려한 AI 기술의 어둡고 비관적인 측면에 대한 이야기들을 수도 없이 듣는다. 꼭 범죄에 대한 이야기가 아니더라도 그렇다. 2026년 1월, 일론 머스크의 X에 도입된 이미지 생성 인공지능 ‘그록(Grok)’이 여성의 알몸 합성 이미지를 손쉽게 만들어낸다는 비판이 쏟아졌고, 인도네시아와 말레이시아 등은 접속 차단에 나섰다. 6월 지방선거를 앞두고 중앙선거관리위원회는 행정안전부, 국립과학수사연구원과 공동 개발한 ‘AI 딥페이크 탐지 분석 모델’의 본격 가동을 예고했다. 오래된 사례로는 2021년 챗봇 ‘이루다’가 인간의 대화 100억 건을 학습한 끝에 차별 발언을 쏟아내고 비판을 받은 뒤 서비스가 중단된 일이 있었다. 이러한 사례들에 대해 우리는 주로 ‘좋은 기술을 누군가가 나쁜 데 썼고, 그래서 더 정교한 탐지와 더 강한 처벌이 필요하다’는 결론을 내린다.
현상들은 실제로 발생하고 있기에 ‘기술의 오용’이라는 진단과 처벌이라는 해결책이 통째로 틀린 말은 아니다. 다만 그 처방은 다음과 같은 사례들 앞에서 무력해진다. 이미지를 만들어내는 인공지능은 여전히 백인 남성을 ‘교수’라는 명령어의 기본값으로 그려낸다. 음성 인식 시스템은 흑인 화자의 단어를 백인 화자의 두 배 가까운 비율로 잘못 알아듣고, 의료 영상 진단 모델은 흑인 환자의 피부암을 더 자주 놓친다. 이런 일들은 딱히 범죄로 분류되지 않고, 명백한 버그나 오류로 보이지도 않는다. 처벌할 가해자도, 강화할 탐지 모델도 마땅치 않다. 그저 시스템이 평소처럼 작동했고, 그 작동의 결과가 어떤 사람들 앞에서만 자꾸 어긋날 뿐이다. 그러나 누가 봐도 이상하다.
그래서 우리는 기술의 오용이라는 진단이 한 가지 질문을 비껴간다는 것을 알 수 있다. 어째서 인공지능은 특정한 신체와 특정한 직업을 그토록 유창하게, 그토록 좁은 모습으로, 일관되게 그려내는가. 그록이 비키니를 잘 그리고 어떤 모델이 의사를 남성으로만 그리는 것은 우연이 아니라 학습의 결과다. 비슷한 의문은 범죄와 무관한 영역에서도 오래 누적되어 왔다. 인공지능은 누군가가 떠먹여준 이미지와 텍스트를 먹고 자랐고, 그 식단의 구성이 지금의 시선을 만들었다. 진짜 질문은 이쪽으로 옮겨가야 한다. 그 식단에는 무엇이 들어갔고, 무엇이 빠졌는가?
기계 학습 분야에는 오래된 격언이 하나 있다. ‘Garbage in, garbage out.’ 쓰레기를 넣으면 쓰레기가 나오니, 데이터에서 쓰레기를 잘 골라내야 한다는 뜻이다. 이 원칙 위에서 빅테크 기업들은 자사 데이터 세트의 ‘깨끗함(cleanliness)’을 추구한다. 구글과 같은 기업이 수십억 개 단위로 수집한 이미지·텍스트 가운데 99% 이상을 ‘노이즈(noise)’로 폐기한 뒤 남은 작은 부분을 정제된 학습 자료로 내놓는 식이다. 이 격언은 기술적으로는 옳다. 단, 무엇이 쓰레기인지에 대한 정의가 옳다는 전제 위에서만 옳다. 그리고 그 전제는 거의 검토되지 않는다.
‘노이즈’라는 말의 역사를 잠깐 거슬러 올라갈 필요가 있다. 이 개념을 가장 영향력 있게 개념화한 사람은 1948년 통신 이론의 토대를 닦은 클로드 섀넌이다. 그에게 노이즈는 송신자가 보낸 신호가 채널을 지나는 동안 끼어드는 잡음, 즉 메시지를 흐리는 기술적 방해물이었다. 본래 채널의 효율을 다루기 위해 고안된 이 정의는, 오늘날 기계 학습 영역으로 옮겨오면서 전혀 다른 무게를 갖게 되었다. 이미지와 언어의 의미를 학습하는 시스템에서, 노이즈로 분류되어 폐기되는 것은 더 이상 라디오 잡음 같은 기술적 잡티가 아니라 누군가의 얼굴, 누군가의 일상, 누군가의 직업이다. 컴퓨터 비전 분야의 데이터 정제 실천은 이른바 ‘정돈된 데이터 수집’을 위해 출처를 상업 플랫폼 중심으로 좁히고, ‘과다대표 카테고리’라는 이름으로 일정 수 이상 등장한 이미지군을 걸러내며, ‘아웃라이어’로 분류된 데이터를 자동 삭제한다. 이 실천들은 섀넌의 정의를 한참 벗어나 있다. 섀넌은 의미의 문제를 공학에서 떼어놓고자 했지만, 이 데이터들은 사람의 모습과 삶을 의미의 차원에서 솎아내고 있다.
노이즈에 대한 또 다른 정의들을 함께 놓고 보면 문제가 무엇인지 더 또렷해진다. 도널드 맥케이(1969)와 그레고리 베이트슨(1972)은 노이즈와 정보의 차이가 신호 자체에 새겨져 있는 것이 아니라, 그것을 받아들이는 자가 무엇을 의미 있는 것으로 인정하는가에 따라 결정된다고 보았다. 베이트슨의 표현을 빌리자면, 정보란 ‘차이를 만드는 차이(a difference that makes a difference)’다. 어떤 차이가 차이로 인정되느냐는 듣는 사람의 관심과 체계에 달려 있다. 수전 발라드(2011)는 노이즈를 제거되어야 할 오류가 아니라 특정한 커뮤니케이션 체계가 인식하지 못하는 모든 것으로 다시 정의했다.
이 정의들은 일상의 풍경에서 어렵지 않게 확인된다. 한밤중 옆집에서 들려오는 아기 울음은 누구에게는 잠을 깨우는 ‘소음’이지만, 부모에게는 무엇이 잘못됐는지 알리는 가장 중요한 ‘신호’다. 광장에서 울려 퍼지는 시위 함성은 인근 상인이나 통행인에게는 정리해야 할 ‘소음 민원’으로 접수되나, 시위자에게는 그날 가장 또렷이 전하고 싶은 ‘메시지’다. 표준어로 훈련된 음성 인식기에게 제주 방언이나 평안도 사투리는 알아듣지 못하는 잡음이지만, 그 말을 쓰는 사람들 사이에서는 가장 정확한 의사소통의 매체다. 영어를 기준으로 만들어진 모델에게는 한국어 자체가 한때 노이즈였고, 지금도 비영어권 억양은 인식 정확도가 떨어지는 영역으로 분류된다. 같은 신호라도 누가 어떤 체계 안에서 듣느냐에 따라 노이즈가 되기도 하고 정보가 되기도 한다. 이처럼 노이즈는 자연 상태로 존재하지 않는다. 노이즈는 누군가가 그것을 노이즈라고 부르기로 결정한 결과다.
제프리 보커와 수전 리 스타(1999)는 ‘분류’라는 인간의 가장 평범한 행위가 사실은 가장 강력한 정치적 작업이라고 말한 바 있다. 어떤 대상을 정보라 부르고 어떤 대상을 노이즈라 부르는지의 구분 또한 분류 행위다. 노이즈로 분류되어 폐기된 것들은 일종의 ‘잔여 범주(residual category)’에 놓인다. 이름을 갖지 못한 채 데이터 세트 밖으로 밀려나고, 그렇게 밀려난 탓에 다음번 학습에서도 충분히 연구되거나 가시화되지 못한다. 두 번 침묵당하는 것이다. 다시 말해, 정보와 노이즈를 가르는 기준은 기술적 효율성처럼 보이지만, 실제로는 무엇을 정상으로 보고 무엇을 예외로 볼지에 대한 문화적이고 정치적 판단을 언제나 품고 있다.
이 좁음은 한국 사회에도 익숙한 풍경이다. 행정 서식의 ‘가족 관계’ 칸이 여전히 누군가에게는 채울 수 없는 빈칸인 것, 의료 통계가 남성과 여성이라는 양성으로만 집계되어 그 사이의 다양한 신체 경험을 통계 밖으로 밀어내는 것, 정상가족 바깥의 동거나 돌봄 관계가 제도적으로 이름을 얻지 못하는 것은 모두 잔여 범주의 일상적인 사례다. 인공지능이 학습 데이터로 삼는 분류 체계 또한 이 같은 빈칸들을 그대로 물려받는다. 게다가 자동화된 시스템에서 빈칸은 단순한 누락이 아니라 적극적인 삭제로 작동한다. 시스템이 인식하지 못하는 것은 곧 존재하지 않는 것으로 취급되며, 그 비존재는 다음 학습에서 다시 강화된다. 흑인 환자의 피부암을 자주 놓치는 진단 모델, 강단에 서는 여성의 모습을 상상하지 못하는 이미지 생성 모델은 모두 이 회로의 끝자락에 놓인 결과물들이다. 시스템이 잘 보지 못하는 사람은 다음 시스템이 더 잘 보지 못하게 되고, 그렇게 보이지 않는 사람들의 데이터는 다시 한 번 결락된다. 누락은 누락을 낳는다.
빅테크 기업이 자랑하는 ‘깨끗한 데이터’는 그래서 자랑이 아니다. 우리가 무엇을 깨끗하다고 보고 무엇을 더럽다고 보는지에 대한 자백에 가깝다. 이 자백을 들여다보면 몇 가지 패턴이 드러난다. 데이터의 주된 출처는 스톡 이미지 사이트나 핀터레스트 같은 상업 플랫폼들이다. 정치적으로 논쟁적이거나 소수의 수요만을 충족하는 이미지는 애초에 그런 플랫폼에 잘 올라오지 않는다. 출처에 포함된 언론사도 대부분 스포츠 매체와 타블로이드, 연예 기사 중심이다. 데이터의 적절성을 판단하는 기준 또한 이미 학습된 자사의 도구들에 의존한다. 즉 새로운 것은 자동으로 의심되고, 익숙한 것은 자동으로 정당해진다. 이 회로 안에서 만들어진 ‘노이즈 없는 깨끗함’은 새로움이나 다양성을 거의 담을 수 없다. 그것은 익숙한 풍경의 더 효율적인 복사본에 가깝다.
처음의 사례들로 돌아가 보자. 그록이 비키니를 그리고 어떤 모델이 교수를 남성으로 보여주는 것은, 그 모델이 비뚤어져서가 아니라 그것이 본 학습 자료가 이미 그렇게 정렬되어 있었기 때문이다. 인공지능이 학습한 시선이 이미 그 방향으로 깎여 있었기 때문이다. 그리고 그 시선의 깎임이 ‘깨끗하게 정제된 데이터’라는 호명 아래 정당화되었기 때문이다. 무엇이 노이즈로 분류되어 사라졌는지를 묻지 않는 한, 더 좋은 탐지 기술이나 더 정교한 사후 필터링만으로는 이 회로를 끊기 어렵다. 결과물의 편향은 결과물에서만 교정되지 않는다. 교수를 남성으로만 그리는 모델에 ‘여성 교수를 그려라’라고 프롬프트를 다듬는 일은, 마치 잘못 인쇄된 책을 매번 손으로 고쳐 읽는 것과 같다. 인쇄판 자체를 들여다보지 않으면 같은 오류는 다음 쇄에서 다시 인쇄된다.
깨끗함은 자연 상태가 아니다. 깨끗함은 누군가가 무엇을 더럽다고 부르기로 결정한 결과다. 그 결정의 정치성을 끄집어내지 않는 한, 인공지능이 그려내는 세상은 우리가 이미 너무 많이 본 풍경의 반복일 수밖에 없다. 그리고 그 반복의 비용은, 늘 같은 자리에 있는 사람들이 치른다.
참고문헌
Ballard, S. (2011). Information, noise, et al. In M. Nunes (Ed.), Error: Glitch, noise, and jam in new media cultures (pp. 59–79). Bloomsbury.
Bateson, G. (1972). Steps to an ecology of mind: Collected essays in anthropology, psychiatry, evolution, and epistemology. Chandler Publishing.
Bowker, G. C., & Star, S. L. (1999). Sorting things out: Classification and its consequences. MIT Press.
MacKay, D. M. (1969). Information, mechanism and meaning. MIT Press.
Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379–423.
디지털사회(Digital Society)는 연세대학교 디지털사회과학센터(Center for Digital Social Science)에서 발행하는 이슈브리프입니다. 디지털사회의 내용은 저자 개인의 견해이며, 디지털사회과학센터의 공식입장이 아님을 밝힙니다.
전체 0
댓글을 남기려면 로그인하세요.
