디지털사회 제 18호: 선거 부정 탐색법(election forensics)과 데이터 과학
작성자
ssk
작성일
2019-03-15 07:47
조회
3859
선거 부정 탐색법(election forensics)과 데이터 과학
100만 퍼센트를 넘는 살인적인 하이퍼 인플레이션과 식량 및 의료물자 등의 부족으로 고통받고 있던 베네수엘라에서 2018년 치러진 선거에서 야권의 승리가 예상되는 것은 당연했다. 하지만, 5월 20일 실시된 대통령 선거에서 마두로(Nicolás Maduro Moros) 후보는 67.8%라는 압도적인 득표율로 대통령에 재선되었다. 야당 후보였던 진보전진당(Avanzada Progresista)의 팔콘(Heni Falcón Fuentes) 후보는 선거 직전 “마두로는 예수와 대결해도 승리할 것이다”라고 주장했다(Guardian, 2019/5/19). 야권을 비롯한 많은 국민들은 물론 국제사회에서도 개표결과가 조작되었다는 의심을 보내고 있다. 사실 선거부정은 베네수엘라에 독특한 현상은 아니다. 2016~8년만 보더라도 우간다 총선, 차드 대선, 적도 기니 대선, 세르비아 총선, 잠비아 총선, 가봉 대선, 미국 대선 및 중간선거, 아르메니아 총선, 터키의 개헌 투표, 러시아 대선, 콩고민주공화국 대선, 나이지리아 대선에서 다양한 종류의 선거부정이 있었다고 의문이 제기되고 있다.
선거 부정에는 실로 다양한 방법이 존재한다. 인구수 조작, 특정 집단의 선거권 박탈, 위협, 매표, 선거 절차나 장소에 대한 잘못된 정보 제공, 인위적으로 투표용지를 복잡하게 만들기(예컨대 2000년 미국 플로리다 마이애미-데이드 카운티의 경우) 또는 등록절차를 복잡하게 만들기, 부정투표, 투표권 없는 사람에게 투표자격 부여, (장애인이나 고령 유권자 등) 도움이 필요한 유권자의 투표 조작, 대리투표 조작(요양원 등), 투표함 파기, 투표 관련 기계의 조작 및 해킹, 신분 사칭, 개표결과 조작 등이 대표적으로 사용되는 방법이다. 그렇다면 선거부정을 포착 및 방지하는 방법은 없을까? 국제기구나 시민단체 등에 의한 선거감시(election monitoring)는 강화되고 있지만, 선거감시는 선거결과의 정확성(부정이나 왜곡이 없는 상태)보다는 선거 진행과정이 공정하고 자유롭게 진행되었는가에 초점이 맞추어져 있다. 개표결과에 대한 왜곡은 감시되기 어려운 문제이다. 점차로 많은 국가와 단체에서 전자투표를 도입하고 있는 시점에 개표에서 발생하는 왜곡은 더 심각할 수 있다.
선거의 정확성(electoral integrity)의 기준은 일차적으로 유권자의 선호가 투표결과로 얼마나 정확하게 반영되는가이다. 콩도르세(M. Condorcet), 애로우(K. Arrow), 라이커(W. Riker) 등의 사회선택 이론가들이 입증한 바와 같이 개인의 선호를 집단의 선호로 “정확”하게 집적하는 것은 사실 불가능한 작업이다. 투표 방식에 따라 또는 투표자의 전략적 투표 여하에 따라 결과가 다르게 나오기도 하고, 후보자 한 사람의 사퇴여부가 여타 후보의 투표 결과에 영향을 미치기도 하며, 선거운동이나 다양한 홍보활동 등에 의해 유권자의 선호도가 순식간에 바뀌기도 하는 상황에서 “정확”하다는 것의 의미마저 정확하지 않은 것이다. 그렇다면, 일단 주어진 제도 하에서 유권자의 선호가 정해진 규칙에 따라 정확히 집계되었는지의 검증은 가능할까? 즉, 개표과정에서 의도적인 조작이 발생했는지의 검증은 가능할까? 대규모의 선거가 짧은 시기에 전국적으로 이루어지고 정부에 의해 집계되는 상황에서 이는 결코 쉬운 일이 아니다. 최근 들어 일군의 정치학자들이 통계기법을 사용하여 선거결과의 부정을 포착하는 간접적인 방법을 개발하고 있는데, 이들은 주로 선거 사후 발표된 정부의 공식 선거결과 데이터를 분석한다.
널리 알려진 방법 중 하나는 Myakgov, Ordeshook, Shaikin 등이 주로 러시아, 우크라이나, 멕시코 북부지역의 선거 부정 여부를 검증하기 위해 사용한 방법으로서, 가능한 한 가장 작은 단위(투표소)로 세부화한 공식선거 데이터를 이용하여 이전 선거에서 나타난 투표율의 경향이나 인구분포 등을 고려해서 볼 때 데이터에서 특이점이 발견되는가를 관찰하는 방법이다. 이들은 주로 투표율의 분포, 각 후보자의 득표율의 지역별 차이, 선거 결과의 시계열적 변화 등에 관련된 데이터를 주로 분석한다.
두 번째 방법은 선거 사후 감사를 실시하는 것이다. 이 방법은 무작위로 추출한 투표용지를 이용하여 공식 투표결과와 비교하는 것이다. 이 방법은 주로 투표 집계 기계에 대한 불신 때문에 사용되는 방법이다. 이 방법은 직접 기표한 투표 용지가 잘 관리된 경우에 가능하다. 이 과정에 필요한 행정적 비용은 만만치 않다. 많은 곳에서 개표에 사용된 투표 기계에서 문제가 발견되었기 때문에 이 또한 중요한 탐색 영역이다.
세 번째 방법은 투표 용지로 인해 발생하는 선거결과 왜곡을 포착하는 방법이다. 이 경우에는 지역 인구데이터와 이전 선거결과를 이용하여 회귀분석을 실행하여 특정 지역이 다른 지역에 비해 특이값(outlier)인가 아닌가를 살펴보는 것이다. 하지만 이러한 분석은 후보자의 수가 매우 많은 경우 정확성을 보장받기 어렵다. 왜냐하면 후보자의 수가 매우 많은 경우 너무나 많은 불확실성이 존재하기 때문이며, 유권자가 전략적으로 투표했을 경우 계산이 매우 복잡해지기 때문이다.
끝으로, Walter Mebane 등이 도입한 방법인데, 하위 단위 개표결과(선거구별 혹은 투표소별 개표결과)의 첫 번째 또는 두 번째 자리수를 이용해 검증하는 방법이다. 널리 사용되는 방법은 개표결과의 끝에서 두 번째 자리 숫자가 벤포드의 법칙(Benford’ Law)에 따르는 패턴을 보이는가를 통해 투표결과를 검증하는 것이다. 벤포드의 법칙은 뉴컴(Newcomb) 등이 경험적으로 발견한 패턴을 1938년 벤포드가 공식화한 것이다. 대부분의 사람들은 우리 주변의 다양한 수치자료를 모아서 분석하면 첫 번째 자리 숫자인 1,2,3,4....,9가 당연히 각각 11.1%의 확률로 나타날 것이라고 생각한다(두번째 자리의 경우 0, 1, 2, ...., 9가 각각 10%). 그러나 실제로 데이터를 모아보면 첫 번째 자리의 숫자가 1인 것이 무려 30%이며, 2에서 9까지 갈수록 점차로 낮아진다는 것이다. 즉, 첫째 자리 숫자가 d(d=1,2,3,...,9)일 확률을 Pr(d)라고 하면 Pr(d)=log(d+1)-log(d)가 성립한다는 것이다. 이 공식을 통해 계산하면 1,2,3,...,9의 확률은 0.301, 0.176, 0.126,...,0.046 등으로 분포한다는 것을 알 수 있다(둘째 자리의 경우는 0,1,2,...,9의 확률이 0.119, 0.114,..., 0.085로 분포하며, 셋째 자리의 경우 0.102, 0.101,..., 0.098의 분포를 보인다). 이러한 방법은 미국 국세청이나 공정거래위원회 등에서 회사 등이 제출한 자료의 검증에 사용되어 왔는데, 최근 들어 러시아, 이란, 멕시코, 터키, 필리핀을 비롯한 많은 나라의 선거결과 분석에 사용되고 있다.
최근의 연구는 실제 개표결과가 벤포드의 법칙에 따른 확률분포에서 벗어나는가의 여부를 넘어서서 이에 영향을 미치는 다른 요인들로 확대되고 있다. 예를 들어, 무효표라든가, 전략적 투표, 게리맨더링, 선거제도가 미치는 영향 등이 새로운 연구영역으로 등장하고 있다. 이 방법은 많은 정보가 가용하지 않은 경우에 유용한 방법이라고 할 수 있다.
이 밖에도 선거부정을 포착하기 위해서 많은 통계방법이 개발, 적용되고 있다. 물론 여기서 소개된 통계를 사용한 기법으로는 포착하기 어려운 다른 형태의 선거부정도 무수히 존재한다. 예컨대 위에서 언급한 특정 집단에 대한 강제적인 투표권 박탈, 게리맨더링, 강제 이주 등에 의한 방법이라든가 단일후보에 대한 찬반투표형의 선거방법, 체계적인 온라인 홍보활동을 통한 유권자에 대한 왜곡된 정보제공 등은 이러한 방법으로 포착하기 어려운 형태의 선거부정이다. 민주주의의 확산 및 심화, 그리고 이에 수반되는 다양한 층위 및 형태의 선거가 도입되는 현실을 고려할 때 선거부정의 가능성도 증가할 가능성이 높다. 이러한 상황에서 선거분석 및 선거부정에 대한 탐색은 데이터 과학이 실제적인 효용을 가지는 분야임에 틀림없다.
참고문헌
Hicken, Allen and Walter Mebane, Jr. 2015. “A Guide to Election Forensics”(http://www-personal.umich.edu/~wmebane/USAID15/guide.pdf).
Myagkov, Mikhail, Peter C. Ordeshook, Dimitri Shaikin. 2009. The Forensics of Election Fraud: Russia and Ukraine. New York: Cambridge University Press.
이슈브리프 18 (다운로드)
* 디지털사회(Digital Society)는 연세대학교 디지털사회과학센터(Center for Digital Society)에서 발행하는 이슈브리프입니다. 디지털사회의 내용은 저자 개인의 견해이며, 디지털사회과학센터의 공식입장이 아님을 밝힙니다.
이병재
연세대학교 디지털사회과학센터 연구교수
100만 퍼센트를 넘는 살인적인 하이퍼 인플레이션과 식량 및 의료물자 등의 부족으로 고통받고 있던 베네수엘라에서 2018년 치러진 선거에서 야권의 승리가 예상되는 것은 당연했다. 하지만, 5월 20일 실시된 대통령 선거에서 마두로(Nicolás Maduro Moros) 후보는 67.8%라는 압도적인 득표율로 대통령에 재선되었다. 야당 후보였던 진보전진당(Avanzada Progresista)의 팔콘(Heni Falcón Fuentes) 후보는 선거 직전 “마두로는 예수와 대결해도 승리할 것이다”라고 주장했다(Guardian, 2019/5/19). 야권을 비롯한 많은 국민들은 물론 국제사회에서도 개표결과가 조작되었다는 의심을 보내고 있다. 사실 선거부정은 베네수엘라에 독특한 현상은 아니다. 2016~8년만 보더라도 우간다 총선, 차드 대선, 적도 기니 대선, 세르비아 총선, 잠비아 총선, 가봉 대선, 미국 대선 및 중간선거, 아르메니아 총선, 터키의 개헌 투표, 러시아 대선, 콩고민주공화국 대선, 나이지리아 대선에서 다양한 종류의 선거부정이 있었다고 의문이 제기되고 있다.
선거 부정에는 실로 다양한 방법이 존재한다. 인구수 조작, 특정 집단의 선거권 박탈, 위협, 매표, 선거 절차나 장소에 대한 잘못된 정보 제공, 인위적으로 투표용지를 복잡하게 만들기(예컨대 2000년 미국 플로리다 마이애미-데이드 카운티의 경우) 또는 등록절차를 복잡하게 만들기, 부정투표, 투표권 없는 사람에게 투표자격 부여, (장애인이나 고령 유권자 등) 도움이 필요한 유권자의 투표 조작, 대리투표 조작(요양원 등), 투표함 파기, 투표 관련 기계의 조작 및 해킹, 신분 사칭, 개표결과 조작 등이 대표적으로 사용되는 방법이다. 그렇다면 선거부정을 포착 및 방지하는 방법은 없을까? 국제기구나 시민단체 등에 의한 선거감시(election monitoring)는 강화되고 있지만, 선거감시는 선거결과의 정확성(부정이나 왜곡이 없는 상태)보다는 선거 진행과정이 공정하고 자유롭게 진행되었는가에 초점이 맞추어져 있다. 개표결과에 대한 왜곡은 감시되기 어려운 문제이다. 점차로 많은 국가와 단체에서 전자투표를 도입하고 있는 시점에 개표에서 발생하는 왜곡은 더 심각할 수 있다.
선거의 정확성(electoral integrity)의 기준은 일차적으로 유권자의 선호가 투표결과로 얼마나 정확하게 반영되는가이다. 콩도르세(M. Condorcet), 애로우(K. Arrow), 라이커(W. Riker) 등의 사회선택 이론가들이 입증한 바와 같이 개인의 선호를 집단의 선호로 “정확”하게 집적하는 것은 사실 불가능한 작업이다. 투표 방식에 따라 또는 투표자의 전략적 투표 여하에 따라 결과가 다르게 나오기도 하고, 후보자 한 사람의 사퇴여부가 여타 후보의 투표 결과에 영향을 미치기도 하며, 선거운동이나 다양한 홍보활동 등에 의해 유권자의 선호도가 순식간에 바뀌기도 하는 상황에서 “정확”하다는 것의 의미마저 정확하지 않은 것이다. 그렇다면, 일단 주어진 제도 하에서 유권자의 선호가 정해진 규칙에 따라 정확히 집계되었는지의 검증은 가능할까? 즉, 개표과정에서 의도적인 조작이 발생했는지의 검증은 가능할까? 대규모의 선거가 짧은 시기에 전국적으로 이루어지고 정부에 의해 집계되는 상황에서 이는 결코 쉬운 일이 아니다. 최근 들어 일군의 정치학자들이 통계기법을 사용하여 선거결과의 부정을 포착하는 간접적인 방법을 개발하고 있는데, 이들은 주로 선거 사후 발표된 정부의 공식 선거결과 데이터를 분석한다.
널리 알려진 방법 중 하나는 Myakgov, Ordeshook, Shaikin 등이 주로 러시아, 우크라이나, 멕시코 북부지역의 선거 부정 여부를 검증하기 위해 사용한 방법으로서, 가능한 한 가장 작은 단위(투표소)로 세부화한 공식선거 데이터를 이용하여 이전 선거에서 나타난 투표율의 경향이나 인구분포 등을 고려해서 볼 때 데이터에서 특이점이 발견되는가를 관찰하는 방법이다. 이들은 주로 투표율의 분포, 각 후보자의 득표율의 지역별 차이, 선거 결과의 시계열적 변화 등에 관련된 데이터를 주로 분석한다.
두 번째 방법은 선거 사후 감사를 실시하는 것이다. 이 방법은 무작위로 추출한 투표용지를 이용하여 공식 투표결과와 비교하는 것이다. 이 방법은 주로 투표 집계 기계에 대한 불신 때문에 사용되는 방법이다. 이 방법은 직접 기표한 투표 용지가 잘 관리된 경우에 가능하다. 이 과정에 필요한 행정적 비용은 만만치 않다. 많은 곳에서 개표에 사용된 투표 기계에서 문제가 발견되었기 때문에 이 또한 중요한 탐색 영역이다.
세 번째 방법은 투표 용지로 인해 발생하는 선거결과 왜곡을 포착하는 방법이다. 이 경우에는 지역 인구데이터와 이전 선거결과를 이용하여 회귀분석을 실행하여 특정 지역이 다른 지역에 비해 특이값(outlier)인가 아닌가를 살펴보는 것이다. 하지만 이러한 분석은 후보자의 수가 매우 많은 경우 정확성을 보장받기 어렵다. 왜냐하면 후보자의 수가 매우 많은 경우 너무나 많은 불확실성이 존재하기 때문이며, 유권자가 전략적으로 투표했을 경우 계산이 매우 복잡해지기 때문이다.
끝으로, Walter Mebane 등이 도입한 방법인데, 하위 단위 개표결과(선거구별 혹은 투표소별 개표결과)의 첫 번째 또는 두 번째 자리수를 이용해 검증하는 방법이다. 널리 사용되는 방법은 개표결과의 끝에서 두 번째 자리 숫자가 벤포드의 법칙(Benford’ Law)에 따르는 패턴을 보이는가를 통해 투표결과를 검증하는 것이다. 벤포드의 법칙은 뉴컴(Newcomb) 등이 경험적으로 발견한 패턴을 1938년 벤포드가 공식화한 것이다. 대부분의 사람들은 우리 주변의 다양한 수치자료를 모아서 분석하면 첫 번째 자리 숫자인 1,2,3,4....,9가 당연히 각각 11.1%의 확률로 나타날 것이라고 생각한다(두번째 자리의 경우 0, 1, 2, ...., 9가 각각 10%). 그러나 실제로 데이터를 모아보면 첫 번째 자리의 숫자가 1인 것이 무려 30%이며, 2에서 9까지 갈수록 점차로 낮아진다는 것이다. 즉, 첫째 자리 숫자가 d(d=1,2,3,...,9)일 확률을 Pr(d)라고 하면 Pr(d)=log(d+1)-log(d)가 성립한다는 것이다. 이 공식을 통해 계산하면 1,2,3,...,9의 확률은 0.301, 0.176, 0.126,...,0.046 등으로 분포한다는 것을 알 수 있다(둘째 자리의 경우는 0,1,2,...,9의 확률이 0.119, 0.114,..., 0.085로 분포하며, 셋째 자리의 경우 0.102, 0.101,..., 0.098의 분포를 보인다). 이러한 방법은 미국 국세청이나 공정거래위원회 등에서 회사 등이 제출한 자료의 검증에 사용되어 왔는데, 최근 들어 러시아, 이란, 멕시코, 터키, 필리핀을 비롯한 많은 나라의 선거결과 분석에 사용되고 있다.
최근의 연구는 실제 개표결과가 벤포드의 법칙에 따른 확률분포에서 벗어나는가의 여부를 넘어서서 이에 영향을 미치는 다른 요인들로 확대되고 있다. 예를 들어, 무효표라든가, 전략적 투표, 게리맨더링, 선거제도가 미치는 영향 등이 새로운 연구영역으로 등장하고 있다. 이 방법은 많은 정보가 가용하지 않은 경우에 유용한 방법이라고 할 수 있다.
이 밖에도 선거부정을 포착하기 위해서 많은 통계방법이 개발, 적용되고 있다. 물론 여기서 소개된 통계를 사용한 기법으로는 포착하기 어려운 다른 형태의 선거부정도 무수히 존재한다. 예컨대 위에서 언급한 특정 집단에 대한 강제적인 투표권 박탈, 게리맨더링, 강제 이주 등에 의한 방법이라든가 단일후보에 대한 찬반투표형의 선거방법, 체계적인 온라인 홍보활동을 통한 유권자에 대한 왜곡된 정보제공 등은 이러한 방법으로 포착하기 어려운 형태의 선거부정이다. 민주주의의 확산 및 심화, 그리고 이에 수반되는 다양한 층위 및 형태의 선거가 도입되는 현실을 고려할 때 선거부정의 가능성도 증가할 가능성이 높다. 이러한 상황에서 선거분석 및 선거부정에 대한 탐색은 데이터 과학이 실제적인 효용을 가지는 분야임에 틀림없다.
참고문헌
Hicken, Allen and Walter Mebane, Jr. 2015. “A Guide to Election Forensics”(http://www-personal.umich.edu/~wmebane/USAID15/guide.pdf).
Myagkov, Mikhail, Peter C. Ordeshook, Dimitri Shaikin. 2009. The Forensics of Election Fraud: Russia and Ukraine. New York: Cambridge University Press.
[디지털사회] 제18호
발행인: 조화순
발행일: 2019년 3월 15일
ISSN 2586-3525(Online)
이슈브리프 18 (다운로드)
* 디지털사회(Digital Society)는 연세대학교 디지털사회과학센터(Center for Digital Society)에서 발행하는 이슈브리프입니다. 디지털사회의 내용은 저자 개인의 견해이며, 디지털사회과학센터의 공식입장이 아님을 밝힙니다.
전체 0
댓글을 남기려면 로그인하세요.