Issue Brief

디지털사회 제43호: AI 민주화와 대규모 자연어 모델(LLM)의 개발

작성자
ssk
작성일
2022-12-08 07:24
조회
1252

AI 민주화와 대규모 자연어 모델(LLM)의 개발

                             최은창(MIT 테크놀로지리뷰)

 

들어가며

최근 들어 데이터와 AI의 ‘민주화’를 향한 움직임이 늘어나고 있다. 엔터프라이즈 IT에 한정하여 살펴보면 AI 민주화란 비즈니스 조직의 직원들이 AI를 이용하고 혜택을 받을 수 있도록 전환하는 것이다. 이는 AI 민주화가 더 많은 혁신과 생산성 극대화를 가능하게 할 것이라는 기대를 전제로 한다. 기업 내에서 AI 민주화를 강조하는 현상은 데이터 분야 전문인력의 부족과도 관련되어 있다. 관점을 넓혀보면, AI의 민주화는 누구나 쉽게 AI 도구를 사용할 수 있는 기술 대중화 시대를 열고 AI 기술로 사회적 선(social good)을 실현한다는 의미를 가진다.

 

AI 민주화’라는 수사법

현재 많은 IT 기업들은 ‘AI 민주화’라는 표현을 대외적 비즈니스 홍보에 빈번히 사용한다. ‘민주화’라는 단어는 여러 의미로 해석될 수 있지만 기업들이 주장하는 ‘머신러닝의 민주화’, ‘AI 민주화’는 자신들이 개발한 오픈소스 데이터 세트, AI 도구, 고성능 컴퓨팅 플랫폼에 대한 접근성 확대라는 의미로 이해된다. 그 주안점은 모든 사람들이 사용할 수 있는 공개적 기술 도구, 서비스, 플랫폼에 초점이 맞추어져 있다.

마이크로소프트의 CEO 샤티아 나델라는 지난 2019에 “누구든지 AI를 사용할 수 있는 민주화 시대가 도래했다”고 말했다. ‘AI 민주화’라는 수사법은 마치 AI 민주화와 대중화가 글로벌 빅테크의 손에 달려있다는 착각마저 들게 한다. AI의 민주화는 AI 기술에 대한 정보격차를 메꾼다는 점에서 바람직한 미래 방향과 지향점이라고 할 수 있다. 그렇지만 빅테크 기업들이 민주화를 어떻게 정의하는지는 불분명하다.

 

빅테크의 정치경제학과 민주화 슬로건

오늘날 AI 기술의 영향력은 전 세계에 걸쳐 경제적 활동, 문화, 사회적 활동에도 침투하고 있다. 기술적 실업의 발생, 자동화된 판단의 편향(bias), 공적 자원 배분에 있어서 차별, 인종과 피부색에 따른 안면 인식률의 차이와 오류 등 AI로 인한 부정적 효과를 고려한다면 AI의 민주화는 기술에 대한 접근성 확대만이 아니라 평등(equality)이라는 민주적 가치의 실현에도 기여할 수 있다.

그러나 빅테크 기업들이 말하는 AI 민주화는 민주적 가치의 진정한 실현보다는 기업 이미지를 위한 슬로건에 그치고 있는 것이 사실이다. 빅테크 기업들은 AI의 상업적 활용과 글로벌 시장에서의 패권 확보를 최우선 순위로 하여, 최대한의 경제적 가치를 창출할 수 있는 데이터를 모으고 분석하기 위해 AI 시스템 개발에 막대한 투자를 하고 있다. 심지어 최근 빅테크 기업들의 AI 시스템과 알고리즘은 자유, 평등, 투명성 등의 민주적 가치를 위협하는데 활용되고 있는데, 경제적 이익의 극대화를 위해 독점적 시장을 구축하는 한편, 선거철에는 소셜 미디어에 범람하는 가짜 뉴스를 방치하여 분열을 조장하였고, 유권자 5천만명의 데이터를 사용자들의 동의 없이 트럼프 선거캠프에 넘겼던 캠브리지 애널래티카(Cambridge Analytica)와 같은 사건도 있었다.

이른바 ‘플랫폼 자본주의(platform capitalism)’로 불리는, 데이터를 무차별적으로 끌어모아 상업적 목적에 사용하는 빅테크 기업들의 행태는 많은 사회적 비판에 직면하고 있다. 페이스북 · 구글 · 아마존 · 트위터 CEO들은 미국 상원 청문회에 출석하여 경쟁자들을 짓누르는데 자신들의 권력을 남용했고, 민주주의를 위협했다는 비판을 받았고, 미국 의회는 빅테크의 시장 지배력을 제한하는 법안을 논의 중이다. 빅테크의 내부 고발자들은 수익화를 위해 반사회적 행위를 주저하지 않는 빅테크 기업들의 행태를 고발하여 큰 파장을 불러일으켰다. 이와 같은 현실을 고려할 때 빅테크 기업들이 AI 기술을 모두에게 개방하겠다는 방향설정은 바람직하지만 AI 민주화를 마치 기업의 핵심가치인 것처럼 전면에 내세우는 것은 부자연스럽고 과장된 측면이 있다.

 

AI 민주화의 어려움

왜 AI 기술에 민주화가 필요하며, 과연 무엇이 민주화되어야 하는가를 살펴보자. AI 연구개발에는 필연적으로 ‘컴퓨팅 파워의 격차’가 수반되므로 엘리트 대학들과 자본력이 풍부한 IT기업들에게 성과가 집중되기 쉽다. 이처럼 컴퓨팅 파워에 대한 불평등한 접근이 AI 연구와 지식생산의 우위를 결정하는 불균형은 시간이 갈수록 점차 구조적으로 심화되고 있다. 예컨대, GPT-3를 학습시키는 데에는 1천만 달러가 넘는 비용이 필요했을 것으로 추산된다. 풍부한 연구비를 확보한 연구기관들과 몇몇 빅테크 기업을 제외하고는 감당이 어려운 수준의 금액이다. 요컨대, AI 기술이 요구하는 막대한 개발 비용과 컴퓨팅 인프라는 AI 민주화의 달성을 더욱 어렵게 한다.

민주주의는 민주적 통제까지 포함하는 개념이기 때문에, 진정한 의미의 AI 민주화라면 AI 기술에 대한 평등한 접근뿐만 아니라 AI의 영향을 받는 사람들이 그 사용에 대한 ‘통제’와 ‘거버넌스’에 참여할 수 있는 절차까지 마련될 필요가 있다. 특히 공적 영역에 널리 적용되는 AI 시스템에 대한 통제와 거버넌스가 필수불가결하다고 보는 논자들은 AI 민주화를 ‘접근성’이나 ‘활용성’이 아닌 AI 기술에 대한 실질적 ‘통제’의 측면으로 이해한다. 대표적으로 Julia Powles와 Helen Nissenbaum은 사람들의 삶에 통합된 모든 AI 시스템에 대해 시민들과 공익 대표자들은 이의를 제기하고 설명과 수정을 요구할 수 있어야 한다고 주장한다. 이런 맥락에서, 설명가능한 AI, 신뢰가능한 AI, 책임있는 AI를 개발하려는 시도는 AI 민주화와도 필연적으로 연결된다.

그러나 AI 민주화에 대한 회의적 시선들 또한 존재한다. 인공신경망(ANN) 자체가 본질적으로 불투명한 기술이므로 공평성, 투명성, 참여 등 민주주의 원칙을 관철시키기에는 무리가 따를 수 있다는 것이다(Sudmann 2019). 또한 알고리즘은 산술적 연산에 불과하므로 그에 대한 민주적 통제가 가능하지 않다는 회의론도 등장하고 있다. 요하네스 힘멜라이히(Johannes Himmelreich)는 AI 민주화의 개념이 애초부터 모호하다고 비판하며, 또한 현실 정치에서조차 민주주의의 이상과 현실 사이의 갭(gap)이 발생하는 점을 감안한다면 AI 기술에 민주화의 가치를 적용하기란 어려울 수 있다고 본다(Himmelreich 2022).

 

데이터 과학의 민주화

그럼에도 불구하고 AI 민주화는 많은 영역에서 조금씩 진전을 보여주고 있다. 디지털 경제에서는 데이터의 양극화와 압도적 컴퓨팅 파워를 바탕으로 부가 편중되는 문제가 생겨날 수 있으나 AI 민주화는 모두에게 AI 기술에 대한 접근을 용이하게 해준다. 데이터 분석과 머신러닝에 특화된 클라우드 플랫폼, 쥬피터 노트북, Auto ML, GPT-3, BLOOM, OPT-175B 등 대규모 자연어 모델(LLM)의 경우가 대표적이다. 최근 알리바바(Alibaba)의 다모 아카데미(DAMO)는 대규모 사전 학습 모델을 포함한 수백 건의 AI 모델들을 누구든지 이용 가능하도록 오픈소스로 공개하였다.

전문적 지식 없이 적은 비용으로 AI를 이용하도록 돕는 활동은 빅테크 기업들뿐만 아니라 MIT를 포함한 대학들, 포용적(inclusive) AI를 추구하는 비영리단체들에 의해서도 진행되고 있다. 다시 말해 AI 민주화는 다양한 참여자들에 의해 형성된 흐름이라고 할 수 있다. 예컨대 1천 명의 연구자들이 참여한 빅사이언스(BigScience) 협업 연구 프로젝트는 대규모 다중 언어모델 BLOOM을 개발하여 오픈소스로 공개했다. 또한 MIT 대학원생들은 몇 줄의 코드만 작성하면 금융 동향, 질병 확산 등에 대한 데이터 분석 모델을 자동으로 생성하는 도구를 개발했다. 그 결과 전문적 교육을 받지 않았더라도 충분한 데이터와 사용자 친화적 분석도구만 있다면 정교한 통계 모델을 생성할 수 있게 되었다. 이와 같은 흐름은 ‘데이터 과학의 민주화’를 앞당길 것으로 보인다. 데이터 분석에 대한 전문적 지식 없이도 분석도구가 적합한 분석 기법을 자동적으로 선택하고, 데이터 분석 영역의 특수성을 고려한 데이터 추출도 자동화되었기 때문이다.

 

AI 민주화가 확대된다면

AI 민주화를 통해 AI 시스템을 구축하는데 필요한 지식, 도구, 데이터를 쉽고 저렴하게 구할 수 있다면 더 많은 혁신이 가능하다. 이를테면, 빅테크 기업들이 아닌 중소기업들도 공개된 AI 모델을 미세 조정하여 맞춤형 AI 애플리케이션을 개발할 수 있다. 또는 케글(Kaggle)에서 오픈소스 데이터 세트를 다운로드받고, 아마존 웹서비스(AWS), 마이크로소프트 애저(Azure), 구글 클라우드 플랫폼(GCP)에서 AI 애플리케이션을 훈련하면 투입되는 비용은 크게 줄어들게 된다.

깃허브(Github)에서 공개적으로 공유되는 데이터 세트는 데이터 민주화의 전형을 보여준다. 2020년 이후 깃허브에서는 COVID-19와 관련된 방대한 데이터 세트와 연구성과도 오픈소스로 공유되었는데 백신 개발에 결정적 도움을 주었다. 머신러닝 학습 알고리즘도 민주화되는 추세이다. 영세한 중소기업이 오픈소스 데이터세트를 사용하여 클라우드에서 AI모델을 훈련할 수 있다면 훈련에 소요되는 비용을 최소화하면서도 강력하고 유용한 AI 시스템을 구축할 수 있다.

바이오 공학, 의료 분야의 AI 민주화는 의료 접근성 확대라는 긍정적 효과로 이어지게 된다. 예컨대, 중환자실의 패혈증 환자를 치료하는 더 나은 방법을 시간과 비용이 상당히 필요한 임상시험이 아니라 개방형 MIMIC 데이터베이스를 통해 발견한 사례도 있다. MIT 컴퓨터 생리학 연구소가 개발한 MIMIC 데이터베이스로 중환자들의 의료 데이터를 익명화 · 표준화하여 공유한 결과 패혈증 환자의 높은 생존율을 예측하는 강화학습 모델이 개발될 수 있었다. 사회과학 분야도 AI의 민주화가 시도되고 있다. MIT 미디어 랩이 개발한 ‘튜링 박스(Turing Box)’ 플랫폼은 AI 알고리즘이 실행되면서 내놓은 아웃풋을 관찰하는 목적으로 사용된다. 그러므로 컴퓨터 과학자가 아니어도 누구나 비윤리적 AI 알고리즘의 행태를 찾아내고 투명성 수준을 평가할 수 있다.

 

대규모 자연어 모델(LLM: Large Language Model)의 AI 민주화 수준

오픈AI(OpenAI)의 GPT-3와 구글의 LaMDA는 대형 언어모델이며 방대한 텍스트 데이터를 기반으로 훈련이 이루어지는 딥러닝 알고리즘이다. 그러나 훈련과정에 사용한 데이터와 언어모델 코드를 공개하지 않았기에 어떤 방식으로 학습을 거쳤는가를 외부에서는 알 수 없다. 첨단의 대규모 자연어 언어 모델을 개발하는 기업들 대다수는 언어모델이 작동하는 방법에 대한 정보를 공개하지 않고 비밀성과 배타성을 유지한다. 반면, OPT-175B를 개발한 메타 AI는 사전학습 모델, 코드, 로그북까지 공개했고 언어모델 개발 과정을 담은 미팅 기록까지 공개했다. OPT-175B 이용은 상업적 목적으로도 가능하고, 무료이지만 사용자는 미리 요청해야 한다.

전 세계 1천 명의 AI 연구자들이 협업한 국제 프로젝트 빅사이언스(BigScience)는 대규모 자연어 모델 BLOOM을 개발하고 학습 데이터, 코드, 모델의 성능평가 방법까지 공개했다. 언어모델을 학습시키려면 고가의 컴퓨팅 파워와 방대한 데이터가 필요하다. BLOOM는 프랑스 국립과학연구원(CNRS)이 제공한 수퍼 컴퓨터를 이용하고 협업한 AI 연구자들로부터 다양한 언어의 데이터 세트로 훈련하는 방식으로 문제를 해결했다.

GPT-3, LaMDA의 언어는 영어만이 가능하지만 BLOOM은 전 세계 46개 언어로 이용할 수 있다. 다만, 한국어는 제외되어 있다. GPT-3, LaMDA, OPT-175B를 이용하려면 사용자가 미리 요청을 해야만 하지만, BLOOM은 누구든지 자유롭게 다운로드 받아 상업적 애플리케이션 개발이나 연구 목적으로 이용할 수 있다. BLOOM은 이용자의 책임성과 윤리적인 측면에서도 좀 더 진전된 AI 민주화의 모습을 보인다. BLOOM는 언어 모델의 오남용 방지를 위해 책임 있는 AI 라이선스, 윤리 헌장을 개발하여 BLOOM 사용자들에게 공지하였다.

마사카네(Masakhane)는 아프리카 대륙의 토착 언어, 아랍어 방언, 지역별 영어 사용법을 포함한 2천 개 언어를 자동적으로 기계 번역하는 것으로 목표로 삼은 오픈소스 프로젝트이다. 마사카네는 “함께한다”는 의미의 줄루어이다. 다양한 언어로 사용가능한 AI 모델은 가난한 나라의 AI 연구자들에게 커다란 도움이 된다. 머신러닝을 통해 아프리카의 고질적 언어 장벽이 제거된다면 아프리카의 디지털 경제 또한 활발하게 작동할 것으로 기대된다.

 

대규모 자연어 모델의 AI 민주성 비교
  분류  GPT-3  LaMDA  OPT-175B   BLOOM
  개발자  오픈AI  구글   메타   빅사이언스
  파라미터  1,750억개  1,370억개 1,750억개 1,760억개
  언어  영어  영어 영어 46개 언어
  접근성  요청 후 이용  요청 후 이용 요청 후 이용 제한 없음
  사용료  유료  무료   무료   무료
  사용범위  배타적 독점권  비상업적 이용 상업적 이용 상업적 이용
  언어모델 코드  비공개  비공개   공개   공개
  로그북(버그,오류)  비공개  비공개   공개   공개
  성능평가 방법  비공개  비공개   비공개   공개
  윤리 헌장  없음  없음   없음   있음
  책임 라이선스  없음  없음   없음   있음
* 필자 작성 (2022.11.8)

한편 대규모 자연어 모델의 개방화, 민주화 흐름에 역행하는 사례 또한 존재한다. 오픈AI는 자연어 모델 GPT-3의 이용을 유료화하고, 마이크로소프트에게 독점적 라이선스를 부여하였다. 마이크로소프트는 독점 라이선스를 통해 GPT-3를 자사 제품과 서비스 개발에 활용 중이다. GPT-3를 수익 사업으로 전환한 오픈AI의 선택은 지난 2016년에 공개한 AI 민주화 계획과는 상반되는 행보로 여겨진다.

종합적으로 대규모 자연어 모델들의 ‘AI 민주성’의 정도를 평가하자면 BLOOM과 마사카네가 가장 높은 점수를 받을 수 있다. 두 모델 모두 투명하게 코드와 작동 메커니즘을 공개하고, 접근성에 있어서도 비용을 요구하지 않으며 모든 이용자들에게 평등한 기회를 부여하고 있다. 물론 이와 같은 장점에도 불구하고 BLOOM과 마사카네 등의 모델들에게도 여전히 해결해야 할 많은 과제들이 존재한다. 특히 현재의 오픈 엑세스가 가능한 자연어 모델들은 편향, 설명 불가능성, 안전, 사실적 정확성 등의 결함에서 자유롭지 못하다. 이를테면 GPT-3는 복잡한 문장을 작성하고 프로그램 코드까지 생성하는 성능을 선보여 놀라움을 안겨주었지만 인종차별, 성차별, 해악적 표현 때문에 윤리적 우려를 불러일으켰다.

 

나가며

많은 IT 기업들은 자신들의 AI 도구, 데이터 세트, 플랫폼에 대한 접근성 확대와 홍보를 위해 ‘모두를 위한 AI‘ 또는 ‘AI 민주화’ 등을 슬로건으로 사용하였지만, 실제 빅테크 기업들의 모습은 민주적 가치의 실현과 거리가 멀었다. 그럼에도 불구하고 적지 않은 숫자의 테크기업들과 다수의 협업 연구 프로젝트, 비영리연구소, 대규모 협업 오픈소스 프로젝트, 대학교 등은 AI 연구성과를 제한 없이 모두에게 공개함으로써 AI 민주화에 기여하고 있다. AI 민주화는 신기술의 혜택을 공평하게 누리도록 하고 AI 대중화의 시대를 열었다는 점에서 바람직한 흐름으로 평가된다. 첨단 AI 기술에 누구든지 쉽게 공평하게 접근할 수 있는 여건의 조성은 AI 개발 문화에 긍정적 영향을 미칠 것이다.

국내 다수의 IT 기업들도 한국어 기반 초거대 AI를 구축하기 위한 경쟁에 뛰어들었다. 모델의 파라미터 수는 성능의 가늠자가 되므로 ‘규모’를 키우기 위한 물밑 경쟁이 치열하다. 그러나 규모에 대한 경쟁 속에 경제적 가치 이외의 민주적 가치의 실현이나 AI의 활용에 수반되는 책임성 등에 대한 고민이 없는 부분은 아쉽다. 초거대 AI 모델이 동시에 AI 민주화와 대중의 접근성을 충분히 고려할 수 있도록 기업들뿐만 아니라 정부, 학계, 시민사회 모두의 많은 관심이 필요하다.

 

<참고문헌>

Heaven, W. D. 2022. "Meta has built a massive new language AI—and it’s giving it away for free." MIT Technology Review. May 3, 2022.

https://www.technologyreview.com/2022/05/03/1051691/meta-ai-large-language-model-gpt3-ethics-huggingface-transparency/

Heikkilä, Melissa. 2022. “Inside a radical new project to democratize AI.“ MIT Technology Review. July 12, 2022.

https://www.technologyreview.com/2022/07/12/1055817/inside-a-radical-new-project-to-democratize-ai/

Himmelreich, J. 2022. “Against “Democratizing AI”.” AI & Society.

Sudmann, Andreas. (ed.) 2019. The Democratization of Artificial Intelligence: Net Politics in the Era of Learning Algorithms. Transcript Publishing.

 

 

 

 

 

 

디지털사회(Digital Society)는 연세대학교 디지털사회과학센터(Center for Digital Social Science)에서 발행하는 이슈브리프입니다. 디지털사회의 내용은 저자 개인의 견해이며, 디지털사회과학센터의 공식입장이 아님을 밝힙니다.
전체 0