Issue Brief

디지털사회 제57호: AI와 LLM 시대 교육의 도전과 기회

작성자
ssk
작성일
2025-03-10 11:57
조회
118

AILLM 시대 교육의 도전과 기회

 

박상훈(강원대학교 통일강원연구원 선임연구원)

 

교육의 새로운 전환점

 

최근 인공지능(AI)과 대규모 언어모델(LLMs, Large Language Models)이 급속도로 보급되면서, 기존의 학습·연구·행정 업무 전반이 재편되고 있다. 과거 스마트폰이 처음 등장했을 때와 같이 AI와 LLM의 도입 역시 그 흐름을 되돌리기 쉽지 않은 변화임을 체감하게 된다. 이미 상대적으로 대규모 강의가 일반화되고 있는 대학 교육에서 AI와 LLM의 등장은 학습 역량을 높일 수 있는 혁신적 도구의 등장일 수도, 혹은 학습자들의 심층 사고력 발전을 저해하는 제2의 ‘바보상자’의 가능성일 수도 있다. 단순히 기능적 측면뿐 아니라 AI와 LLM 그 자체가 내재하고 있는 편향성과 이들을 사용해 생산한 산출물의 권리 등을 둘러싼 윤리적 쟁점 등도 함께 거론되고 있다. 다양한 의견이 존재하지만 이미 많은 교육기관이 LLM을 활용해 학생 글쓰기와 과제 채점을 지원하고, 교사들의 연구·행정 업무를 보조하며, 새로운 변화를 실험하고 있다. 이 글은 이러한 변화에 따른 사회의 여러 분야 중 교육 분야, 특히 대학 교육에서의 AI와 LLM의 활용을 제안하는 연구를 소개하고, 앞으로 대학 교육이 맞이할 새로운 도전과 미래에 대해 논의하고자 한다.

 

대규모 강의에서 AI 기반 채점과 개인 맞춤형 피드백의 가능성

 

대규모 강의에서 에세이나 서술형 문항을 충분히 평가하기 어려운 문제는 이미 여러 연구에서 반복적으로 지적되었다. 예컨대, 학습자들의 비판적 사고(critical thinking) 능력을 제대로 함양하기 위해서는 단순 지식 암기가 아닌 에세이와 같은 서술형 과제가 필요하다는 주장에도 불구하고(Prince 2004; Olsen and Statham 2005; McCarthy and Anderson 1999), 수십 명에서, 많게는 수백 명에 이르는 학생들이 제출하는 답안을 교수자가 일일이 꼼꼼히 채점하고 그 결과에 대한 피드백을 제공하기란 쉽지 않다. 한편, 채점과 피드백 제공에 드는 시간과 자원의 제약을 외에도 대학 강의 현장에서는 교수자가 교육자·연구자·행정담당자 등 여러 역할을 동시에 수행해야 하는 문제가 존재한다. 에세이 중심의 평가보다는 상대적으로 채점과 오답에 대한 일괄적인 피드백을 제공하기가 쉬운 객관식 평가가 선호되는 현실적 이유도 존재하는 것이다. 그 결과 이미 대학의 많은 대규모 강의에서는 객관식 문항 중심의 평가로 전환하거나(Morrison and Free 2001; Scully 2017), 에세이 과제를 내더라도 형식적이고 단편적인 코멘트만 제공하는 사례가 빈번하다는 지적이 있었다.

과연 AI와 LLM의 도입이 기존 강의에서 학생들의 수 증가에 따른 채점과 개별 학생들의 답에 대한 맞춤형 피드백 제공의 어려움을 해결하는 데 도움을 줄 수 있을까? 이 질문에 대한 답을 구하기 위해 미국의 한 주립대학교에서 두 학기에 걸쳐 정치학과 전공과목들에 대해 무작위 대조 시험(randomized controlled trials)을 수행하였다. 특정 LLM에 지침이 되는 프롬프트(guideline prompt)를 제공하여 교수자의 채점과 피드백 제공을 보조하는 접근법을 취하였다. 교수자(인간 채점자)가 미리 설정한 ‘우수 답안 예시(gold answers)’와 명확한 ‘평가 기준(rubric)’을 모두 같은 버전의 특정 LLM에 학습시키고, 대규모 강의에서 생성되는 다수의 서술형·에세이형 답안을 자동 채점하도록 하는 것이다. 그 결과를 통해 LLM의 AI 기반 채점 및 피드백 제공이 대규모 강의에서도 소규모 세미나 수준의 채점 비용 및 정교한 피드백을 가능하게 할 수 있을 것이라는 기대를 경험적으로 확인하고자 하였다.

구체적으로, 교수자는 ① 질문 내용, ② 평가할 때 중시하는 원칙, ③ 학생 답안에 대한 우수 답안 예시 및 수기 채점 결과와 개별 피드백, ④ 새롭게 채점해야 할 학생의 답안을 LLM에 차례로 입력한다. 이에 LLM은 이미 입력된 예시 답안 채점 결과와 피드백, 평가 기준을 토대로 새 답안을 학습된 문맥에 맞게 채점하고, 문장 단위의 피드백도 생성하는 것이다. 이러한 과정을 통해 대규모 강의에서 요구될 수 있는 교수자의 채점 및 피드백 제공에서의 비용 부담을 줄이는 한편, 서술형 과제 및 개인 맞춤형 피드백을 중심으로 커리큘럼을 구성하여 학생들에게 반복 학습과 비판적 사고 훈련 기회를 확대할 것으로 기대하였다(Prince 2004; Birenbaum and Amdur 1999).

결과적으로 LLM을 활용한 AI 기반 채점과 실제 교수자가 수기로 수행한 채점 간에는 전반적으로 큰 편차가 나타나지 않았다. 오히려 편차의 일관성과 같은 일부 지표에서 AI가 꽤 안정적인 결과를 보여주었다. 나아가 학습자 개개인의 답안에 ‘맞춤형’ 피드백을 제공하는 것에 대해 학생들의 AI 기반 피드백과 수기 피드백 사이 만족도에 유의미한 차별이 나타나지 않았다. 이는 AI를 교육현장에서 활용할 때 학습자가 능동적으로 피드백을 받아들이고 재시도할 수 있도록 구조화한다면, 단순 객관식 정답 확인보다 훨씬 풍부한 학습 경험을 누릴 수 있다는 것을 의미한다(Brown et al. 2020; Wu and Wu 2024). 즉, AI와 LLM이 대규모 강의에서 한정된 (시간적·인적) 자원의 문제를 완화하고 다양한 방식의 교육을 제공하도록 도울 수 있다는 것이다.

다만, AI가 제공하는 피드백이 과연 어느 정도까지 교강사의 세밀한 피드백을 대체할 수 있는지의 문제와 LLM 모델이 학습하는 데이터셋이 지닌 특정 편향이 개별 학생들의 답안 내용에 대한 부정확·불공정한 평가를 야기할 수 있는 가능성은 존재한다. 본 시험에서는 매 시행마다 지침이 되는 프롬프트를 새로운 LLM 창에 입력하는 방식을 활용하였기 때문에(Brown et al. 2020; Noy and Zhang 2023), 여기에서 지적하는 편향은 LLM 플랫폼별로 기본적인 분석 알고리즘에 내재할 수 있는 편향을 의미한다(Rozado 2024; Kim and Pelc 2021). 이러한 문제를 방지하기 위해서는 교수자가 정기적으로 채점 대상이 되는 과제들을 무작위로 표집하여 검토하는 과정이 필요할 것으로 보인다.

 

AILLM, 교육의 혁신 방향과 과제

 

스마트폰이 도입되던 시기, 일부 학교나 조직이 “학습 집중도를 해친다”는 이유로 휴대전화 사용을 전면 금지하려 했지만, 결국 스마트폰의 확산은 우리 사회 전반에 걸쳐 이루어졌고 이제는 떼려야 뗄 수 없는 일상의 가장 필수적인 도구로 자리 잡았다. 이처럼 AI와 LLM 역시 기술 자체에 대한 불신 혹은 이러한 기술이 교육에 미칠 부정적 영향 등에 대한 우려가 제기되기는 하지만 전반적인 AI와 LLM의 교육 분야로의 확산 흐름은 이미 여러 분야에서 가시화되고 있다. 캐나다의 경우, 고등학교 수준에서 학생들의 질문을 실시간으로 처리해주는 AI 조교(AI teaching assistant)를 제공하는 AI 에드테크(EdTech) 서비스가 시작되었다(https://www.alldayta.com/ 참조). 해당 서비스는 교수자가 강의 콘텐츠를 통제하면서도, 사소한 질문에서부터 복잡한 학술 토론까지 즉각적으로 대응할 수 있도록 돕는다는 점을 장점으로 내세우고 있다. 이러한 시도는 AI가 교육 현장 교수자의 주도권과 전문성은 유지하면서도 학생들에게는 더욱 개인화된 학습 환경을 제공하는 기회를 열어줄 수 있다는 기대에 바탕을 두고 있다.

해당 연구를 마치고 논문을 투고한 지 약 반년 사이에도 많은 변화가 있었다. LLM의 대표주자인 ChatGPT, Claude, Gemini, Grok, Perplexity 등은 주 단위로 업데이트를 수행하며 새로운 모델들을 제시하고 있다. 특히, 추론형 모델을 위시한 심층 연구(deep research) 기능은 기존의 교육 방식에 비가역적인 변화를 요구하고 있다.

교육 현장에서 AI와 LLM의 도입은 스마트폰 혁명에 비견될 만한 전환점이자 막을 수 없는 시대적 흐름이다. 이 흐름을 외면하거나 무조건 경계하기보다, 오히려 적극 수용하되 비판적이고 책임감 있게 활용할 방안을 찾는 것이 현실적이고 지혜로운 선택일 것이다. AI와 LLM은 대규모 강의에서도 소규모 세미나처럼 맞춤형 피드백과 에세이 중심 평가를 가능하게 함으로써 심층적 학습 경험을 확장할 잠재력이 있지만, 비판 없이 의존할 경우 편향된 평가나 학습자의 비판적 사고력 저하라는 부정적 결과를 초래할 수 있다. 따라서 AI와 LLM의 활용은 인간 평가자의 일정 비율 표본 재검토, AI 피드백을 기반으로 하는 창의적이고 협력적인 학습 활동 등, 철저히 의식적이고 전략적인 교수학습 설계를 통해 이루어져야 한다.

우리가 무의식적 사색가(unconscious thinker)가 되는 것을 경계하고, 오히려 의식적 사색가(conscious thinker)로서의 훈련과 디지털 리터러시 및 윤리 교육을 통해 이 기술을 적극 활용한다면, AI와 LLM은 교육의 질을 높이고 교육 불평등을 완화하며 새로운 학습 기회를 여는 계기가 될 수 있을 것이다. 결국, AI와 LLM 시대의 교육에서 “모험적으로 혁신할 것인가, 아니면 익숙함 속에서 뒤처질 것인가”라는 물음의 답은 우리의 의식적 노력과 실천에 달려 있다.

 

* 이 글은 현재 수정 후 재제출(revise and resubmit) 중인 원고, Heinrich, Tobias, Spencer Baily, Kuan-wu Chen, Jack DeOliveira, Sanghoon Park, and Navida Chun-han Wang. 2025. “AI-Assisted Grading and Personalized Feedback in Large Political Science Classes: Results from Randomized Controlled Trials.”의 내용을 일부 포함하고 있습니다.


참고문헌


Birenbaum, M., & Amdur, L. (1999). Reflective Active Learning in a Graduate Course on Assessment. Higher Education Research & Development, 18(2), 201-218.

Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models Are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877-1901.

Bansak, K. (2021). Estimating Causal Moderation Effects with Randomized Treatments and Non-Randomized Moderators. Journal of the Royal Statistical Society: Series A (Statistics in Society), 184(1), 65-86.

Kim, S. E., & Pelc, K. J. (2021). The Politics of Trade Adjustment versus Trade Protection. Comparative Political Studies, 54(13), 2354-2381.

McCubbins, M. D., & Schwartz, T. (1984). Congressional Oversight Overlooked: Police Patrols versus Fire Alarms. American Journal of Political Science, 28, 165-179.

McCarthy, J. P., & Anderson, L. (1999). Active Learning Techniques versus Traditional Teaching Styles: Two Experiments from History and Political Science. Innovative Higher Education, 24(4), 279-294.

Morrison, S., & Free, K. W. (2001). Writing Multiple-Choice Test Items that Promote and Measure Critical Thinking. Journal of Nursing Education, 40(1), 17-24.

Olsen, J., & Statham, A. (2005). Critical Thinking in Political Science: Evidence from the Introductory Comparative Politics Course. Journal of Political Science Education.

Prince, M. (2004). Does Active Learning Work? A Review of the Research. Journal of Engineering Education, 93(3), 223-231.

Rozado, D. (2024). The Political Preferences of LLMs. PLOS ONE, 19(7), e0306621.

Scully, D. (2017). Constructing Multiple-Choice Items to Measure Higher-Order Thinking. Practical Assessment, Research, and Evaluation, 22(4).

Wu, N., & Wu, P. Y. (2024). Surveying the Impact of Generative Artificial Intelligence on Political Science Education. PS: Political Science & Politics.


디지털사회(Digital Society)는 연세대학교 디지털사회과학센터(Center for Digital Social Science)에서 발행하는 이슈브리프입니다. 디지털사회의 내용은 저자 개인의 견해이며, 디지털사회과학센터의 공식입장이 아님을 밝힙니다.
전체 0