디지털사회 제69호: 고등교육에서의 AI 리터러시 측정과 평가: 새로운 교육 지표의 필요성과 방향
작성자
ssk
작성일
2026-01-05 14:21
조회
190
고등교육에서의 AI 리터러시 측정과 평가: 새로운 교육 지표의 필요성과 방향
강근영 (연세대학교 문헌정보학과 박사후연구원)
AI 시대 고등교육의 새로운 도전
생성형 AI 출시 이후 고등교육 현장은 급격한 변화를 겪고 있다. AI 도구는 단순한 검색을 넘어, 글쓰기와 코딩, 데이터 분석 등 학습의 거의 모든 영역에 활용되고 있으며, 이는 더 이상 일부 전공이나 특정 학생들만의 이야기가 아니게 되었다. 동시에 산업 현장에서도 변화가 일어나고 있다. 메타는 2026년부터 직원 성과 평가에서 AI 주도 영향력(AI-driven impact)을 평가할 예정이다. 메타가 성과와 연결시키고자 하는 AI 주도 영향력은 AI를 활용해서 얼마나 영향력을 만들어냈는지이며, 성과 평가 기준 자체를 바꾸고 있다고 해석할 수 있다. 즉 AI 역량이 선택적 기술이 아닌 필수 직무 역량으로 부상하고 있음을 보여준다. 그러나 급속한 AI 도구 확산과 활용에도 불구하고, 학습자들의 실제 AI 활용 수준이나 리터러시 수준은 표면적 사용에 머무르는 경우가 많다는 지적이 제기되고 있다. 즉, AI를 ‘도구’로는 사용하지만 ‘협력적 파트너’로 활용하지 못하는 역량 격차가 존재한다.
이러한 변화는 산업 현장과 맞닿아 있는 고등교육에 근본적인 질문을 던진다. 학생들이 AI를 사용하고 있다는 것은 명확하지만, 학생들이 AI를 제대로 이해하고 비판적으로 활용하고 있는가? 교육학에서의 논의 중 ‘평가가 학습을 이끈다(Assessment drives learning)’는 통찰을 고려할 때, 우리가 무엇을 어떻게 측정하느냐는 학생들이 무엇을 배우게 되느냐를 결정하게 된다.
그렇다면 고등교육에서는 AI 리터러시를 무엇으로, 어떻게 측정할 것인가. Long과 Magerko(2020)는 AI 리터러시를 "AI 기술을 비판적으로 평가하고, 효과적으로 소통하며, AI를 활용한 도구로 작업할 수 있는 능력의 집합"으로 정의했다. 그러나 이 정의를 구체적인 측정 도구로 구현하는 것은 여전히 도전 과제다. 연구자들은 다양한 측정 도구를 개발하고 실험하고 있다. 그 중 Almatrafi 외의 연구(2024), Lintner의 연구(2024) 등은 최근까지 개발된 AI 리터러시 측정 도구를 분석하였으며, 각 연구마다 서로 다른 정의와 측정 차원을 사용하고 있음을 확인하였고, 대부분의 도구들이 자기보고식 측정에 의존하여 실제 역량 측정의 한계가 지적되었다. 이러한 한계를 종합하여, 세 가지 문제를 도출해볼 수 있다. 첫째, 정적 측정의 한계이다. 일회성 평가로는 AI와의 상호작용이라는 동적 과정을 포착하기 어렵다. 둘째, AI 리터러시의 복합적인 특성을 하나의 척도로 환원하기 어렵다. 셋째, 자기보고식 측정인 경우가 대부분이어서, 실제 수행 능력과 인식된 능력 간의 괴리가 크다.
이러한 문제 의식을 바탕으로, 새로운 접근들이 등장하고 있다. Jin 외(2025)는 GLAT(Generative AI Literacy Assessment Test)를 개발하였다. 20개 객관식 문항으로 구성된 수행 기반 평가 도구로, 355명의 고등교육 학습자를 대상으로 한 검증에서 자기평가보다 실제 생성형 AI 과제 수행 능력을 더 정확히 예측했다. Soto-Sanfiel 외(2025)는 총 56개 문항을 네 가지 핵심 영역으로 구성하여, 개인이 인지하는 리터러시 역량이 아닌, 사실적인 지식을 측정하는 데 중점을 두는 측정 도구를 개발하였다. Ng 외(2024)는 AI 리터러시를 정서적(Affective), 행동적(Behavioral), 인지적(Cognitive), 윤리적(Ethical) 차원으로 구분한 ABCE 프레임워크와 함께 측정 도구를 개발하였다. 다른 리터러시 측정 도구가 기술이나 지식 중심의 접근을 했던 것과는 달리, 학습자의 태도와 윤리적 성찰을 중요하게 다뤘으며, 인지적 차원에서도 단순한 지식 습득이 아닌 "AI와 함께 사고하는 능력"을 강조했다.
이처럼 AI 리터러시의 복합적 특성에 대한 이해가 깊어짐에도 불구하고, 현재의 측정 도구들은 여전히 한계를 보인다. 우리에게 필요한 것은 결과가 아닌 과정을, 산출물이 아닌 사고를 평가하는 새로운 측정 방법론이다. 전통적 평가가 최종 제출물만 평가했다면, 이제는 학습 과정을 추적하여 학생의 사고와 성장을 증명할 수 있는 방향으로 평가 전략을 설계해야 한다.
AI 리터러시 측정 방법론: 네 가지 방법들 간의 시너지
이에 2024-2025년 최신 연구 성과들을 종합하여 상호 보완적인 네 가지 방법론을 제안하고자 한다.
첫째, AI 리터러시 진단 및 측정 도구는 제안하고자 하는 방법론의 출발점 역할을 한다. 자기보고식 설문 측정의 한계를 극복하기 위해 수행 기반 평가나 AICOS(Markus et al., 2025)와 같은 객관적 측정 도구들을 개발하고 있다. 이러한 진단 도구들은 학습자의 현재 AI 리터러시 수준을 파악하여, 이후 포트폴리오 평가 설계나 온톨로지 기반의 역량 매핑, 자연어 처리 분석의 기준점을 제공할 수 있다.
둘째, 프로젝트 기반 포트폴리오 평가 시스템은 진단 결과를 바탕으로 실제 AI 활용 역량을 심층 평가할 수 있다. 2025년 발표된 FACT 프레임워크(Foundations, Applications, Co-production, Transformative thinking)는 이러한 접근을 구체화한다. 이 프레임워크는 기초 단계에서 AI 없이 수행하는 과제로 학습자의 기본 역량을 확인하고, 적용 단계에서 AI와 협력하여 복잡한 문제를 해결하며, 공동생산 단계에서 AI를 ‘인지적 파트너’로 활용하여 새로운 지식을 창출하고, 변혁적 사고 단계에서 AI의 사회적 영향을 비판적으로 성찰할 것을 제안한다. 루브릭은 프롬프트 엔지니어링, 결과 검증 과정, 인간의 독창적 기여, 윤리적 고려사항, 협업 과정의 5개 영역으로 구성되며, 평가자 간 신뢰도는 높은 수준으로 보고되었다(Elshall & Badir, 2025). 어떤 포트폴리오 평가 체계든 구성주의 학습이론과 형성 평가 원리에 이론적 기반을 둔다면, Black과 Wiliam(1998)의 ‘학습을 위한 평가’ 개념처럼, AI 리터러시 측정이 일회성이 아닌 지속적 역량 개발의 과정으로 설계될 수 있을 것이다.
셋째, 온톨로지 기반 체계적 역량 구조화 시스템은 개별 평가 결과들을 의미 있는 패턴으로 연결할 수 있다. 예를 들어, AI Literacy Heptagon 프레임워크(Hackl, Mueller, & Sailer, 2025)는 7개 핵심 차원(기술적 이해, 비판적 평가, 실용적 적용, 윤리적 고려, 통합 기술, 법적 규제 지식, 창의적 활용)을 제시하였다. 온톨로지를 활용하여, 그들 간의 복합적 관계를 온톨로지로 모델링할 수 있다. 이러한 구조화된 지식 체계는 학습자의 역량 프로파일을 다면적으로 분석할 수 있고, 개별 학습자에게 적합한 발달 경로를 체계적으로 제안할 수 있다. 또한 다수의 학습자에 대한 데이터를 축적하여 AI 리터러시 발달의 일반적인 패턴과 개별적인 편차를 동시에 파악하는 기반을 제공할 수 있다.
넷째, 자연어 처리 기반 자동 평가 방식을 제안한다. 대규모 텍스트 데이터에서 학습자의 사고 과정을 자동으로 분석하는 방식으로, 이는 "AI가 제안한 아이디어를 그대로 받아들이기보다는 추가적인 근거를 찾아보았다"와 같은 문장에서 비판적 사고의 징후를 탐지하고, "개인정보가 포함된 데이터를 AI에 입력하는 것이 적절한지 고민했다"에서 윤리적 성찰을 인식할 수 있는 식의 자연어 처리 기반 방식을 제안한다.
마지막으로, 다면 평가 시스템은 앞선 방법론의 결과를 통합하여 최종적인 AI 리터러시 수준을 판정한다. Ng 외(2024)의 연구에서 동료 평가, 자기 평가, 교수 평가를 결합한 ABCE 기반 다면 평가는 개별 평가 대비 측정 타당도를 18% 향상시킨 바 있다. 설문 하나만으로 평가하기에는 다차원적 특성이 강한 것이 AI 리터러시이기 때문이다.
평가 혁신을 통한 교육 생태계의 변화
제안한 통합적 측정 방법론은 단순한 평가 도구를 넘어 고등교육 정책 전반의 패러다임 전환에 도움이 될 것으로 사료된다. AI 리터러시 교육과 평가 체계의 도입은 곧 AI 시대 교육의 실질적 시작을 의미하기 때문이다.
첫째, 대학 평가 체계에 AI 리터러시 지표를 포함하는 것은 더 이상 선택이 아닌 필수가 되었다. 앞서 제안한 여러 측정 방법론이 대학 기본역량진단과 연동될 때 교육 현장의 실질적 변화를 이끌어낼 수 있을 것이다. 구체적으로 교양교육 영역에서 ‘AI 협력적 문제해결 역량’ 지표를 신설하고, 학과별 전공역량 평가에 ‘AI 활용을 통한 전문성 개발’ 항목을 포함하는 방안을 예로 들 수 있다. 이때 정량적 지표와 정성적 지표를 균형 있게 배치하여 의미 있는 교육 개선을 유도할 수 있을 것이다.
둘째, 산학협력 기반 측정 도구 개발이 시급하다. Falebita와 Kok(2025)에 따르면 대학생들의 AI 기술 준비도와 자기효능감이 실제 AI 활용 능력과 유의미한 상관관계를 보였다. 그리고 온톨로지 기반 역량 구조화 시스템의 구축을 위해서는 각 산업 분야에서 실제로 요구되는 AI 활용 역량의 구체적 정의와 위계 구조가 필요하며, 이는 지속적인 산학협력을 통해서만 달성 가능하다.
셋째, 교수자 역량 강화가 전체 시스템 성공의 핵심이다. AI를 활용하는 것을 넘어서서, 무엇을 가르치고, 무엇을 평가할지. 흔들리지 않는 과정 중심 평가 철학과 다면 평가 운영 방법에 대한 체계적 연수가 필요하다.
결론: 측정이 이끄는 교육의 미래
본 브리프에서 제안한 AI 리터러시 측정과 평가는 고등교육 생태계 전반의 근본적인 변화를 견인하는 동력으로 기능할 수 있을 것으로 본다. Brown(2019)의 통찰처럼, 우리가 무엇을 어떻게 평가하느냐가 학생들의 학습 방향을 결정한다. 제안한 방법론—진단 도구, 포트폴리오 평가, 온톨로지 기반 체계화, 자연어 처리 분석—의 통합적 운영은 무언가를 측정하는 것을 넘어 AI 시대 인재 양성의 실질적 동력이 될 것이다.
결과가 아닌 과정을, 산출물이 아닌 사고를 평가하는 새로운 접근은 암기와 재생산 중심 교육에서 창의와 협력 중심 교육으로의 전환을 가능하게 한다. 이는 메타와 같은 글로벌 기업들이 AI 역량을 핵심 인사 지표로 활용하기 시작한 현실적 요구에 부응하는 동시에, 인간과 AI가 공존하는 미래 사회를 위한 교육의 새로운 비전을 제시할 수 있다.
그리고 무엇보다 중요한 것은 이러한 측정 체계가 학습자를 선별하고 배제하는 도구가 아니라, 모든 학습자가 자신만의 속도와 방식으로 AI 시대 역량을 개발할 수 있도록 지원하는 도구가 되어야 한다는 점이다. 적어도 AI 리터러시에 대한 평가가 AI와 관련된 주요 학습을 주도한다면, 포용적이고 개인화된 AI 리터러시 평가야말로 모든 이를 위한 AI 교육의 시작이 될 것이다.
참고문헌
Almatrafi, O., Johri, A., & Lee, H. (2024). A systematic review of AI literacy conceptualization, constructs, and implementation and assessment efforts (2019–2023). Computers and Education Open, 6, 100173.
Black, P., & Wiliam, D. (1998). Assessment and classroom learning. Assessment in Education: principles, policy & practice, 5(1), 7-74.
Brown, G. T. (2019, June). Is assessment for learning really assessment?. In Frontiers in education (Vol. 4, p. 64). Frontiers Media SA.
Elshall, A. S., & Badir, A. (2025, June). Balancing AI-assisted learning and traditional assessment: the FACT assessment in environmental data science education. In Frontiers in Education (Vol. 10, p. 1596462). Frontiers Media SA.
Falebita, O. S., & Kok, P. J. (2025). Artificial intelligence tools usage: A structural equation modeling of undergraduates’ technological readiness, self-efficacy and attitudes. Journal for STEM Education Research, 8(2), 257-282.
Hackl, V., Mueller, A., & Sailer, M. (2025). The AI Literacy Heptagon: A Structured Approach to AI Literacy in Higher Education. arXiv preprint arXiv:2509.18900.
Jin, Y., Martinez-Maldonado, R., Gašević, D., & Yan, L. (2025). GLAT: The generative AI literacy assessment test. Computers and Education: Artificial Intelligence, 9, Article 100436.
Lintner, T. (2024). A systematic review of AI literacy scales. npj Science of Learning, 9(1), 50.
Long, D., & Magerko, B. (2020, April). What is AI literacy? Competencies and design considerations. In Proceedings of the 2020 CHI conference on human factors in computing systems (pp. 1-16).
Markus, A., Carolus, A., & Wienrich, C. (2025). Objective Measurement of AI Literacy: Development and Validation of the AI Competency Objective Scale (AICOS). arXiv preprint arXiv:2503.12921.
Ng, D. T. K., Wu, W., Leung, J. K. L., Chiu, T. K. F., & Chu, S. K. W. (2024). Design and validation of the AI literacy questionnaire: The affective, behavioural, cognitive and ethical approach. British Journal of Educational Technology, 55(3), 1082-1104.
Soto-Sanfiel, M. T., Angulo-Brunet, A., & Lutz, C. (2025). The scale of artificial intelligence literacy for all (SAIL4ALL): assessing knowledge of artificial intelligence in all adult populations. Humanities and Social Sciences Communications, 12, Article 1618.
디지털사회(Digital Society)는 연세대학교 디지털사회과학센터(Center for Digital Social Science)에서 발행하는 이슈브리프입니다. 디지털사회의 내용은 저자 개인의 견해이며, 디지털사회과학센터의 공식입장이 아님을 밝힙니다.
전체 0
댓글을 남기려면 로그인하세요.
