AI, 모르는 것을 "모른다"고 말하게 해야

AI의 '과신'을 꺾고 '메타 인지' 심는 혁신

2026-04-29 09:25:37 ㅣ 2026-04-29 09:25:37

모르는 것을 모른다고 말할 수 있는 때 AI의 신뢰도가 높아질 수 있다.(사진=ChatGPT 생성)

[뉴스토마토 임삼진 객원기자] 미국 뉴욕의 연방법원 사건을 맡은 변호사들이 지난 2023년 법정에서 씻을 수 없는 불명예를 안았습니다. AI 도움을 받아 당당하게 제시한 판례들이 알고 보니 AI가 만들어낸 가짜였기 때문입니다. 더 큰 문제는 AI가 이를 지적받았을 때조차 '확실한 정보'라고 몇 차례 확언했다는 점입니다. 이처럼 AI가 틀린 답을 내놓으면서도 높은 확신을 보이는 이른바 '과신(Overconfidence)'은 AI 신뢰성의 최대 걸림돌로 지적되고 있습니다.

자율주행차가 보행자를 장애물로 오인하거나, 의료 AI가 암이 아닌 것을 암이라고 99% 확신하는 상황은 의료 사고로 이어질 수도 있습니다. 이 문제를 해결하기 위해 AI에게 '겸손'과 '자기 객관화'를 도입시키려는 여러 접근법이 관심을 끌고 있습니다.

뇌과학의 지혜: KAIST의 '무작위 노이즈 예열(Warm-up)'

최근 KAIST 백세범 교수팀은 AI의 '근거 없는 자신감'이 학습의 출발점인 가중치 초기화 단계에서 이미 형성된다는 점에 주목했습니다. 기존 AI는 아무것도 모르는 상태에서 무작위 가중치를 부여받는데, 이 초기 상태 자체가 특정 데이터에 대해 비정상적으로 높은 확신을 갖는 편향을 유발합니다.

연구팀은 갓 태어난 동물의 뇌가 외부 자극 없이도 내부의 자발적 신경 활동을 통해 기본 회로를 형성한다는 점을 모사했습니다. 실제 데이터를 학습하기 전, 의미 없는 '무작위 노이즈'를 입력해 신경망을 짧게 훈련시킵니다.

이 과정을 거치면 AI는 본격적인 학습 전에 "나는 현재 아무런 정보가 없다"는 낮은 확신도 상태로 초기화됩니다. 일종의 '백지 상태'를 스스로 인식하게 함으로써, 이후 학습 과정에서 정확도와 확신도가 정비례하게 만듭니다.

언어의 논리적 검증: 옥스퍼드의 '의미론적 엔트로피(Semantic Entropy)'

생성형 AI(LLM)의 가장 큰 화두인 환각(Hallucination)을 제어하기 위한 옥스퍼드대의 전략은 '교차 검증'입니다. AI가 내뱉는 문장의 통계적 확률 대신, 그 문장이 담고 있는 의미의 일관성을 따집니다.

하나의 질문에 대해 AI가 여러 개의 답변 후보를 생성하게 합니다. 예를 들어 "프랑스의 수도는?"이라는 질문에 AI가 "파리", "루브르가 있는 곳", "런던"이라는 각기 다른 답을 냈다면, 이들 간의 의미적 거리를 계산합니다. 답변들이 서로 상충할수록 '엔트로피(혼잡도)'가 높다고 판단합니다.

이는 AI가 단순히 문장을 생성하는 것을 넘어, 자신이 내놓은 논리가 일관된 것인지를 스스로 검토하게 합니다. 답변 간의 모순이 발견되면 AI는 "확신할 수 없다"라고 답변을 보류할 수 있도록 설계합니다.

통계적 정밀 교정: '온도 스케일링(Temperature Scaling)'

구글 딥마인드와 토론토대 연구진을 비롯한 딥러닝 전문가들 전반에서 AI의 출력값을 현실 세계의 정답률과 일치시키는 '수학적 필터링'에 집중합니다. AI 모델이 내뱉는 최종 확률값에 '온도(Temperature)'라는 변수를 도입해 확률 분포를 부드럽게 조정합니다. 만약 모델이 개와 고양이를 구분할 때 항상 99%라고 과하게 확신한다면, 이를 수학적으로 보정하여 실제 모델의 판독 정확도인 85% 수준으로 확신도를 낮추는 것입니다.

이 기술은 모델의 구조를 바꾸지 않고도 적용할 수 있어 범용성이 높습니다. AI가 "80% 확신한다"고 말했을 때, 실제로 100번 중 80번을 맞히도록 만드는 '신뢰도 보정(Calibration)'의 표준으로 자리 잡고 있습니다.

확률적 사고의 도입: '베이지안 신경망(Bayesian Neural Networks, BNN)'

전통적인 딥러닝이 가중치를 고정된 숫자로 보는 것과 달리, 베이지안 방식은 모든 가중치를 하나의 '확률적 범위'로 인식합니다.

예를 들면 가중치를 '0.5'로 단정하지 않고, '0.4에서 0.6 사이의 확률 분포를 가진다'고 설정합니다. 데이터를 학습할수록 이 분포는 좁아지며 정교해집니다. 만약 학습 데이터에 없던 생소한 입력이 들어오면 가중치의 불확실성이 급격히 커지도록 설계되었습니다.

이는 AI에게 '모르는 영역'에 대한 물리적 감각을 부여하는 것과 같습니다. 데이터가 부족한 사각지대에서 AI가 스스로 "이 영역은 불확실성이 너무 커서 판단을 유보한다"는 고차원적인 결론을 내릴 수 있게 합니다.

외부 변수에 대한 방어막: 스탠퍼드대의 '강인한 최적화(DRO)'

학습실 환경(In-distribution)과 실제 도로 상황(Out-of-distribution)의 차이에서 발생하는 오류를 극복하기 위한 접근입니다.

모델이 학습 데이터의 평균적인 특징에만 집중하지 않도록, 최악의 시나리오를 가정하여 학습시킵니다. 데이터에 미세한 노이즈가 섞이거나 분포가 뒤틀린 상황에서도 모델이 억지로 답을 내놓지 않고, '데이터 분포 밖(OOD)' 상황임을 즉각 감지하도록 훈련합니다.

자율주행 시스템에서 비나 눈이 올 때, 혹은 처음 보는 형태의 표지판이 나타났을 때 AI가 과신하여 사고를 내는 대신 "판단 불가"를 선언하고 운전자에게 제어권을 넘길 수 있는 기술적 토대가 됩니다.

정답률을 넘어 '신뢰의 시대'로

기존의 AI 연구가 "얼마나 더 정확한가"에 매몰되었다면, 이제는 "자신의 한계를 얼마나 잘 아는가"가 인류와 AI의 공존을 결정짓는 핵심 지표가 되고 있습니다.

뇌과학을 모사한 KAIST의 연구부터 수학적 정밀함을 앞세운 해외 연구들까지, 이들 5가지 접근 방식은 AI에게 '메타 인지(Meta-cognition)'라는 날개를 달아주려는 노력이 활발하게 이루어지고 있습니다. 때로는 "모른다"고 말할 수 있는 솔직한 AI의 등장은 자율주행차의 운전대와 환자의 생명을 AI에게 온전히 맡길 수 있는 '신뢰의 시대'를 앞당길 것입니다. 전문가들은 이렇게 메타 인지 기술이 적용된 AI만이 의료를 넘어 금융, 국방 등 책임이 막중한 분야에서 진정한 파트너로 인정받을 수 있을 것이라 입을 모읍니다.

인공지능 모델이 예열학습을 통해 신뢰도 보정을 한 경우와 그렇지 않은 경우(AI 생성 이미지, 사진=KAIST)

임삼진 객원기자 isj2020@etomato.com

이 기사는 뉴스토마토 보도준칙 및 윤리강령에 따라 강영관 산업2부장이 최종 확인·수정했습니다.

뉴스리듬

이 시간 주요 뉴스

인기 뉴스

함께 볼만한 뉴스