Semantic Entropy와 Semantic Energy의 상보적 결합을 통한 LLM 환각 탐지

Semantic Entropy와 Semantic Energy의
상보적 결합을 통한 LLM 환각 탐지:
Zero-SE 문제 해결을 중심으로

과제내용: 연구 배경과 문제의식

슬라이드 2 / 16

LLM은 문장을 매우 자연스럽게 생성하기 때문에, 틀린 답도 처음에는 맞는 정보처럼 보이기 쉽습니다. 그래서 환각은 단순히 정확도가 조금 떨어지는 문제가 아니라, 사용자가 모델 출력을 신뢰하는 순간 바로 위험이 될 수 있는 문제입니다.

의료에서는 잘못된 정보가 안전 문제로 이어질 수 있습니다.
법률에서는 존재하지 않는 근거를 사실처럼 제시할 수 있습니다.
금융에서는 수치와 근거 오류가 의사결정에 직접 영향을 줄 수 있습니다.

따라서 본 과제는 하나의 지표만 더 정교하게 만드는 것보다, 서로 다른 환각 탐지 메트릭이 어떤 상황에서 강하고 약한지를 비교하고, 실패 구간을 보완할 수 있는 결합 방식을 찾는 데 초점을 두고 있습니다.

과제내용: 연구 목적

슬라이드 3 / 16

본 연구의 목적은 다음과 같습니다.

Zero-SE 문제가 실제로 얼마나 자주 나타나는지 정량적으로 확인합니다.
SE와 Semantic Energy가 서로 다른 유형의 환각을 탐지하는지 확인합니다.
두 메트릭을 상보적으로 결합하는 SE-gated Cascade를 제안합니다.
기존 문헌과 실험 결과를 함께 사용해 제안 방법의 이론적 근거를 제시합니다.

따라서 이후 슬라이드는 이 네 가지 목적이 자연스럽게 이어지도록, 개념 설명 이후에 실험 결과가 순서대로 등장하는 구조로 정리했습니다.

과제내용: Semantic Entropy란 무엇인가

슬라이드 4 / 16

Semantic Entropy는 같은 질문에 대해 여러 번 답변을 생성했을 때, 그 답들이 의미적으로 얼마나 다양하게 퍼지는지를 보는 지표입니다.

답변이 여러 의미 클러스터로 나뉘면 모델이 확신하지 못하고 흔들리고 있다고 볼 수 있고, 이때 SE 값은 커집니다. 따라서 SE는 서로 다른 후보 사이를 오가는 혼란형 환각을 포착하는 데 강점이 있습니다.

과제내용: Semantic Energy란 무엇인가

슬라이드 5 / 16

Semantic Energy는 답변들 사이의 의미 차이를 직접 보는 대신, 모델이 토큰을 생성하는 순간 얼마나 강한 확신을 보이는지를 보는 지표입니다.

쉽게 말하면 SE가 "답변들이 얼마나 흔들리는가"를 본다면, Energy는 "모델이 지금 이 답을 얼마나 강하게 밀고 있는가"를 보는 지표입니다. 그래서 여러 번 답해도 비슷한 의미가 반복되는 상황에서는 SE보다 다른 정보를 줄 수 있습니다.

본 연구에서는 바로 이 차이를 이용해, 의미 분산을 볼 때와 내부 확신을 볼 때를 나눠서 환각 탐지에 활용하고자 했습니다.

과제내용: 왜 Zero-SE 문제가 중요한가

슬라이드 6 / 16

Zero-SE 문제는 여러 번 질문해도 거의 같은 의미의 답변만 반복되어, SE 값이 0에 가깝게 나오는 상황을 말합니다. 겉으로 보면 모델이 안정적인 것처럼 보이지만, 실제로는 정답을 안정적으로 말하는 경우와 오답을 안정적으로 반복하는 경우가 같은 패턴으로 나타날 수 있습니다.

이 지점이 중요한 이유는, SE가 낮다고 해서 그 답이 안전하다고 결론 내릴 수는 없기 때문입니다. 즉 Zero-SE는 "문제가 없는 구간"이 아니라, SE 단독으로는 판별력이 약해지는 구조적 실패 구간입니다.

따라서 Zero-SE를 따로 다뤄야 한다는 점이 본 연구의 출발점이며, 왜 단일 지표가 아니라 조건부 결합 방식이 필요한지 설명하는 핵심 근거가 됩니다.

과제내용: 환각 유형과 제안 방향

슬라이드 7 / 16

본 연구에서는 환각을 크게 혼란(confusion)과 지어냄(confabulation)으로 나눠 봅니다. 혼란형은 답이 여러 방향으로 흔들리는 경우이고, 지어냄형은 모르는 내용을 비슷한 패턴으로 반복하는 경우입니다.

이 구분을 바탕으로, 의미가 흔들릴 때는 SE를 사용하고 의미가 하나로 모일 때는 Energy를 사용하는 SE-gated Cascade를 제안했습니다. 즉 제안 방법은 임의의 결합이 아니라, 실패 구간을 따로 처리하기 위한 규칙 기반 결합입니다.

현재까지 진행정도: 데이터셋과 모델

슬라이드 8 / 16

데이터셋

TruthfulQA generation split 데이터셋을 사용했습니다.
질문마다 여러 응답을 생성해 비교하는 방식으로 실험했습니다.
환각 비율이 높은 데이터 특성을 고려해 AUROC를 중심으로 평가했습니다.

모델과 환경

생성 모델은 Qwen2.5-3B-Instruct를 사용했습니다.
의미 비교를 위한 NLI 모델은 DeBERTa-large-mnli를 사용했습니다.
실험 환경은 재현 가능하도록 고정했습니다.

이 슬라이드부터는 연구 목적 1번부터 3번까지가 실제 실험 결과에서 어떻게 확인되는지 순서대로 보여드리겠습니다.

현재까지 진행정도: 실험 파이프라인

슬라이드 9 / 16

실험은 답변 다중 생성, 의미 클러스터링, SE와 Energy 계산, 그리고 정답 기준과 비교하는 평가 단계로 구성됩니다. 같은 질문에 대해 여러 답변을 생성한 뒤, 의미가 같은 답끼리 묶어 SE를 계산하고, 동시에 토큰 수준 확신 신호를 이용해 Energy를 계산합니다.

현재까지 진행정도: Zero-SE 현상의 정량화

슬라이드 10 / 16

전체 데이터셋 중 Zero-SE 구간 비율은 19.0%였습니다.
이 구간 내부의 환각 비율은 73.7%로 나타났습니다.

이 결과는 연구 목적 1번과 직접 연결됩니다. 즉 Zero-SE는 드문 예외가 아니라, 실제로 무시하기 어려운 비율로 나타나며 그 안에 환각도 많이 포함되어 있다는 점을 확인했습니다.

현재까지 진행정도: Zero-SE 구간에서 Semantic Energy 성능

슬라이드 11 / 16

관찰 결과

Zero-SE 구간에서 Semantic Energy의 AUROC는 73.6%였습니다.
같은 구간에서 SE는 실질적으로 판별력을 제공하기 어려웠습니다.

해석

Zero-SE는 SE의 실패 구간이지만, Energy의 실패 구간은 아니었습니다.
따라서 이 구간을 별도 처리하는 결합 규칙이 필요하다는 근거가 됩니다.

다시 말해, Zero-SE 문제를 설명하는 것만으로는 부족하고 그 구간에서 실제로 다른 지표가 작동한다는 점까지 확인해야 하는데, 이번 실험에서 그 가능성을 분명하게 확인했습니다.

현재까지 진행정도: SE와 Energy의 구간별 비교

슬라이드 12 / 16

구간	SE 성능	Energy 성능
Zero 구간	적용이 어렵거나 판별력이 약함	73.6%
중간 구간	60.9%	52.1%
높은 구간	65.8%	42.2%

이 결과는 연구 목적 2번과 연결됩니다. 두 지표는 서로 경쟁하는 관계라기보다, 환각의 성격과 구간에 따라 상대적 강점이 달라지는 상보 관계에 가깝습니다.

현재까지 진행정도: SE-gated Cascade 성능

슬라이드 13 / 16

SE-only는 61.3%였습니다.
Energy-only는 55.0%였습니다.
SE-gated Cascade는 64.2%로 가장 높았습니다.

따라서 연구 목적 3번과 연결되는 결과로, Zero-SE 구간에서 Energy를 사용하고 나머지 구간에서는 SE를 사용하는 단순한 결합 규칙만으로도 기준 성능보다 개선된 결과를 확인했습니다.

현재까지 진행정도: 상보성 분석과 현재 결론

슬라이드 14 / 16

상보성 분석에서도 Energy만 탐지하는 환각 영역이 13.4% 존재했고, SE만 탐지하는 영역도 13.4% 존재했습니다. 즉 한 지표만으로는 회수되지 않는 환각이 실제로 존재하며, 두 지표를 함께 볼 필요가 있다는 점을 다시 확인했습니다.

정리하면 지금까지의 결과는 Zero-SE 문제의 존재, 그 구간의 위험도, Energy의 보완 가능성, 그리고 결합 방식의 실효성을 순서대로 보여주고 있습니다. 그리고 이 결과를 바탕으로 현재 논문 본문도 같은 흐름으로 작성하고 있습니다.

앞으로 할일: 논문 작성 진행 상황

슬라이드 15 / 16

현재 논문은 연구 목적이 먼저 분명하게 제시되고, 그다음에 개념 설명과 실험 결과가 순서대로 이어지도록 구조를 다시 정리하고 있습니다. 특히 Zero-SE 문제를 왜 따로 다뤄야 하는지, 그리고 왜 이 문제를 해결하기 위해 cascade 방식이 필요한지 독자가 자연스럽게 이해할 수 있도록 서술 순서를 조정하고 있습니다.

또한 SE와 Semantic Energy를 각각 독립된 지표로 설명한 뒤, 두 지표가 어떤 환각 유형에서 서로 다른 역할을 하는지 더 분명하게 드러나도록 본문 흐름을 정리하고 있습니다.

앞으로 할일: 논문 보강 계획

슬라이드 16 / 16

연구 배경에서는 Zero-SE 문제에서 cascade가 필요한 이유를 더 분명하게 쓰겠습니다.
이론적 배경에서는 혼란과 지어냄을 구분하는 근거를 추가 문헌으로 보강하겠습니다.
연구 목적, 개념 설명, 실험 결과, 결론이 한 흐름으로 읽히도록 본문을 마무리하겠습니다.

최종적으로는 독자가 결과를 보기 전부터도 왜 이 연구가 필요한지 이해하고, 결과를 본 뒤에는 왜 두 메트릭의 결합이 설득력 있는지 자연스럽게 받아들이는 구조로 논문을 완성하는 것이 목표입니다.