Large Language Models (LLMs) demonstrate remarkable performance in natural language processing but pose risks by generating incorrect information (hallucinations) without indicating uncertainty. This study investigates whether the hidden states of LLMs encode the model's level of certainty and whether we can distinguish between certain generations and uncertain generations through these.
We extracted hidden states from specific layers and time steps across multiple models and visualized them by applying dimensionality reduction techniques. Using datasets consisting of factuality-based, hallucination-based, and qualitative-based, we defined certain generations as consistently answers and uncertain generations as varying responses.
Our results confirmed that even when the generated outputs are the same, the hidden states of certain and uncertain generations form distinctly separated clusters in low-dimensional space. This suggests that the hidden states of LLMs contain features related to the level of certainty, which can help identify and mitigate hallucinations.
대규모 언어 모델(LLM)은 자연어 처리에 뛰어난 성능을 보이지만, 불확실성을 표시하지 않고 잘못된 정보(환각)를 생성하는 위험이 있습니다. 연구는 LLM의 숨은 상태가 모델의 확신의 정도를 내포하는지, 이를 통해 확신 있는 출력과 확신하지 않는 출력을 구별할 수 있는지 밝힙니다.
우리는 여러 모델에 대해 특정 레이어와 시간 단계에서 숨은 상태를 추출하고, 차원 축소 기법을 적용하여 시각화했습니다. 사실 기반, 환각 기반, 정성적 데이터셋을 사용하여, 확신 있는 생성은 일관된 답을, 확신이 없는 생성은 변동되는 응답으로 정의하여 실험군을 분류했습니다.
연구 결과, LLM의 생성물이 동일함에도 불구하고, 확신 있는 생성과 확신이 없는 생성의 숨은 상태가 저차원 공간에서 명확히 분리되는 것을 확인했습니다. 이는 LLM의 숨은 상태가 확신의 정도와 관련된 특징을 내포하여, 환각을 식별하고 완화하는 데 도움이 될 수 있음을 시사합니다.