본문 바로가기
728x90

AI45

[논문 리뷰] Base Models Know How To Reason,Thinking Models Learn When 핵심 : base 모델은 이미 복잡한 추론 능력을 가지고 있기 때문에, 적절한 steering 벡터를 찾아서 적절한 타이밍에 steering하면 성능 향상이 있다.0. AbstractReasoning 모델이 Base 모델보다 성능은 좋지만, 새로운 추론 능력을 학습하는건지 기존에 존재하는 것을 새롭게 사용하는지는 밝혀지지 않았다. 따라서 해당 연구에서는 base 모델에서 추론 매커니즘을 적절한 타이밍에 활성화해서 thinking-model만큼의 성능을 내는 hybrid 모델을 제안한다.thinking-model들은 이미 가지고 있는 능력을 잘 사용하는 것임을 전제로 설정한다. weight update 없이, 12%의 토큰만 steering해서 91%의 성능 차이를 회복함을 보인다. 이 결과는 모델이 pr.. 2025. 11. 4.
[논문 리뷰] Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models 핵심 : 모델 내부 공간에는, 모델이 무엇을 알고 있고 무엇을 모르는지가 나타나는 부분이 존재한다.0. AbstractHallucination은 심각한 문제이지만, 모델이 hallucinate할지를 알아내는 방식들은 잘 이해되지 않고 있다. Sparse Autoencoder를 사용해서 알아낸 것은, Entity를 인지하고 있는지의 여부가 가장 중요하다는 것이다. 만약 특정 entity를 알고 있다는 것을 확인하면 그것을 없애는 방향으로 steering할 수 있고, 모른다는 것을 확인하면 hallucinate하지 않게 대답을 거부하게 만들 수 있다.base 모델에 대해서 학습된 SAE가 chat 모델에서도 동일하게 적용되기에, chat finetuning이 SAE의 메카니즘과 유사함을 제안한다. 또한, S.. 2025. 10. 20.
[논문 리뷰] Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations 핵심: 여러 명이 상호작용하는 환경에 대한 task 3가지를 소개하고, 해당 task들을 잘해내는 “verbal과 non-verbal을 더 dense하게 align하는 방식”을 소개한다.0. Abstractsocial situation을 이해하기 위해서는 verbal 신호와 non-verbal 신호를 모두 이해해야 한다. 하지만 기존 여구들은 single-person에 집중하거나 multi-party에 맞지 않는 전체적인 모습에만 집중한다. 따라서 이 연구에서는 여러 명이 상호작용하는 상황에서 3가지 task를 소개한다: ① 발화 대상 인식, ② Coreference 유추, ③ 언급된 인물 유추. 또한, visual feature와 발화를 동기화시켜서 language-visual 표현을 align하는 방.. 2025. 9. 16.
[논문 리뷰] Improving Steering Vectors by Targeting Sparse Autoencoder Features 핵심 : SAE를 활용해서 steering vector들의 영향을 측정하고, 이 측정기를 사용해서 원하는 효과를 내는 steering vector를 찾아낸다. (1. Steering을 먼저한 뒤에, SAE로 분석을 하고, 2. 이걸 바탕으로 원하는 steering vector를 찾아낸다. )0. Abstractsteering vector를 사용하는 것은 파인튜닝보다 쉽고, prompt engineering보다 robust하지만 원치않는 부작용이 존재할 수도 있다는 것이 한계이다. 따라서 SAE를 사용해서 steering vector의 영향을 평가하는 SAE-Targeted Steering(SAE-TS) 방법을 소개한다. CAA나 SAE latents 방식과 다르게, 원하는 SAE 특징만 집중해서 stee.. 2025. 9. 2.
[논문 리뷰] Sparse Autoencoders Find Highly Interpretable Features in Language Models 핵심 : 이미 학습된 모델의 layer를 sparse한 벡터들로 변환함으로써 각 뉴런이 해석 가능한 특징을 가지도록 한다.0. Abstract신경망을 이해하는데 있어서 어려운 점은, 뉴런들이 여러 개의 의미가 다른 context에서 활성화된다는 것이다. Polysemanticity라고 불리는 이 현상은, 신경망이 가지고 있는 뉴런의 개수보다 더 많은 수의 feature를 표현하는 superposition을 원인으로 본다.이를 해결하기 위해서 sparse autoencoder를 사용하여 language model의 내부 신경망을 새롭게 구조화한다. 이를 통해, scalable하고 unsupervised한 방식으로 모델의 interpretability, transparency, steerability를 향상.. 2025. 7. 16.
[Survey] LLM Post-Training: A Dep Dive into Reasoning Large Language Models 핵심 : LLM post-training에 대한 survey paper0. Abstractpretraining은 넓은 범위에서 언어에 대한 베이스를 학습한다면, post-training 방식들은 지식을 정제하고, reasoning과 정확도를 향상시키며, 사용자의 의도와 윤리적 사항들에 대해 더 잘 align하게 만든다.이 survey에서는 post-training의 장점과 한계에 대해서 설명한다.1. Introductionpost-training은 크게 3가지로 구분할 수 잇다.Fine-Tuning : 특정 task에 대해 LLM을 맞춤화시키지만, overfitting, 높은 연산 비용, generalization 약화 등의 문제가 있다.Reinforcement Learning : 전통적인 RL과 다르게.. 2025. 7. 13.
반응형