본문 바로가기
AI/Paper Review

[논문 리뷰] Interactive Text-to-Image Retrieval with Large Language Models: A Plug-and-Play Approach (PlugIR)

by hyeok1235 2024. 12. 24.

0. Abstract

이 논문에서 제안한 PlugIR은 dialogue 형태로 interactive한 Image Retrieval task를 수행한다. LLM을 활용하기 위해서 2가지 방법을 사용한다. 첫번째는 기존에 존재하는 retrieval model를 파인튜닝할 필요를 없애기 위해 미리 reformulation 과정을 거치는 것이다. 두번째는 LLM questioner를 통해 target image와 관련이 있고, 기존의 질문들과 중복되지 않는 질문을 생성한다.  그리고 해당 논문에서는 interactive retrieval system을 보다 효과적으로 평가할 수 있는 Best log Rank Integral(BRI)를 소개한다. 

 

1. Introduction

Text-to-image retrieval (input text query에 대응되는 target image를 image database에서 가져오는 task)는 vision-language multimodal model로 많은 진전이 있었다. 해당 task를 접근하는 conventional한 방법은 single-turn retrieval로 initial text input에만 의존하는 형태였다. (이 방법은 하나의 text에만 의존하기 때문에 user들이 아주 자세하게 작성해야 한다는 단점이 있다.) 최근에는 multi-turn retrieval을 사용해서 효율성과 성능을 높이고자 하는 시도들이 존재한다. 하지만 이 방식에도 문제들이 있는데,

  1) 문장식으로 주어지는 text에 맞게 retrieval model을 파인튜닝해야 한다는 점,

  2) LLM questioner가 초기 텍스트와 대화 내역만을 보기 때문에 image와 관련이 없는 질문을 생성할 수도 있다는 점이다.

 

이 논문에서는 이러한 문제를 해결하기 위해서 plug-and-play 방식의 interactive text-to-image 방법인 PlugIR을 소개한다. 크게 2가지 핵심 요소가 있다.

  1) Context reformulation : LLM을 활용하여 pretrained vision-language model과 호환이 되는 형태로 사용자와의 대화 문맥을 변환한다. 이를 통해 다양한 multimodal retrieval model과 호환이 가능하다. 

  2) Context-aware dialogue generation : 질문을 생성할 때 이미지 후보들과 관련된 내용으로 생성될 수 있게 제한하고, 기존의 질문들과는 중복되지 않도록 필터링하는 조건을 추가한다. 

 

 

interactive retrieval system을 평가할 때 중요한 3가지 특성으로는 user satisfaction, efficiency, ranking improvement significance가 있다. 기존의 평가 지수인 Recall@K나 Hits@K는 3가지 특성을 모두 고려하지 못하하기 때문에, 3가지를 모두 다루는 Best log Rank Integral (BRI) 평가 지수를 소개한다. 

 

Contributions:

- 제로샷 모델은 전체 대화를 이해하기 어려워한다는 점을 보이고, 해결책으로 context reformulaiton을 수행한다.

- noisy하고 중복적인 질문으로 인해 발생하는 문제들에 대응하기 위해 LLM questioner를 제안한다.

- 사람에 의한 평가와 align된 metric으로 종합적이고 정량적인 평가가 가능한 BRI를 소개한다.

- plug-and-play 방식으로 다양한 환경에 활용할 수 있다.

 

2. Related Work

Text-to-Image retrieval task

사용자와 interaction을 통해 image pool에서 target image를 추출하는 task이다. 다양한 방식이 존재하는데, 대표적인 예시인 ChatIR은 사용자와 자동화된 시스템 간의 대화를 바탕으로 하는 방식이다.

 

Vision-Language models

텍스트와 이미지에 대한 이해 간격을 줄이는 모델이다. 대표적인 모델로 CLIP, BLIP, BLIP-2등이 있다. 

 

Large language models

Generative Pretrained Transformer(GPT) 시리즈부터 시작하여, parameter 수를 증가하는 방향으로 많은 연구들이 이루어졌다. LLM의 성능을 높이는 방향을 넘어서, Chain-of-Thought나 self-consistency와 같이 정확도를 높이는 방향의 연구들도 진행되고 있다.

 

3. Method

3.1 Preliminaries: Interactive Text-to-Image Retrieval

간단한 initial description인 $D_{0}$부터 시작하여, t round의 질문인 $Q_{t}$와 답변인 $A_{t}$를 사용해서 dialogue context $C_{t}$를 만든다.

$$C_{t} = (D_{0}, Q_{0}, A_{0}, ..., Q_{t}, A_{t})$$

해당 dialogue context는 적절한 처리과정(text 요소들을 모두 concatenate하는 과정 등)을 거쳐서 이미지 검색에 사용된다. 모든 이미지들은 이 텍스트로 검색이 된 후에, 유사도를 바탕으로 점수가 매겨진다. 

 

3.2 Context Reformulation

Do zero-shot models understand dialogs?

해당 논문에서는 제로샷 모델의 retrieval 성능을 확인하기 위해 white-box 모델 3가지(CLIP, BLIP, BLIP-2)와 black-box 모델 1가지(Amazon Titan Multimodal)로 실험을 한다.  

Hit@K는 round가 진행될수록 단순히 노이즈를 추가하는 방식으로도 점수가 오르기 때문에 좋은 기준이 되지는 못한다. Recall@K는 각 round에서의 성능을 측정하기 때문에 적합한데, white-box 모델들은 점수가 안좋아졌고 Amazon Titan multimodal foundation model도 점수가 떨어지지는 않았지만 성능이 더 좋아지지도 않았다. 따라서 제로샷 모델에서 대화가 추가되는 것은 성능에 큰 차이를 주지 못함을 알 수 있다. 

 

A plug-and-play approach

제로샷 모델의 한계를 극복하기 위한 방법 중 하나는 retrieval model을 파인튜닝하는 것이다. 하지만 파인튜닝을 하기 위해서는 (i) retrieval model의 parameter에 접근 가능해야 하고, (ii) 충분한 training 데이터가 있어야 한다는 제한 조건이 존재한다. 

따라서 해당 논문에서는 제로샷 모델이 잘 이해할 수 있도록, LLM을 활용하여 text query를 먼저 reformulate하는 새로운 접근 방식을 취한다. 

 

3.3 Context-aware Dialogue Generation

Is additional information in dialogues actually effective?

3.2 섹션에서는 dialogue가 추가되는 형태에 따라 성능의 차이가 나는지 집중했다면, 3.3 섹션에서는 context의 추가되는 내용에 집중한다. 크게 두가지 핵심 issue가 있는데, 
  1) 생성되는 질문이 후보 이미지들과 관련이 없을 수도 있다. 이 경우에서는 추가적인 정보가 retrieval 과정에서 noise로 작용할 확률이 높아져서 성능이 낮아진다. 

  2) 생성되는 질문이 중복될 수 있다. 이미 만들어진 질문에 의해서 답변이 될 수 있는 질문을 생성한다면, 해당 질문과 답변은 성능을 높이는데 사용이 되기 어려울 것이다. 

 

A plug-and-play approach

위에서 언급된 문제들을 해결하기 위해서 새로운 접근 방식들을 취한다.

첫번째 문제를 해결하기 위해서는 이미지 풀에서 dialogue context와 관련된 이미지들(retrieval candidates)의 정보를 LLM questioner에 제공한다. 이 과정을 위해서는 먼저 후보 이미지들의 embedding에서 K-means clustering을 수행한 뒤 가장 낮은 엔트로피를 가진 이미지(캡션과 설명이 많이 있을 수록 엔트로피는 낮다)를 대표 이미지들로 선택한다. 대표 이미지들을 이미지 캡셔닝 모델을 활용해서 텍스트 정보로 만든 뒤에 LLM quesitoner에 제공한다. 이 정보를 꼭 사용하도록 Chain-of-Thought 방식을 사용한다.

두번째 문제를 해결하기 우해서는 기존의 설명과 대화 내역으로 답변을 할 수 없는 질문들인지 먼저 필터링을 수행한다. 그런데 타겟 이미지가 있어도 대답을 못하는 질문을 사용하게 되면 성능을 낮추게 된다. 따라서 dialogue context의 분포와 이미지와 dialogue context가 결합된 분포의 KL divergence를 사용해서 가장 유사한 질문을 선택한다. 

 

3.4 The Best log Rank Integral Metric

Interactive retrieval system을 평가하기 위해서는 다음 3가지 요소가 중요하다:
1. User Satisfaction : target image를 한번이라도 가져왔다면 성공한 것으로 간주한다.

2. Efficiency : 성공적인 retrieval을 위해서 적은 round가 필요할 수록 성능이 좋은 것으로 간주한다.

3. Ranking improvement significance : 100등에서 99등으로 올라간 것보다 2등에서 1등으로 올라가는 것이 더 어렵다는 전제로, 더 어려운 것을 성공하는 것에 emphasis를 줘야 한다. 

 

이러한 요소들을 모두 다루기 이해서 Best log Rank Integral (BRI) 지표를 새롭게 소개한다. Best Rank는 round t까지 target image의 가장 좋았던 rank를 측정한다. 

$$\pi(q_t) = \begin{cases}
\min(\pi(q_{t-1}), R(q_t)) & \text{if } t \geq 1 \\
R(q_0) & \text{if } t = 0
\end{cases}$$

 

4. Experiments

VisDial, COCO, Flickr30k 데이터셋을 사용하였고, 기본 retrieval model은 BLIP이 사용되었으나 BLIP-2와 ATM도 특정 실험에서 사용되었다. 질문을 생성하는 모델로는 ChatGPT가 사용되었고, 답변을 하는 모델은 BLIP-2를 사용하였다. Cluster의 개수는 10으로 설정되었으며, 다른 개수로 실험하는 부분은 Appendix K에 작성되었다. 성능은 ZS(zero-shot retrieval model)과 FT(fine-tuned retrieval model)과 비교되었다. 

 

5. Analysis

모델을 파인튜닝했을 때 Recall@10은 더 높지만 Hits@10은 더 낮다. 이는 모델을 파인튜닝한 경우에는 이미 성공적으로 retrieve한 sample들을 다시 retrieve하는 것에 더 초점이 맞춰졌다는 것을 의미한다. 따라서 전체 test query set에서 dialogue를 활용하는 것을 더 발전시키기 때문에 전체적인 성능이 더 좋아진다. 

모델을 파인튜닝했을 때 MRR이나 NDCG와 같은 점수가 더 좋지만, 이 점수들은 Recall@K와 관련이 되어 있기 때문에 실제 ranking improvement significance를 반영하지 못한다.

또한, BRI는 다른 기준(Recall@K, MRR, NDCG)과는 다르게 hyper-parameter인 @K와 독립적이기 때문에 더 안정적인 결과를 가진다. 

 

6. Conclusion

Text-to-image retrieval task에서 dialogue-form interaction 방식을 채택한 PlugIR은
1) Retrieval model이 이해하기 쉽게 대화를 reformulate해서 파인튜닝할 필요를 없애고,

2) LLM questioner의 동작 방식을 구체화함으로써 성능과 정확도를 높인다.

또한 새로운 Best log Rank Integral (BRI)를 소개함으로써 종합적으로 성능을 평가한다. 

 

Limitations & Ehics Statement

Retrieval model에 맞게 대화를 format해야 하기 때문에 retrieval model에 대한 이해가 필요하다. 

이미지 풀에서 개인정보를 추출하거나 LLM questioner가 사용자의 개인정보를 유출하는 위험이 존대한다.

 

논문 링크:
https://aclanthology.org/2024.acl-long.46.pdf
728x90
반응형