본문 바로가기
728x90

AI/Paper Review4

[논문 리뷰] ImageNet Classification with Deep Convolutional Neural Networks (AlexNet) 0. Abstract흔히 AlexNet으로 불리는 이 모델은 ILSVRC-2012 (ImageNet Large Scale Visual Recognition Challenge)에 우승을 한 모델이다. top-5 error는 15.3%로 2등을 한 모델(26.2%)과 차이가 크게 벌어졌다. 간략하게 모델에 대해서 설명하자면, 약 6000만개의 학습 가능한 파라미터가 있고 65만개의 뉴런이 있으며, 총 8개의 layer(5개의 convolutional layer와 3개의 fully-connected layer)가 있다. 오버피팅을 줄이기 위해서 fully-connected layer에는 당시에 새롭게 나왔던 드롭아웃 기법을 활용한다. 1. IntroductionMNIST처럼 간단한 object recognit.. 2024. 9. 2.
[논문 리뷰] A Generalist Agent (Gato) 0. AbstractLLM(Large-scale Language Modeling)에서 영감을 얻은 Gato는 동일한 네트워크와 동일한 weight로,multi-modal (이미지, 텍스트, 음성과 같이 여러 형식의 데이터 처리 가능),multi-task (다양한 과제 수행 가능),multi-embodiment (로봇처럼 실제로 물리적으로 구현이 필요한 과제)를 모두 수행 가능한 generalist agent이다.  1. Introduction모든 과제에 대해서 하나의 neural sequence 모델을 사용하는 것에는 많은 장점이 있다. 각 과제마다 직접 policy model을 설정하지 않아도 되고, flat sequence로 만들 수 있는 데이터라면 학습에 모두 넣을 수도 있다. 하나의 큰 trans.. 2024. 8. 1.
[논문 리뷰] Attention Is All You Need (Transformer) 0. Abstract시퀀스 데이터(예: 시간에 따라 변화하는 데이터, 텍스트 데이터 등)를 다루는 기존의 모델은 대부분 encoder와 decoder를 가지는 RNN(Recurrent Neural Network, 순환 신경망)나 CNN(Convolutional Neural Network, 합성곱 신경망)이었다. 그리고 성능이 좋은 모델들은 Attention 기법을 사용해서 encodder와 decoder를 연결시켰다. 이 논문에서는 RNN과 CNN과는 달리, 순수하게 Attention 기법만을 사용한 새로운 아키텍쳐 Transformer를 소개한다.  1. IntroductionSequence modeling이나 특정 데이터셋 안에서 학습하는 Transductive 문제(언어 모델, 번역 )에 대해서는 .. 2024. 7. 29.
[논문 리뷰] Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis 0. AbstractPose-Guided Person Image Synthesis(PGPIS)를 위해서 Diffusion model을 활용한 기존의 시도들은 source person image의 high-level semantic 정보를 잘 추출하지 못했기 때문에 overfitting에 취약하다는 한계가 있었다. 정보가 부족한 상태에서 target pose에 단순히 맞추기만 하면, 왜곡이 생기거나 생성된 이미지가 부자연스러울 수 있다는 문제가 있다. CFLD에서는 perception-refined decoder를 통해서 사람 이미지의 semantic 정보를 얻고 학습 가능한 query들을 조정함으로써 overfitting을 줄인다. 그리고 hybrid-granularity attention 모듈을 통해 .. 2024. 7. 17.
반응형