Papers Review 7

[논문 리뷰] DRÆM – A discriminatively trained reconstruction embedding for surface anomaly detection

Introduction 표면 이상 탐지(surface anomaly detection)는 정상적인 형태에서 벗어난 이미지 영역의 위치를 찾는 것. 일반적인 이상 탐지는정상적인 학습 이미지 세트와 크게 다른 이미지를 찾는 것. 표면 이상 탐지는 이미지 픽셀의 작은 부분만을 차지하며 일반적으로 학습 이미지 세트 분포와 유사 DRÆM (Discriminative joint Reconstruction Anomaly Embedding Method) DRÆM은 다음 두 가지 sub-network로 구성 된다. Reconstructive sub-network 정상 이미지만 학습 Discriminative sub-network 원본 이미지와 재구성된 이미지의 결합 모양에 대한 판별을 학습→ 생성 방식(auto-enco..

Papers Review 2022.12.12

[논문 리뷰] DETR: End-to-end Object Detection with Transformers

End-to-End Object Detection with Transformers We present a new method that views object detection as a direct set prediction problem. Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor gene arxiv.org DETR Architecture CNN Backbone + Transformer + FFN(Feed Foward Network)로 구성되어 있다. CNN..

Papers Review 2022.08.22

[논문 리뷰] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale While the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to rep arxiv.org Abstract Vision에서 ViT이전에는 attention을 다음 2가지 방식으로 사용했다. C..

Papers Review 2022.05.26

[논문 리뷰] Attention Is All You Need

Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new arxiv.org Abstract Recurrence, Convolution 없이 Attention만 사용한 모델인 Transformer를 제안. SOTA 달성 큰 데이터나 제한된 데이터에도 다양한 task에..

Papers Review 2022.05.19

[논문 리뷰] What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

https://openaccess.thecvf.com/content_ICCV_2019/papers/Baek_What_Is_Wrong_With_Scene_Text_Recognition_Model_Comparisons_Dataset_ICCV_2019_paper.pdf Custom data로 학습하는 방법은 아래 링크 참조 deep-text-recognition-benchmark (Custom Data로 학습하기) GitHub - clovaai/deep-text-recognition-benchmark: Text recognition (optical character recognition) with deep learning methods. Text recognition (optical character reco..

Papers Review 2022.02.18

[논문 리뷰] CoAtNet: Marrying Convolution and Attention for All Data Sizes

CoAtNet: Marrying Convolution and Attention for All Data Sizes Transformers have attracted increasing interests in computer vision, but they still fall behind state-of-the-art convolutional networks. In this work, we show that while Transformers tend to have larger model capacity, their generalization can be worse tha arxiv.org Image Classification task (ImageNet)의 새로운 SOTA로 Transformer와 ConvNet..

Papers Review 2022.01.24

[논문 리뷰] EfficientDet: Scalable and Efficient Object Detection

EfficientDet을 알기 위해 EfficientNet을 먼저 알아보자. ✔️EfficientNet CNN에서 성능(accuracy)을 올리기 위해 기존 모델을 확장시키는 방법을 주로 사용해 왔다. 유명한 모델 중 하나인 resnet으로 예를 들 수 있다. (resnet18, resnet50, resnet101...) 위의 그림과 같이 model을 확장시키는 다양한 방법들이 있다. width scaling : filter의 개수(channel 수)를 늘려줌 depth scaling : layer를 더 깊게 쌓는다. resolution scaling : input image의 해상도를 높여준다. (ex: (512, 512) → (640, 640)) compound scaling : 위 3가지 방법을 모..

Papers Review 2022.01.21