본문 바로가기

논문 리뷰

(7)
[논문 리뷰] DRÆM – A discriminatively trained reconstruction embedding for surface anomaly detection Introduction표면 이상 탐지(surface anomaly detection)는 정상적인 형태에서 벗어난 이미지 영역의 위치를 찾는 것.일반적인 이상 탐지는정상적인 학습 이미지 세트와 크게 다른 이미지를 찾는 것.표면 이상 탐지는 이미지 픽셀의 작은 부분만을 차지하며 일반적으로 학습 이미지 세트 분포와 유사DRÆM (Discriminative joint Reconstruction Anomaly Embedding Method)DRÆM은 다음 두 가지 sub-network로 구성 된다.Reconstructive sub-network정상 이미지만 학습Discriminative sub-network원본 이미지와 재구성된 이미지의 결합 모양에 대한 판별을 학습→ 생성 방식(auto-encoder, GAN ..
[논문 리뷰] DETR: End-to-end Object Detection with Transformers End-to-End Object Detection with TransformersWe present a new method that views object detection as a direct set prediction problem. Our approach streamlines the detection pipeline, effectively removing the need for many hand-designed components like a non-maximum suppression procedure or anchor genearxiv.orgDETR ArchitectureCNN Backbone + Transformer + FFN(Feed Foward Network)로 구성되어 있다.CNN Back..
[논문 리뷰] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleWhile the Transformer architecture has become the de-facto standard for natural language processing tasks, its applications to computer vision remain limited. In vision, attention is either applied in conjunction with convolutional networks, or used to reparxiv.orgAbstractVision에서 ViT이전에는 attention을 다음 2가지 방식으로 사용했다.CNN과 함..
[논문 리뷰] Attention Is All You Need Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.orgAbstractRecurrence, Convolution 없이 Attention만 사용한 모델인 Transformer를 제안.SOTA 달성큰 데이터나 제한된 데이터에도 다양한 task에서 일반화 ..
[논문 리뷰] What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis https://openaccess.thecvf.com/content_ICCV_2019/papers/Baek_What_Is_Wrong_With_Scene_Text_Recognition_Model_Comparisons_Dataset_ICCV_2019_paper.pdf Custom data로 학습하는 방법은 아래 링크 참조 deep-text-recognition-benchmark (Custom Data로 학습하기) GitHub - clovaai/deep-text-recognition-benchmark: Text recognition (optical character recognition) with deep learning methods. Text recognition (optical character reco..
[논문 리뷰] CoAtNet: Marrying Convolution and Attention for All Data Sizes CoAtNet: Marrying Convolution and Attention for All Data Sizes Transformers have attracted increasing interests in computer vision, but they still fall behind state-of-the-art convolutional networks. In this work, we show that while Transformers tend to have larger model capacity, their generalization can be worse tha arxiv.org Image Classification task (ImageNet)의 새로운 SOTA로 Transformer와 ConvNet..
[논문 리뷰] EfficientDet: Scalable and Efficient Object Detection EfficientDet을 알기 위해 EfficientNet을 먼저 알아보자. ✔️EfficientNet CNN에서 성능(accuracy)을 올리기 위해 기존 모델을 확장시키는 방법을 주로 사용해 왔다. 유명한 모델 중 하나인 resnet으로 예를 들 수 있다. (resnet18, resnet50, resnet101...) 위의 그림과 같이 model을 확장시키는 다양한 방법들이 있다. width scaling : filter의 개수(channel 수)를 늘려줌 depth scaling : layer를 더 깊게 쌓는다. resolution scaling : input image의 해상도를 높여준다. (ex: (512, 512) → (640, 640)) compound scaling : 위 3가지 방법을 모..