[딥러닝 논문리뷰] An overview of gradient descent optimization algorithms
·
Data Science/딥러닝 논문 리뷰
AbstractGradient Descent(경사하강법)은 널리 사용됨하지만 직관적인 설명이 부족해 블랙박스로 활용됨이 글은 다양한 Gradient Descent기법과 최적화 기법들을 소개함병렬·분산 학습 환경에서의 알고리즘 및 추가 학습 전략을 다룸상황에 맞는 옵티마이저를 선택할 수 있도록 도움1. Introduction신경망 최적화에 가장 많이 사용되고, 대부분의 딥러닝 라이브러리에서 제공하지만 블랙박스로 사용됨GD(경사하강법) 최적화를 위한 알고리즘을 소개하고 활용에 도움을 주는 것을 목표로 함Sector별 소개2장: 다양한 경사하강법 변형 기법 소개3장: 학습과정에서 발생하는 난제 요약4장: 가장 일반적인 최적화 알고리즘들 소개 및 학습과정에서 발생하는 난제 해결 방법5장: 병렬 및 분산 환경에서..
[딥러닝 논문 리뷰]Attention Is All You Need 논문 리뷰 (Transformer)
·
Data Science/딥러닝 논문 리뷰
Abstact 기존의 주요 시퀀스 변환 모델들은 복잡한 RNN(순환 신경망)이나 CNN(합성곱 신경망)을 기반으로 하며, 인코더와 디코더를 포함.기존의 가장 성능이 좋은 시퀀스 변환 모델들 또한 인코더와 디코더를 Attention 메커니즘을 통해 연결하는 구조.이 저자들은 RNN, CNN을 완전히 배제하고 Attention을 기반으로 한 Transformer모델을 제안.Transformer 모델은 더 좋은 품질, 더 좋은 병렬성, 더 짧은 학습시간을 자랑하며 SOTA (State Of The Art)모델에 등극. (WMT 2014 Englishto-German translation, WMT 2014 English-to-French translation)1. Introduction 기존 RNN계열 모델들의..
Cycle GAN이란?
·
Data Science/딥러닝 논문 리뷰
Image to Image translation 이미지 데이터셋을 사용하여 input이미지와 output 이미지를 mapping하는 생성 모델의 분야이다. ex) 흑백 ↔ 컬러, 낮 ↔ 밤, 등 Pix-2-Pix image to image translation분야에서 처음 등장한 모델! Loss funtion에서 Generator가 어느것을 택해도 loss가 너무 커지지 않도록 애매한 중간값을 택하는 경향이 있다. → 가운데 사진처럼 뿌옇게 표현된 output이 나온다. cGAN(conditional GAN)이 추가되어 보완된 Pix-2-Pix 모델 한계: 학습시키기 위해 paired-image 데이터셋이 필요함 위 사진처럼 동일한 포즈와 크기의 얼룩말 사진이 필요하다. 이러한 단점을 해결하기 위해 등장..
HaSeon9
'Data Science/딥러닝 논문 리뷰' 카테고리의 글 목록