본문 바로가기

전체 글

(120)
Chain rule practice Problem 1. Explanation Problem 2. Explanation References https://cs182sp21.github.io CS 182: Deep Learning Head uGSI Brandon Trabucco btrabucco@berkeley.edu Office Hours: Th 10:00am-12:00pm Discussion(s): Fr 1:00pm-2:00pm cs182sp21.github.io
Transformer: Scaled dot-product attention * "Attention is all you need"의 저자들이 주장한 바를 바탕으로 하며, 글의 내용은 그 주장을 읽은 저의 이해를 바탕으로 채워졌습니다. 개요 왜 dot-product attention이 아닌 scaled dot-product attention을 사용하는가? Scaled dot-product attention을 사용하는 이유 Attention process에 대해 backpropagation을 진행할 때 gradient가 소멸되는 일을 방지하기 위해 scaled dot-product를 사용하여 attention vector를 만든다. Scaling을 하지 않은 dot-product를 이용하여 attention을 하는 경우 아래와 같이 attention weight를 만든다. 즉, sc..
Transformer: Multi-head attention 개요 Single-head attention의 단점을 살펴봄으로써 Multi-head attention이 고안된 이유를 알아보자. 그리고 multi-head attention의 장점은 무엇인지 살펴보자. 목차 1. Single-head attention과 그 문제점 2. Multi-head attention과 mechanism Single-head attention과 그 문제점 Transformer 구조에서 나타나는 multi-head attention mechanism이 아닌 RNN sequence to sequnce 모델에 적용되었던 attention mechanism은 single-head attention이라고 할 수 있다. RNN sequence to sequence의 bottleneck pro..