본문 바로가기

자연어 처리 과정

Quotient rule for derivative of softmax with respect to fk(x)

 

'자연어 처리 과정' 카테고리의 다른 글

Transformer: Scaled dot-product attention  (0) 2023.08.13
Transformer: Multi-head attention  (0) 2023.08.13
What does "linear in parameters" mean in linear regression?  (0) 2023.07.31
Backpropagation  (0) 2023.07.31
Regularization  (0) 2023.07.26