Transformer 모델 - Self-Attention
Self-Attention 개념
개요
2017년 NIPS에서 ‘Attention Is All You Need’ 라는 논문으로 Transformer 모델이 나왔다.
병렬 처리가 안되던 RNN의 한계를 극복한 알고리즘으로 자연어처리에서 좋은 결과를 보여줬다.
내용
ASIS
17년도에 나온 Attentions Is All You Need 논문에서는 Attention만으로 구현된 모델을 소개한다. RNN 기법을 사용하지 않고 인코더, 디코더 구조로만 설계하고 번역 성능에서 RNN보다 뛰어난 성과를 냈습니다.
기존의 seq2seq 모델도 인코더와 디코더는 있었습니다.
입력 seq 를 하나의 백터로 압축하고 디코더는 이 백터를 기반으로 출력 seq 를 만들었습니다.
이 과정에서 입력 seq의 정보가 손실되는 점이 문제였습니다.
RNN 구조를 사용하면 먼 단어일 수록 흐려진다는 단점들이 있었습니다.
또한 병렬 처리가 안된다..
RNN모델은 이전Tn-1에 결과값을 현재Tn 연산에 사용하는 점 때문이다.
따라서 n의 차이가 크면 흐려지고, 이전 결과값을 재귀적으로 받기 때문에 병렬 연산이 불가능하다.
TOBE
이런 구조를 바꾼게 바로 2017년 NIPS에서 ‘Attention Is All You Need’ 라는 논문이다.
참조
https://namu.wiki/w/트랜스포머(인공신경망)
https://chonchony.tistory.com/entry/순환신경망-RNN의-문제점-기울기-소실-기울기-폭주-Gradient-Vanishing-Exploding
https://calmmimiforest.tistory.com/110

