Woo Bin

성장을 목표로 끊임없이 배우고 있습니다.

Toggle menu

📂 전체 글 수 149 개
DeepLearning
- NLP 논문 리뷰 (18)
- ML & DL (7)
Coding Test
- 프로그래머스 (42)
- 백준 (35)
TIL 공부 일지
- TIL(23)
데이터 분석
- project(21)
- GA4(3)

[두 번째 논문 리뷰] ALBERT

ALBERT

두가지의 파라미터 줄이는 기법을 소개함.

Factorized embedding parameterazation

단어사전의 크기는 V가 되고 hidden layer의 크기는 H가 되는데 이 값이 커지면 V*E 역시 증가해서 파라미터의 개수가 증가한다.
따라서 E의 크기를 줄인 다음 작은 E 크기로 projection하고 이를 다시 hidden layer의 크기로 projection하는 기법을 사용.

-> embedding 크기가 hidden layer의 크기보다 작을 때 효과적이다.

피드포워드 layer의 파라미터를 공유하거나 어텐션 layer의 파라미터를 공유하는 방법이 있다. ALBERT는 기본적으로 모든 파라미터를 공유한다.

Inter-sentence coherence loss

NSP는 MLM과 비교하면 어려운 task가 아니므로 효과적이지 않다.
SOP는 NSP와 비슷하게 연속된 segments를 사용하지만 두 segmet의 순서를 바꾼다.
SOP는 NSP task를 해결하지만 NSP는 SOP task를 해결하지 못 한다.

Share on

Twitter Facebook LinkedIn

You may also enjoy

구글 애널리틱스4 분석 환경 설정

구글 애널리틱스4 시작 전 환경 설정을 알아봅시다!

디지털 마케팅의 종류

구글 애널리틱스의 정의와 디지털 마케팅의 종류를 알아봅시다!

구글 애널리틱스의 데이터 수집 원리

구글 애널리틱스의 디지털 수집 원리를 알아봅시다!

A/B Test 프로젝트

빅쿼리 및 파이썬을 통해 A/B Test 과정을 수행하는 프로젝트입니다.