반응형

분류 전체보기 823

[Bayesian] 측도론(Measure Theory)

https://www.edwith.org/bayesiandeeplearning/joinLectures/14426 Bayesian Deep Learning 강좌소개 : edwith - 최성준 www.edwith.org 최성준 교수님의 Bayesian Deep Learning 강의를 정리합니다. 측도론(Measure Theory) 주어진 Universal set U에 대하여 measuer은 U의 각 subset에 nonnegative real number를 할당합니다. Set function - set의 숫자를 할당하는 함수(Cardinality, length, area) $\sigma$-field $\beta$ - 면적을 주기 위해 필요한 최소 단위 - sigma field 내에 존재하는 부분 집합은 me..

수학/Bayesian 2021.07.26

[Paper Review] SimCLRv2(2020), Big Self-Supervised Models are Strong Semi-Supervised Learners

Big Self-Supervised Models are Strong Semi-Supervised Learners Ting Chen, Simon Kornblith, Kevin Swersky, Mohammad Norouzi, Geoffrey Hinton arXiv 2020 PDF, SSL By SeonghoonYu July 26th, 2021 Summary This paper achieves SOTA performance by combine the pre-trained model on self-supervised learning with knowledge distilation. Namely, They show that using pre-trained model on SSL as teacher model fo..

[Paper Review] Set Transformer(2018), A Framework for Attention-based Permutation-Invariant Neural Networks

Set Transformer, A Framework for Attention-based Permutation-Invariant Neural Networks Juho Lee, Yoonho Lee, Jungtaek Kim arXiv 2018 PDF, Transformer By SeonghoonYu July 25th, 2021 Summary Set Transforemr is a function that performs permutation invariant by taking elements thar are ordered in the set. The model consists of an encoder and a decoder, both of which rely on attention. This model lea..

[ISLR] 계단 함수(Step Functions)

계단 함수(Step Functions) X의 범위를 bins로 쪼개어 각 bin에 대한 서로 다른 상수로 적합합니다. 이는 연속 변수(continuous variable)을 순서범주형 범주(ordered categorical variable)로 전환합니다. X의 범위에서 절단점(cut point)을 사용하여 K+1개의 새로운 변수를 생성합니다. 여기서 I는 지시 함수이며 조건이 참이면 1, 그렇지 않으면 0을 반환합니다. 이는 더미 변수(dummy variable)이라고도 부릅니다. 주의할 점은 어느 X에 대하여 $C_0(X) + C_1(X) + ... + C_K(X) = 1$을 만족합니다. X가 K+1 구간중 하나에만 속하기 때문입니다. 위 더미 변수를 설명 변수로 사용하여 선형 모델을 최소 적합할 수..

[ISLR] 다항식 회귀(Polynomial Regression)

다항식 회귀(Polynomial Regression) 반응 변수(Y, response)와 설명 변수(X, predictors) 사이의 관계가 비선형인 상황에서 선형 회귀(Linear Regression)을 확장하는 방법은 다항식 함수(polynomial function)으로 대체하는 것입니다. 이 방법이 다항식 회귀이며 차수 d가 충분히 큰 경우에 다항식 회귀는 비선형 곡선을 나타냅니다. 위 식에서 계수들은 최소 제곱을 사용하여 쉽게 추정될 수 있습니다. d 가 3 또는 4보다 큰 경우에 다항 회귀는 과하게 flexible한 곡선을 만듭니다. 이 경우에 과적합이 발생할 수 있습니다. 위 그림은 나이에 따른 임금 데이터에서 차수가 4인 다항 회귀를 최소 제곱을 사용하여 적합한 결과입니다. 점선으로 된 곡선..

[Bayesian] 집합론(Set Theory)

https://www.edwith.org/bayesiandeeplearning/joinLectures/14426 Bayesian Deep Learning 강좌소개 : edwith - 최성준 www.edwith.org 최성준님의 Bayesian Deep Learning 강의를 정리합니다. 집합론(Set Theory) set, element, subset, universal set, set operations universal set - 전체 셋 set operation - 셋을 갖고 연산을 수행하는 것 disjoint sets - A $\cap$ B = $\phi$ - 두개의 셋사이에 겹치는 것이 없는것 partition of A - A = {1, 2, 3, 4}, partition of A: {{1,2}..

수학/Bayesian 2021.07.25

[Paper Review] Unsupervised Learning of Visual Representations using Videos(2015)

Unsupervised Learning of Visual Representations using Videos Xiaolong Wang, Abhinav Gupta, arXiv 2015 PDF, Video By SeonghoonYu July 23th, 2021 Summary This paper use hundreds of thousands of unlabeled videos from the web to learn visual representations. They use the first frame and the last frame in same video as positive samples and a random frame from different video as negative sample. They ..

[Paper Review] TSM(2018), Temporal Shift Module for Efficient Video Understanding

TSM: Temporal Shift Module for Efficient Video Understanding Ji Lin, Chuang Gan, Song Han, arXiv 2018 PDF Video By SeonghoonYu July 23th, 2021 Summary This paper is 2D Conv based Video model. They present TSM(temporal shift Module). It can be inserted into 2D CNNs to achieve temporal modeling at zero computation and zero parameters. TSM shift the channels along the temporal dimension both forwar..

트랜스포머 정리

트랜스포머 헷갈리는 부분 정리 단어 토큰은 id 형태로 정수로 표현된다. one hot 으로 표현된 단어 토큰들을 concat하여 행렬을 만들어준다. 행렬을 nn.Embedding에 전달하여 정수를 벡터로 표현한다.(학습을 통해 단어의 분산 표현이 가능해짐. 분산 표현이 가능해지면 다른 단어들과 유사도를 측정 가능) 이제 단어 임베딩들을 nn.Linear에 전달하여 Key, Query, Value로 만들어줍니다. 단어 임베딩을 바로 사용하지 않고 별도의 K, Q, V로 만들어서 self-attention에 전달하는 이유는 K,Q,V의 의미가 다 다르기 떄문. Q : 현재 기준으로 삼는 단어의 정보 K : Q와 비교할 단어의 정보 V : 실제로 각 K 단어에서 가져올 정보 Q, K, V 모두 다르게 학습됌..

[Paper Review] BERT(2018), Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, arXiv 2018 PDF, NLP By SeonghoonYu July 22th, 2021 Summary BETR is a multi-layer bidirectional Transformer encoder and learn the word embedding by using the unlabeled data. And then the learned word embbeding is fine-tuned using labeled data from downstre..

논문 읽기/NLP 2021.07.22
반응형