딥러닝 왕초보 나를 위한 기초!

딥러닝 왕초보 나를 위한 기초! 딥러닝 기초 3.5장 Deep Learning Basic3 Entropy에 대하여!

주녕콩 2023. 4. 30. 02:45

딥러닝기초_강의_3장.pptx
0.47MB

안녕하세요~ 3장 초반을 끝내고 3.5장으로 돌아왔습니다! 

 

3.5장에서는 엔트로피(Entropy)에 대해 설명하겠습니다! 

 

엔트로피란 엔트로피는 불확실성을 수치화한 값입니다. 그 건을 예측하는 데에 필요한 질문 개수를 의미하게 됩니다!

또한 Entropy는 정보를 표현하는데 있어 필요한 평균 최소 자원량이라고도 할 수 있습니다!

 

 그래서 엔트로피가 높으면 정보가 많다고 할 수 있으며 확률이 낮다는 것을 의미합니다.

 

반대로 엔트로피가 낮으면 정보의 예측성이 높고 확정적인 정보가 많아, 굳이 정보를 전송하지 않아도 되므로 평균 정보량이 적습니다!

 

엔트로피의 수식은 사건 X에 대한 확률분포를 p(x)라고 할 때 엔트로피 H(x)는 아래와 같이 표현할 수 있습니다!

 

엔트로피에 대한 이해를 위해 문제하나를 찾아왔습니다!

 

Entropy 수식

이 수식에 각각의 확률을 넣어 계산하게 되었습니다! 

 

앞과 뒤가 나올 확률이 각각 50%인 1번 케이스는 그만큼 어떤 면이 나올지 불확실하기 때문에 엔트로피 값이 가장 큰 1이 나오게 됩니다!

 

반면 앞이 나올 확률이 100%이기 때문에  2번 케이스의 경우 엔트로피가 가장 낮은 0이 나옵니다. 

 

다르게 확률을 각각 30% 70%를 하게 되면 0~1사이의 엔트로피 값이 나오게 됩니다!

 

이와 같이 불확실성이 클수록 엔트로피값이 커짐을 확인할 수 있습니다!

 

다음은 크로스 엔트로피로 넘아가게 되는데요! 

 

엔트로피가 정답이 나올 확률만을 대상으로 측정한 값이면 크로스 엔트로피는 모델에서 예측한 확률과 정답확률을 모두 사용해 측정한 값입니다! 

 

위의 수식은 모델에서 각 클래스에 대해 예측한 확률값을 q, 실제 값의 확률을 p라고 하여 두 값을 비교합니다!

 

바로 문제 풀이로 들어가겠습니다!

 

예측한 확률이 정답 확률과 완전히 다른 1번 케이스의 경우 크로스 엔트로피는 무한대가 나오게 됩니다!

 

반대로 생각하면 두 값이 완전히 같은 경우가 되면 크로스 엔트로피는 0이 됩니다!.

 

2번같은 케이스에서는 0보다 큰 수치가 나오게 됩니다!

 

크로스 엔트로피는 정보량을 모델이 예측한 확률을 사용하며 엔트로피는 정답 확률을 정보량으로 사용하기 때문에 크로스 엔트로피의 값이 엔트로피 값보단 크거나 같은 수치를 가지게 됩니다!

 

즉 크로스 엔트로피 손실함수를 사용했을 때 틀릴 수 있는 정보량이 엔트로피보다 더 많기 때문에 더 큰 값이 나옵니다!

 

 

*KL divergence란?

 

이 divergence의 의미는 벡터장의 발산 같은 개념이 아니라, “차이”를 뜻하며  특히, 여기서 “차이”라고 말하는 것은 두 확률 분포를 비교한다는 말입니다!

 

위에 설명되어 있는 것 처럼 엔트로피를 이용하는 방식입니다!

 

수식에 대해 소개를 하겠습니다! 

 

목적을 확률 분포 를 정확히 모델링이라고 가정합니다!

 

KL divergence 수식

이산확률분포  가 동일한 샘플 공간 에서 정의되면 KL divergence는 위 수식 처럼 됩니다!

 

수실을 풀면 이렇게 됩니다!

 

 

식을 잘 보면 두 개의 summation을 포함한 term들은 모두 기댓값으로 치환이 가능합니다!

 

여기서 기댓값 연산자 에 붙은 subscript ‘P’는 라는 확률분포에 대한 기댓값 연산입니다!

 

식을 더욱 풀어보면

 

 의 기준으로 봤을 때의 에 대한 크로스 엔트로피를 의미합니다.

 

 에 대한 정보 엔트로피를 의미하게 됩니다! 

 

이로서 3장을 마치겠습니다! 

 

Entropy에 대해 알아보았습니다! 조금 어려울 수도 있을 것 같다는 생각이 들었습니다!

 

다음은 4장으로 찾아뵙겠습니다~~! 

 

글을 읽어주셔서! 감사합니다!.!