deadPXsociety

신호와 소음_베이즈 통계학의 우아함 본문

신호와 소음_베이즈 통계학의 우아함

WiredHusky 2019. 10. 6. 09:37

이 책은 빅데이터를 제대로 활용하는 법을 알려주는 책이 아니다. 통계적 이론을 정리해 놓은 책도 아니다. '예측' 하는 법을 배우고 싶다면 이 책은 그다지 유용하지 않다. 수 많은 사례들 속에서 스스로 깨달음을 얻어야 한다.

 

이 엄청나게 두꺼운 책을 딱 두 단어로 요약하면 '베이즈 주의'와 '불확실성'이다. 저자는 불확실성을 수용하는 것이야말로 예측하는 사람의 기본 덕목이라고 생각한다. 예측은 수 많은 변수에 영향을 받는다. 꼼꼼한 사람이라면 우리가 알고 있는 변수의 현재값을 측정하고 모르는 변수의 값을 추정하여 정교한 시뮬레이션을 돌릴 수 있다. 하지만 문제는 우리가 무엇을 알고 무엇을 모르는 지 조차 명확하지 않다는 것이다. 예측은 아무리 정교해도 현재 가지고 있는 데이터를 넘어설 수는 없다. 따라서 모든 예측은 확률로 기술될 뿐이다. 예기치 않은 변수가 등장하거나 측정한 변수의 값이 바뀌었을 때 발생 확률은 다시 계산된다. 이것이 바로 베이즈 통계학의 기본이다.

 

베이즈 통계학의 가장 아름다운 점은 설령 두 사람의 예측이 완전히 반대에 위치하더라도 새롭게 발생하는 사건(데이터)에 의해 동일한 결과로 수렴할 수 있다는 점이다. 우리가 예측의 불확실성을 인정하지 않으면 데이터가 아무리 쏟아져도 초기에 가졌던 인지적 편향을 바꾸기는 어려울 것이다. 인간의 뇌는 본능적으로 부조화를 기피한다. 초기 예측은 편향으로 똘똘 뭉쳐 있는데, 문제는 자신의 판단과 어긋나는 정보를 기피하려는 우리 뇌의 특성에 의해 이 편향이 더욱 강화되기 때문이다.

 

 

베이즈 예측의 기본은 사전확률을 정한 뒤 새로운 정보가 추가됐을 때의 확률을 구해 사후확률을 계산하는 것이다. 예컨대 이성 친구가 바람을 필 확률을 예측한다고 가정해보자.

 

(1) 사전확률

- 이성친구가 바람을 피울 확률의 초기 추정치(x): 15%

(2) 새로운 사건 발생: 수수께기의 이성과 같이 술을 마시는 장면이 포착되었다.

- 이성친구가 바람을 피운다는 조건 하에 다른 이성친구와 술을 마실 확률(y): 95%

- 이성친구가 바람을 피우지 않는다는 조건 하에 다른 이성친구와 술을 마실 확률(z): 10%

(3) 사후확률

- 이성친구가 다른 이성친구와 술을 마신다는 사실을 발견했다는 조건 하에 수정된 바람을 피울 확률

xy/{xy+z(1-x)} = 0.62637363 = 약 63%

 

혹자는 위 계산 과정에서 사용된 추정치들이 모두 주관적 판단에 의한 것이 아니냐는 문제를 제기할 수 있다. 특히 무엇인가가 발생하기도 전에 그것의 발생 확률을 미리 정해둬야 한다는(사전확률 추정) 가정은(그 예측 결과를 알고 싶은건데 그 예측을 예측해 보라니?) 대단히 주관적이고, 어딘가 우스꽝스러워 보일 것이다. 맞다. 베이즈 주의는 모든 추정이 100% 객관적이라고 주장하지 않는다. 실제로 초기 추정치에 따라 사후확률은 굉장히 탄력적으로 변할 수도 있다. 그럼에도 불구하고 이 통계학이 유용한 이유는 새롭게 등장하는 사건에 따라 끊임없이 예측값이 변화한다는 점이다.

 

매 시간, 아니 매분 매초 마다 바뀌는 예측이 무슨 의미가 있냐고? 이렇게 묻는 사람들은 한번 곰곰히 생각해 보기 바란다. 이 세상엔 운명이라는 것이 존재하는가? 한번 내려진 예측은, 인간이 무슨 행동을 하든 기어이 실현되고 마는가? 예측은 이후에 우리가 어떻게 행동하고, 그 행동이 어떤 결과를 가져오느냐에 따라 완전히 달라진다. 변화야 말로 예측의 본질인 것이다.

Comments