
'넘치는 데이터 속에서 진짜 의미를 찾아내는 법'을 알고 싶어서 빌려본 책.
책은 세가지 질문으로 시작된다.
‘건강검진을 받으면 장수할 수 있다?’
‘아이들이 텔레비전을 많이 보면 성적은 떨어진다?’
‘명문 대학을 졸업하면 연봉이 높다?’
언뜻 보면 세 질문의 정답은 ‘YES’로 보인다.
이 논리가 성립된다면 원인과 결과 즉, 인과관계가 성립된다고 말할 수 있다.
과연 그럴까?
건강검진을 받았기 때문에 장수할 수 있는 것(인과관계)가 아니라
건강검진을 받을 정도로 건강에 대한 의식이 높은 사람일수록 장수하는 것(상관관계)이 아닐까?
텔레비전을 보기 때문에 성적이 떨어지는 것(인과관계)가 아니라
성적이 낮은 어린이일수록 텔레비전을 많이 보는 것(상관관계)이 아닐까?
입학 점수가 높은 대학에 갔기 때문에 수입이 높은 것(인과관계)이 아니라
미래의 수입이 상승할 만한 잠재력이 높은 사람일수록 커트라인이 높은 대학에 다니는 것(상관관계)일 수도 있다.
이렇든 많은 사람들이 ‘인과관계’와 ‘상관관계’를 혼동하여 결과를 도출한다.
인과관계인지 상관관계인지 정확히 구분해 내기 위한 방법론을 ‘인과 추론’이라고 하며
이는 추리와 추정을 통해 결론을 이끌어내는 것을 의미한다.
즉, 두 개의 사실이 각각 원인과 결과인지 평가해 결론을 이끌어내는 것이다.
데이터 분석가로서 인과관계와 상관관계의 차이를 이해하고
‘정말 인과관계가 있는지’ 명확히 하는 훈련을 해두는 것이 중요하다고 생각한다.
이 책은 데이터 해석과 인과 추론의 기법을 흥미로운 사례와 함께 설명한 책이며
저자들이 직접 참여했거나 혹은 유명 석학들의 연구 결과를 토대로 인과 추론의 개념과
상관관계/인과관계에 대한 이해, 데이터 해석이 잘못됐을 때 발생할 수 있는 문제에 대해
쉽고 적절한 비유와 함께 풀어 나간 책이다.
우리가 하는 모든 행동이 데이터가 되는 시대에 데이터 분석 기술도 중요하지만
데이터가 만들어내는 숨겨진 맥락을 읽고 데이터의 분석 결과를 해석하는 기술도 필요하기에
‘인과 추론’은 결국 데이터가 범람하는 시대의 필수 교양이라고 할 수 있다.
어려운 통계 용어를 잘 모르는 사람들도 쉽게 이해하도록 구성된 책이라
데이터 관련 일을 하는 사람이라면 읽어보면 좋을 거 같다.
'데이터 분석 > 도서 리뷰' 카테고리의 다른 글
<빅데이터 시대, 성과를 이끌어 내는 데이터 문해력> by 카시와기 요시키 (0) | 2022.11.29 |
---|---|
<모두 거짓말을 한다> by Seth Stephens-Davidowitz (0) | 2022.11.25 |
<지속 가능한 세상을 위한 데이터 이야기> by 박옥균 (0) | 2022.10.31 |
<감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나> by 황보현우, 김철수 (0) | 2022.10.14 |