(source : http://myventurepad.com/10-objectives-six-sigma-green-belt-training-certification/)
Previously
Software에도 유용하게 적용되는 six sigma에 대해서 사례나 적용 위주로 풀어나가는 글을 쓰고 있습니다. 적정한 시점이 되면 DMAIC나 일반적인 이론, 그리고 실제 과제를 진행하는 것에 대해서도 글을 쓰려고 합니다. 다만, 그 전에 six sigma의 흥미로운 이야기와, 재미있는 통계 이야기를 먼저 풀어나가려고 하고 있습니다.
["1화 : 숫자를 맞추어 보세요"]
["2화 : 어느 반의 성적이 더 좋은가요?"]
에 이은 세번째 연재 입니다.
교회가 많으면 범죄가 늘어난다?
오늘은 제목이 다소 자극적입니다만, 실제 이런 오류가 벌어진다면 얼마나 그 파급력이 클지에 대해서 고민을 하게 만드는 부분입니다. 즉 절대로 이런 분석은 하면 안된다는 이야기를 하고 싶어서 다소 얼토 당토 하지 않은 이야기를 예로 들게 되었습니다.(사실 이 예는 제가 강의를 듣던 교수님이 즐겨 쓰시는 사례입니다.) - 한국말은 끝까지 보아야 하니 어떻게 결론이 나는지 꼭 보아 주세요.
아래 표를 보시겠습니다. (아래 표는 예시를 위해서 임의로 만든 것입니다.)
각 도시 또는 지역별 교회의 수와, 1주일에 발생하는 범죄의 건수라고 가정을 해보겠습니다.
문제의 출발은 이랬습니다.
범죄가 많이 발생하는 이유가 무엇이지?
그래서 어떤 사람이 혹시나 하여 교회의 수를 조사해 보자. 이렇게 된 것입니다.
그리고 그 어떤 사람은 Six sigma에서 상관관계라는 분석 tool을 생각해 내게 됩니다. 사실 six sigma는 framework이기 때문에 상관관계 분석은 이미 여러 통계를 쓰는 사람들이 사용하는 tool중에 하나 입니다.
상관관계 분석
우선 그래프 분석을 해보니...교회의 수가 많은 곳에는 범죄의 수도 많습니다. 무언가 개연성이 있어 보입니다. 흔히 우리가 이야기 하는 정비례 관계가 보입니다.
실제 상관관계 분석을 돌려 보면,
제가 만든 데이터이니 놀랄것도 없지만, 상관계수 r = 1의 놀라운 결과가 나왔습니다. 교회의 수와 범죄의 발생 수가 아주 큰 관계가 있어 보입니다.
적어도 교회가 많은 곳에는 범죄가 많고, 교회가 적은 곳에는 범죄가 적다는 정도이 해석도 가능하겠습니다. 하지만 까마귀 날자 배 떨어진다고, 둘이 전혀 인과 관계가 없을 가능성이 훨씬 높습니다.
그래서 말 그대로 "상관관계"로만 보고 해석을 했다면 "교회가 많으면 범죄가 늘어난다"라는 이야기를 안했을 터인데..이를 "인과 관계"로 오해하여 "교회가 많으면 범죄가 늘어난다"라는 해석이 된 것입니다.
상관 관계란?
우선 제대로 된 해석을 하기 위해선 상관관계가 무엇인지부터 보는 것이 좋겠습니다.
우선 상관관계를 이론적으로 간단히 보겠습니다. 수식은 생략하구요, 상관 관계는
크게 2가지가 있습니다. 양의 상관관계와 음의 상관관계. 양의 상관 관계는 하나가 증가하면 다른 하나도 증가하는 것이고, 음의 상관관계는 하나가 증가하면 다른 하나는 감소하는 경우를 의미합니다.
반대로 하나가 감소할때 다른 하나가 감소해도 양의 상관관계이죠. 저희가 학교때 배우 정비례가 양의 상관관계, 반비례가 음의 상관관계입니다.
그리고 이를 수치화 하여 "r"이라는 값으로 표시합니다. 이 값의 범위는 -1 <= r <= 1 이 됩니다.
r값이 크면 클 수록 상관관계가 강하다고 이야기 합니다.
그럼 위의 해석으로 돌아가 보면 r값이 "1"이 었으니 양의 상관관계가 굉장히 크다. 이렇게 해석할 수 있겠죠. 이는 수치적인 해석이고, 실제 의미적인 해석은 또 다른 문제 입니다.
의미의 해석
상관관계 해석의 의미는 크게 3가지가 있습니다. 편의상 A, B의 관계라고 이야기 하겠습니다.
- A, B가 아무런 인과 관계가 없는 경우
- A, B가 인과 관계인 경우
- A, B가 또 다른 인과 관계 factor인 C와 관계되는 경우
여기서 인과관계는 원인과 결과의 관계입니다. 예를 들어 "수능 시험 성적이 좋으면 대학교 합격률이 높아진다."와 같은 것은 인과관계입니다. 당연히 둘의 상관관계도 높을 것이고 양의 상관관계입니다.
그렇다면 위의 교회와 범죄의 관계는? 1번에 해당할까요? 그렇지 않습니다. 3번에 해당 합니다.
무슨 이야기냐 하면, 또 다른 C가 있는 것입니다. 여기에서 C는 바로 "인구의 수"입니다.
즉..
"인구의 수가 많으면 교회의 수도 많다."
"인구의 수가 많으면 범죄의 수도 많다."
이렇게 인구가 교회와, 범죄의 수에 인과 관계를 형성하는 경우이고, 이로 인해서 교회와 범죄의 수에 대해서 상관관계가 생긴 것입니다. 그런데 이를 잘못 해석하면 인수의 수는 쏘옥 빠지고 교회와 범죄만 남게되는 상황이 벌어지는 것입니다. 애초에 가설 설정이 잘못 된 것이지요.
사실 이런 일은 프레임을 바꾸는 작업에서도 많이 벌어집니다. 그래서 문제의 본질을 잘 쳐다보아야 하는 상황이 벌어지는 것이구요..
여기에서 중요한 것은 교회와 범죄의 수에 대한 관계나 이에 대한 논쟁이 아니라, 그 밑에 본질인 인구의 수를 보아야 한다는 중요한 교훈이 있습니다. 그런데 교회와 범죄의 민감한 논쟁에 빠지게 되면 인구는 영원히 잊혀지게 되는 상황이 벌어지곤 합니다.
마치며
오늘은 상관관계 분석과, 그 해석의 중요성에 대해서 알아보았습니다.
다음에도 더 재미있는 주제로 돌아오겠습니다.
즐거운 주말 보내세요.