"관계가 있다"를 숫자로 말할 수 있을까?
지난 글에서 산점도를 그려봤다.
득실차(X축)와 승률(Y축)을 점으로 찍으니, 점들이 왼쪽 아래에서 오른쪽 위로 흘렀다. "관계가 있구나"라는 느낌은 확실히 왔다.
그런데 느낌이다.
"관계가 있어 보인다"는 말은 사람마다 기준이 다르다. 누군가는 "꽤 강하네"라고 보고, 누군가는 "글쎄, 흩어진 점도 있는데?"라고 본다. 같은 그래프를 보고도 해석이 달라질 수 있다.
이 관계가 강한 건지 약한 건지, 숫자 하나로 표현할 수 없을까?
눈으로 보는 것의 한계
산점도 두 개를 비교한다고 생각해보자.
- A: 점들이 거의 일직선 위에 놓여 있다
- B: 점들이 대충 우상향하긴 하는데, 꽤 흩어져 있다
A가 "더 강한 관계"라는 건 눈으로도 알 수 있다. 하지만 이런 질문에는 답하기 어렵다:
- A는 B보다 얼마나 더 강한가?
- B의 관계는 "약한" 건가, "보통"인 건가?
- 시즌이 바뀌면 이 관계가 더 강해지는가, 약해지는가?
비교하고, 추적하고, 판단하려면 눈이 아니라 숫자가 필요하다.
상관계수라는 숫자
이럴 때 쓰는 숫자가 있다. 상관계수(Correlation Coefficient), 보통 r이라고 쓴다.
복잡한 수식은 넘어가자. 핵심만 말하면:
- r = 1 → 점들이 완벽한 우상향 직선 위에 놓여 있다. 하나가 올라가면 다른 하나도 반드시 올라간다.
- r = -1 → 완벽한 우하향 직선. 하나가 올라가면 다른 하나는 반드시 내려간다.
- r = 0 → 아무 관계 없다. 점이 사방에 흩어져 있다.
현실에서 r이 딱 1이나 0인 경우는 거의 없다. 대부분 그 사이 어딘가에 있다. 그래서 기준이 필요하다:
| r 값 | 해석 |
|---|---|
| 0.9 이상 | 매우 강한 관계 |
| 0.7 ~ 0.9 | 강한 관계 |
| 0.4 ~ 0.7 | 보통 |
| 0.2 ~ 0.4 | 약한 관계 |
| 0.2 미만 | 거의 무관 |
그래서 득실차와 승률의 r은?
2025시즌 MLB 30팀 데이터로 계산해봤다.

결과:
r = 0.95 부근 — 매우 강한 양의 상관관계
0.95. 거의 1에 가깝다.
산점도에서 느꼈던 "관계가 있다"는 느낌이 틀리지 않았다. 틀리지 않았을 뿐 아니라, 매우 강한 관계다. 득실차가 큰 팀은 거의 예외 없이 승률이 높다.
다른 조합은 어떨까?
득실차와 승률만 강한 관계인 걸까? 다른 숫자들도 확인해봤다.

- 승수(W) vs 패수(L): r이 -0.9 근처. 당연하다. 이기면 덜 지고, 지면 덜 이긴다.
- 득점(R) vs 승률(Pct): r이 0.7~0.8대. 득점만으로도 꽤 강한 관계가 있지만, 득실차만큼은 아니다.
득실차가 득점이나 실점 단독보다 승률을 더 잘 설명한다는 뜻이다. 공격만 잘한다고 되는 게 아니라, 공격과 수비의 차이가 중요하다는 걸 숫자가 확인해준다.
하지만 30팀이면 충분한가?
여기서 한 가지 찜찜한 점이 있다.
데이터가 30개밖에 안 된다. 한 시즌, 30팀. 이게 2024시즌이었으면? 2023시즌이었으면? r값이 여전히 0.95일까?
30개 점으로 "매우 강한 관계"라고 결론 내리기엔 좀 성급하다. 우연히 2025시즌만 그럴 수도 있지 않은가.
데이터를 더 모아서 확인해봐야 한다.
→ 다음 편에서 여러 시즌의 데이터를 합쳐서, 이 관계가 한 시즌만의 현상인지 매년 반복되는 패턴인지 확인해본다.
이 분석은 직접 만든 도구 just-mlb로 했습니다. 산점도 위에 상관계수가 표시되는 걸 직접 확인해보고 싶다면 방문해보세요.