한 시즌으로는 부족하다: 5년 치 데이터로 다시 본 득실차와 승률

지난 글에서 2025시즌 30팀 데이터로 r값을 구했다. 결과는 0.95. "매우 강한 양의 상관관계"라는 결론을 내렸다.

그런데 찜찜했다.

데이터가 30개뿐이었기 때문이다. 하필 2025시즌이 유난히 깔끔한 해였을지도 모른다. 2024년에도, 2023년에도 이렇게 깔끔하게 나올까? 아니면 r = 0.95는 2025시즌만의 행운이었을까?

확인하는 방법은 하나다. 데이터를 더 모은다.

샘플이 적으면 생기는 일

동전을 10번 던져서 앞면이 7번 나왔다고 해보자. "앞면이 나올 확률이 70%"라고 말할 수 있을까?

없다. 10번으로는 아무것도 단정할 수 없다. 같은 실험을 다시 하면 앞면이 4번 나올 수도, 6번 나올 수도 있다. 동전이 진짜 공정한지 아닌지 판단하려면 수백 번은 던져봐야 한다.

데이터 분석도 똑같다. 30팀, 한 시즌으로 얻은 r = 0.95는 "그 30개 점에 대한 답"일 뿐이다. MLB라는 세계 전체의 답이라고 말하려면 더 많은 데이터가 필요하다.

많을수록 좋다. 하지만 많다고 무조건 좋은 것도 아니다. 어떤 데이터를 더 모을지도 중요하다.

왜 2020은 빼야 하는가

가장 손쉬운 확장은 "최근 몇 년 치를 더 가져오는 것"이다. 그런데 여기서 함정이 하나 있다.

MLB의 2020시즌은 60경기만 치러졌다. 원래 162경기인데 코로나 때문에 3분의 1만 뛴 것이다.

이게 왜 문제일까? 득실차(Diff)는 "한 시즌 동안 득점 - 실점"이다. 162경기를 치른 해는 득실차가 ±200을 넘나들지만, 60경기만 치른 2020시즌은 ±60 근처에서 움직인다. 축의 스케일이 완전히 다르다.

그대로 섞으면 2020시즌 점들이 원점 근처에 뭉쳐서 다른 시즌과 전혀 다른 분포로 찍힌다. r값 계산 자체는 문제없지만, 시각적으로도 해석적으로도 "사과와 오렌지를 섞는" 일이 된다.

그래서 2020은 빼기로 했다. 대신 2021~2025, 5시즌, 150개 점을 쓴다. 모두 162경기 풀시즌이다.

여기서 배울 수 있는 건 하나다. "데이터를 더 많이 쓰면 좋다"가 항상 참은 아니다. 같은 조건에서 잰 데이터만 섞어야 한다.

5시즌을 한 판에 찍어봤다

2021부터 2025까지, 150개 팀 시즌을 한 산점도에 올렸다. 시즌별로 색을 다르게 해서.

색이 섞여 있지만, 모든 시즌이 같은 패턴으로 흐른다. 어떤 시즌도 "이 시즌만 다르게 논다"는 느낌이 없다. 점 개수는 5배로 늘었는데 모양은 그대로다.

숫자로 확인해보자

눈으로 보는 건 여기까지. 진짜 질문은 이거다.

r값은 어떻게 변했는가?

전체 150개 점으로 계산한 r값, 그리고 시즌별 r값 5개를 나란히 봤다.

예상을 벗어나지 않는다.

전체 r: 2025시즌 단독으로 쟀을 때와 거의 같은 수준으로 0.9대 후반에 머문다.
시즌별 r 5개: 어느 시즌을 잘라봐도 전부 0.9 위다. 2025만의 행운이 아니었다.

지난 글에서 "30팀으론 부족하지 않나"라고 찜찜해했는데, 그 찜찜함은 5배의 데이터로 해소됐다. 한 시즌만의 현상이 아니라, 매년 반복되는 구조적인 관계였다.

"r이 변하지 않았다"는 것의 의미

한 가지 짚고 갈 게 있다. r값이 "변하지 않은 것"은 단순히 "운 좋게 맞췄다"는 뜻이 아니다.

만약 득실차와 승률의 관계가 약했다면, 시즌을 합치면 합칠수록 r값이 흔들렸을 것이다. 어떤 시즌은 0.95, 어떤 시즌은 0.6 이런 식으로. 그리고 전체로 합치면 평균인 0.8 근처로 수렴했을 것이다.

그런데 시즌별 r이 다 0.9 위고, 합친 것도 0.9 위다. 이건 "이 관계가 MLB 야구에 구조적으로 박혀 있다"는 뜻이다. 구단이 바뀌고 선수가 바뀌고 규칙이 조금씩 바뀌어도, 득점을 많이 하고 실점을 적게 한 팀이 이긴다는 사실은 변하지 않는다.

너무 당연한 얘기로 들리는가? 그런데 그 "당연함"을 숫자로 확인했다는 것이 중요하다. 데이터 분석은 종종 상식을 검증하는 일이다. 상식이 맞다는 걸 확인하는 것도, 틀렸다는 걸 발견하는 것도, 둘 다 결과다.

이상치는 없었을까?

점 150개 중에 "튀는" 팀들도 몇 개 있다.

득실차는 낮은데 승률은 평균 이상인 팀 → 접전을 유난히 잘 잡았거나 운이 좋았던 팀
득실차는 높은데 승률은 기대만큼 안 나온 팀 → 반대로 접전에서 꼬여버린 팀

이런 팀들은 r값을 깎아먹는다. 그런데도 r이 0.9 위라는 건, 그 몇 개의 이상치를 덮고도 남을 만큼 나머지 142~145개 팀이 일직선 위에 줄 서 있다는 뜻이다.

이상치 자체도 재미있는 분석 대상이다. "왜 저 팀은 득실차에 비해 승률이 이상했을까?"는 그 자체로 한 편의 분석이 된다. 하지만 그건 다음 질문이다.

여기서 끝나는 질문, 여기서 시작되는 질문

이제 1편에서 던진 질문에 자신 있게 답할 수 있다.

득실차가 크면 정말 승률이 높은가?

그렇다. 5시즌, 150개 팀 데이터로 확인했다. 득실차와 승률은 매우 강한 양의 상관관계(r ≈ 0.9x)를 가지며, 이 관계는 매 시즌 일관되게 유지된다.

하지만 여기서 새로운 질문이 생긴다.

득실차가 승률을 결정하는 것인가, 아니면 같이 움직이는 것뿐인가? 상관관계와 인과관계는 다르다는 말을 들어봤을 것이다. 0.95라는 숫자가 "득실차가 승률을 만든다"는 뜻일까, 아니면 "둘 다 팀 실력이라는 숨은 원인에 의해 움직이는 것"뿐일까?

이 질문은 다음 편에서 다뤄보려 한다.

이 분석은 직접 만든 도구 just-mlb로 했습니다. 5시즌 scatter와 시즌별 r값을 직접 보고 싶다면 방문해보세요.