Metodología · Redacción A lo Profundo

Cómo calculamos nuestras predicciones: Pythagorean + ajustes contextuales

Por El Pollo Apuestas · Actualizado el 17 de abril de 2026

Cada día publicamos probabilidades de victoria para los juegos de la MLB. No son adivinanzas, ni las saca un tuitero con buen ojo: salen de un modelo reproducible que publicamos abierto porque creemos que un fanático debería poder auditar al medio que consume. Este artículo explica, en español y sin florituras, qué hace nuestro modelo y —tan importante como eso— qué no hace.

La base: Pythagorean de Bill James

El punto de partida es la famosa Pythagorean Expectation que Bill James propuso a finales de los setenta para estimar el porcentaje de victorias esperado de un equipo a partir de sus carreras anotadas (RS) y permitidas (RA). La fórmula clásica es:

Win% = RS² / (RS² + RA²)

Con los años se popularizó el exponente 1.83 (Pythagenpat) en lugar de 2, porque ajusta mejor a MLB en contextos de run environment muy alto o muy bajo. Nosotros usamos esa variante. Con eso obtenemos dos Win% base: uno para el local y uno para el visitante.

Los cuatro ajustes contextuales

Pythagorean es poderoso pero ciego al contexto del juego de hoy: no sabe quién abre, cómo viene el equipo la última semana ni si el bullpen está quemado. Por eso aplicamos cuatro ajustes sobre la probabilidad base del local:

Ventaja de localía (+4%). Histórica en MLB: los equipos de casa ganan alrededor del 54% de las veces. Aplicamos un bono fijo del 4% sobre la probabilidad del local.
Diferencial de abridores (ERA). Tomamos el ERA del año del abridor anunciado de cada equipo. La diferencia se convierte en un ajuste de probabilidad acotado (±15% máx.) con una función logística para que no explote en diferenciales muy grandes con muestras pequeñas.
Forma reciente (L10). Ponderamos récord en los últimos 10 juegos para capturar rachas calientes y frías. El efecto máximo es del ±6%. Es deliberadamente modesto: una racha de 10 juegos no te dice cómo rendirás en el 11.
Fatiga del bullpen (bullpen fatigue). Contamos cuántos relevistas han lanzado en los últimos tres días y qué cantidad de pitcheos acumulan. Si uno de los equipos tiene tres o más relevistas "agotados", la probabilidad de ese equipo cae hasta un 3%.

Banderas de confianza

No todas las predicciones se publican con la misma seguridad. Marcamos cada una con una de tres etiquetas:

Alta (>65%): el modelo se inclina con convicción por un lado.
Media (55–65%): ventaja clara pero no contundente.
Baja (<55%): partido prácticamente de moneda al aire.

Adicionalmente, en las primeras tres semanas de temporada añadimos la etiqueta "Temporada temprana" para recordar que Pythagorean con pocas muestras es inestable. Las probabilidades de abril deben leerse con pinzas.

Track record abierto

Un modelo sin track record es un horóscopo. Publicamos cada predicción en el momento en que se genera, y cuando termina el juego, se marca acierto o error en nuestro Track Record público. Allí puedes ver la tasa de aciertos acumulada por banda de confianza, por mes y por temporada, sin filtros cosméticos.

Qué el modelo NO hace (y es importante)

No modela lesiones en tiempo real. Si un jugador clave sale por IL durante la mañana del partido, el modelo todavía no lo sabe.
No considera clima profundamente. Vientos, humedad y temperatura afectan el juego y hoy no los usamos (lo estamos evaluando).
No ajusta por park factors. Un juego en Coors Field y uno en Oracle Park se tratan igual en términos de run environment. Futura mejora.
No predice el resultado exacto (carreras). Solo la probabilidad de victoria.
No es una recomendación de apuesta. Las probabilidades del modelo se comparan contra el mercado en nuestra sección de probabilidad vs. mercado, pero eso es información, no consejo financiero.

Cómo evoluciona el modelo

Esta es la versión 1. Ya tenemos en cola varias mejoras que queremos publicar con transparencia: weighting por calidad de oponente (SOS), park factors, mejor modelado de bullpen (no solo "agotado sí/no", sino leverage), y eventualmente un componente basado en wOBA proyectado por alineación. Cada cambio quedará documentado aquí y en el commit público de nuestro repositorio en GitHub. Nada se cambia en la oscuridad.

¿Por qué publicar la metodología?

Porque los medios de béisbol en español llevan décadas regurgitando números sin explicar cómo se producen. Nuestra apuesta editorial es simple: el lector debe poder criticarnos. Si encuentras un error en la metodología, si te parece que un ajuste está mal calibrado o si tienes una idea mejor, escríbenos a hola@aloprofundomlb.com. Este modelo es un trabajo en progreso, no un oráculo.