200 Free 5X Bonus

lunes, 1 de septiembre de 2008

La distribución normal



“Lo último que uno sabe, es por donde empezar. He redactado esta carta más extensa de lo usual porque carezco de tiempo para escribirla más breve”. Blaise Pascal


Siguiendo con la serie de artículos que empecé hablando de la varianza, ahora le toca el turno a la distribución normal. Este punto es quizás un poco más denso y más pesado que los anteriores. La verdad es que no tengo muy claro como enfocarlo para que se entienda bien y a la vez no pegarle una patada en los cojones al señor Gauss. Antes de nada, me gustaría rendir des de aquí un homenaje a este estimable señor. No por su aportaciones al mundo de las matemáticas o de la física (esas las he sufrido) sino por su aportación al mundo de la docencia. Gracias a él descubrí que para ir aprobando asignaturas no hacía falta ser listo sino un poquito menos burro que la media de tus compañeros. Allí donde estés te mando 10 euros por moneybookers para que te tomes un cubata a mi salud.


A lo que vamos. Existe un teorema llamado Teorema del Límite Central, que lo que nos viene a decir (si tenéis algún amigo matemático, decirle que mire para hacia otro lado un momento lol) es que sí tenemos una muestra suficientemente grande (lo de suficientemente grande dependerá del tipo de datos que estemos tratando), los posibles resultados, convergen en una distribución especial de probabilidad, llamada distribución normal. Para los casos que nos ocupan, de esto nos quedaremos sólo con que si tenemos una muestra medio decente de manos, podremos considerar que los resultados siguen una distribución normal. Para todo lo demás Mastercard (o wikipedia en su defecto: Teorema del límite central ).


Vale muy bien, ¿y que coño es una distribución normal?

A casi todo el mundo le será familiar está imagen:


Se trata de una distribución con forma de campana cuyo pico coincide con la media de la población y las colas se aproximan a 0 de forma asintótica (llegan a 0 en el infinito).

Lo que quiere decir esto es que a medida que nos vayamos alejando de la media, los sucesos se volverán más improbables.

Por comodidad, suele usarse lo que se conoce como distribución normal estandarizada. Esta no es más que un caso particular de la distribución normal en que la media vale 0 y la desviación estándar es 1. Para ello sólo tendremos que hacer un pequeño cambio de variable que ya veremos más adelante.

Si volvemos a la imagen, el eje horizontal, representa desviaciones estándar, es decir: un 1 significa a 1 desviación estándar de la media, un 2 a 2 desviaciones estándar de la media y así correlativamente.

El área total bajo la curva es 1 y el área entre dos puntos cualquiera X1 y X2, es igual a la probabilidad de que un resultado en particular esté entre X1 y X2.



Por poner un ejemplo, si tuviésemos una muestra cualquiera con una media de 10 y una desviación estándar de 2, podríamos conocer la probabilidad de estar entre 8 y 12 ( 10 +- 1 desviación estándar) calculando el área correspondiente.

La verdad es que calcular el área es un tostón y yo no voy a ser tan cabrón como lo fueron conmigo que no me explicaron que existían tablas con los cálculos hechos hasta el último día de clase.

De todas formas, hay ciertas áreas que la gente suele conocer. Estas son:
  • La probabilidad de encontrarse entre la media +- 1 desviación estándar es del 68%

  • La probabilidad de encontrarse entre la media +- 2 desviaciones estándar es del 95%


  • La probabilidad de encontrarse entre la media +- 2.5 desviaciones estándar es del 99%

Sabiendo esto, con la desviación estándar y la media, ya podríamos empezar a calcular algunas cosillas.

Bueno, por hoy lo dejo ahí. Es bastante probable que me haya explicado con el culo pero no se me ocurre otra forma de contar esto. En las próximas entradas empezaré ya a poner en práctica todo esto y empezaremos a ver algunas de sus aplicaciones.

6 comentarios:

Haroldmk dijo...

¡Qué éxito!

lonebar dijo...

Sí, ya ves, jeje.Si a alguien le puede servir de algo ya me conformo. Es más que nada para añadir algo al blog y además así repaso cosas que tenía olvidadísimas.

Saludos!

Victor dijo...

Me encantan tus articulos, una pena que solo sean tres seguire tu blog a partir de ahora porque explicas de lujo cosas a mi entender algo complicadas.

Anónimo dijo...

Estan muy bien los articulos pero nos has dejado a medias!

A la espera de mas entregs!

Martin

Anónimo dijo...

Vaya PM no has explicado mas que levemente 20 minutos de clase de estadistica, bajate el R y luego me cuentas.

lonebar dijo...

Anónimo 2, mi objetivo no es hacer una disertación para que tú apruebes tús exámenes sino intentar explicar estos conceptos de la forma más sencilla posible para que lo entienda cualquiera que no haya estudiado matematicas/estadística en su vida.

Y sí, el R es muy potente pero no veo que relación guarda con lo que trato de explicar en este entrada que es una simple introducción teórica.