QUINTA PARTE: LA CURVA NORMAL




LA CURVA NORMAL DE PROBABILIDADES

La Real Academia de la Lengua define “modelo” como arquetipo o punto de referencia para imitarlo o reproducirlo... Representación en pequeño de alguna cosa. Esquema teórico, generalmente en forma matemática de un sistema o de una realidad compleja...
En su momento, definimos “modelo” como una representación de la realidad, una representación simplificada, ideal. Afirmábamos que la figura geométrica “cono”, es un modelo, como la esfera, la pirámide o el prisma; estamos ante modelos construidos por el hombre, pero que no están en la Naturaleza. Nadie ha visto en la realidad un cono pero sí objetos cónicos, y citábamos la cumbre del Teide.

Los “modelos” están en el día a día. Pensemos en la ropa de diferentes tallas. Cuando vamos a unos grandes almacenes encontramos ropa de todo tipo de diferentes tallas. Son modelos ideales; cuando nos probamos un traje puede que nos venga perfecto, pero es más común que resulte un poco más ancho, o largo, o estrecho; que tengan que sacarnos un cm., el dobladillo, o encoger la cintura, o subir el hombro... Estamos hablando de las “imperfecciones” de la mujer o del hombre real en relación con el modelo ideal como es la talla. Cuando la distancia entre el modelo y la persona real es muy grande es porque esa talla no representa el modelo al que se acomoda, y el dependiente le busca un traje de otra talla.

Quedémonos con esa idea de modelo como algo ideal, como una representación idealizada, simplificada, de la realidad. Pero seamos conscientes de que, gracias a ello, nos es posible acercarnos a la medida de la superficie de una montaña, o de su volumen. Gracias a ello, la industria textil puede hacer grandes tiradas de trajes, abaratando los costes. La alternativa es ir a un sastre o una modista para que nos haga una prenda a medida. Y gracias a ello, aunque en marcos diferentes, se prueban embarcaciones, coches, aeronaves...

1. El modelo

Pues bien, la curva normal de probabilidades* es un modelo de gran utilización en nuestro ámbito de trabajo debido a Carl F. Gauss (1777-1885).

En Estadística, uno de los modelos más utilizados es el denominado “normal”, representado en la figura 10. No nos detendremos en los demás porque lo que nos interesa es comprender su sentido, uso y utilidad, y esto vale para otros modelos, como t, F o el ya citado χ2.




Sobre unas coordenadas cartesianas, encontramos en el eje de abscisas diferentes valores típicos, expresados en σ alrededor del parámetro* media (μ), situado en el centro de la distribución, con la ordenada más elevada. Entre cada dos valores, la figura nos informa del % de casos que se dan en el modelo ideal, lo que, como veremos, tiene aplicaciones notables para interpretar las puntuaciones individuales de los sujetos.

Para interpretar valores que no se recogen en la figura tendríamos que acudir a la ecuación que rige el modelo (que aparece en la figura 5), pero no es necesario ya que disponemos de tablas estadísticas que nos permiten encontrar esos valores sin más esfuerzo que buscarlos en ellas (ver Anexo).

2. Características

Las características fundamentales de este modelo* son:

La curva normal de probabilidades* nos permite saber el % de casos que se deben encontrar entre dos valores típicos cualesquiera de una distribución empírica de datos que sigan ese modelo. Para averiguarlos debemos acudir a las tablas estadísticas, sin necesidad de hacer operaciones complejas.

  •   El valor máximo de la serie se corresponde con la ordenada de la media. Expresando los valores en términos de puntuaciones típicas (zi) a la media aritmética*le corresponde zi = 0.
  •   La curva es simétrica con respecto a la ordenada de la media; por tanto, a ambos lados de la misma encontramos el 50 % de los casos de la distribución.
  •   Los valores de Media, Mediana y Moda coinciden.
  •   La curva disminuye progresivamente desde la ordenada de la media hacia ambos lados,
    encontrando sendos puntos de inflexión, a derecha e izquierda, que se corresponden con ±
    1σ.
  •   La curva es asintótica en relación con el eje de abscisas, esto es: eje y curva nunca llegan a
    cortarse o, de otro modo: solo se cortan en el infinito. Como consecuencia, la tabla de áreas de la curva normal nunca nos habla de sucesos seguros, cuya probabilidad* es 1; conforme nos alejemos hacia ambos lados, la probabilidad* se acercará a ese valor, pero nunca lo encontraremos.

3. Principales aplicaciones

Una vez comprobado que una distribución empírica, real, se acomoda razonablemente al modelo*, podemos aplicar las características de este a aquella. De tal aplicación se siguen algunas utilidades relevantes.
3.1. Interpretar puntuaciones individuales
Ya hemos aludido a que una de sus aplicaciones fundamentales es la de ayudarnos a interpretar las puntuaciones de un sujeto situándolo en el contexto del grupo del que forma parte. Gracias a ello podemos construir baremos que nos permitan interpretar una puntuación en inteligencia, en autoestima, en producto interior bruto, en tasas de natalidad, etc.
Si tomamos una buena muestra de niños de 9 años, asistentes a escuelas de Educación Primaria, les aplicamos una prueba de conocimientos, la valoramos según una regla de medida previamente definida, hacemos una distribución de frecuencias y comprobamos que se acomoda razonablemente al modelo normal, aunque, como veíamos en la figura 2.b haya determinadas “imperfecciones” (como las aludidas en una montaña o en una talla), construimos con tales puntuaciones un baremo que permita ser aplicado a nuevas muestras de niños de 9 años de Escuela Primaria.
Como vemos, para ello hacen falta dos condiciones:
  1. a)  Que la muestra sea “buena”, algo que hemos definido como que sea representativa, esto es: que tenga tamaño suficiente (hay tablas que nos dicen cuál es) y que sea seleccionada por procedimientos imparciales (en esencia, aleatorios).
  2. b)  Que, aplicada una prueba de bondad de ajuste, la probabilidad* a nuestro favor de que acomode al modelo, de que sea compatible con él, sea tan elevada como deseemos. Recordemos que, por muy elevada que sea, nunca podremos hablar de certeza o seguridad ya que los fenómenos aleatorios no lo permiten.
Con estas condiciones podemos construir el baremo en cuantiles, bien sean en cuartiles (Q), deciles (D) o centiles o percentiles (P). Para ello bastará con mirar en las tablas de la curva normal qué valor dezi deja por debajo de s íel 25,el50,el60,el75,el80,el83%de los casos. En adelante, cualquier nuevo alumno cuya puntuación zi sea como la de aquel que en el baremo le correspondió el percentil 83, o el 70, o el 35... la interpretaremos de este modo.
Se puede decir que las puntuaciones zi no se encuentran en la realidad de una distribución empírica, sino que deben ser calculadas. Pero esto no es un problema ya que sabemos que zi = (Xi - Media) / s.
CURSO 0 DE ESTADÍSTICA APLICADA
Para que esté justificado interpretar las puntuaciones individuales tomando la curva normal* como referencia es preciso que la muestra en la que hemos obtenido las puntuaciones sea representativa, esto es, tenga suficiente tamaño y haya sido extraída por procedimientos imparciales (aleatorios) y que, aplicada la prueba de bondad de ajuste*, los resultados nos informen de una alta probabilidad* a nuestro favor en el sentido de que ambas son compatibles.

Obviamente, relacionado con lo anterior, el modelo nos permite averiguar cuántos sujetos, o qué % de sujetos, quedan por encima de un valor típico, o entre dos valores de zi (sea por encima o por debajo de la media, o uno por encima y otro por debajo.
Podemos apreciarlo de forma intuitiva volviendo a la figura 10:





Con ella, y consultando la tabla de áreas de la curva normal*, podemos comprobar que:
  1. a)  Que el 2,1 % de los casos se encuentran entre las puntuaciones directas a las que correspondan 2σ y 3σ; en efecto, en la tabla de áreas de la curva normal, por debajo de -2σ (área de la parte menor) queda el 2,28 %, mientras por debajo de -3σ queda el 0,13 %. Restando ambos valores tendremos 2,15 %.
  2. b)  Que el 13,6 % de los casos se encuentran entre -1σ y menos 2σ. La tabla de áreas de la curva normal nos indica que, por debajo de -1σ queda el 15,87 %; restando el 2,28 que hemos visto que corresponde a -2σ llegamos al 13,59 %
  3. c)  Que el 34,1 % se encuentra entre la ordenada de la media y menos –1σ. Como sabemos, la ordenada de la media aritmética deja por debajo de sí el 50 %; restando lo correspondiente a 1σ (15,87% de los caso) obtenemos el 34,13 % que figura en el gráfico.
Obviamente, para encontrar el % de casos que se encuentran entre ±1σ deberemos sumar los % correspondientes a la media menos 1σ (34,13) y a la media más 1σ (34,13); por tanto, estamos ante el 68,26 %.
Para transformar estos % a número de sujetos bastará en cada caso multiplicarlos por el valor de N en la distribución empírica de que se trate.


3.2. Atribuir probabilidades a los resultados del contraste de hipótesis*

La otra gran aplicación es la de atribuir probabilidades a determinados valores resultantes de las pruebas estadísticas relacionadas con el punto 6 del primer capítulo (Poner a prueba diferentes formas de intervención sobre sujetos o grupos).

Veamos. Cuando ponemos a prueba dos métodos, por ejemplo, deseamos saber si los resultados nos permiten decidir si uno es mejor que otro, si da mejores resultados. El planteamiento del investigador, formulado como una hipótesis*, sería:

Los resultados obtenidos con el método A son superiores a los logrados con el B
O dicho de otra forma más técnica:
Si los alumnos estudian con el método A, entonces obtendrán mejores resultados que si lo hacen con el B.

El planteamiento seguido en Estadística, lleno de prudencia, dado que queremos probar o contrastar esta hipótesis* “en general” y no solo para los dos grupos de alumnos, consiste en poder rechazar lo que conocemos como hipótesis nula o de nulidad* (representada por H0 frente a la del investigador, representada como H1).

 Esta hipótesis dirá que no existen diferencias entre los resultados de ambos métodos, o que las que puedan existir pueden ser explicadas por efecto del azar*, de la casualidad, en una palabra: que son casuales o fortuitos, que no son estadísticamente significativos*.
Pensemos en dos métodos para el aprendizaje de los idiomas con niños de Primaria. Es evidente que si ambos dan, después de un período de prueba, la misma media aritmética, no tenemos razones para pensar que uno es mejor que el otro.

Pero lo normal es que una media aritmética sea superior a otra. ¿Podemos considerar que un método cuya media aritmética sea de 5,3 es mayor que una de 5.1? Desde luego, 5.3 > 5.1, pero, al igual que nos ocurría con el coeficiente de correlación, ¿no podría ocurrir que esta diferencia fuera casual, esto es: deberse al azar*?
Tengamos en cuenta que trabajamos no con todos los casos y que nuestras medidas no son tan perfectas como las utilizadas para medir la talla o el peso, que tienen errores de medida debidos a que su fiabilidad dista mucho de ser perfecta.

Determinadas pruebas estadísticas, como t de Student o F de Snedecor contrastan las medias aritméticas alcanzadas por los dos valores de la variable independiente* (métodos A y B en nuestro caso) con una estimación de lo que podría explicarse por puro azar*. Cuando la resultante de esta comparación (cociente) tienen unos resultados con alta probabilidad* de deberse al azar*, no se acepta la hipótesis* del investigador sino que se mantiene la denominada nula o de nulidad* que, en definitiva, dice: las diferencias encontradas no son reales, tienen una alta probabilidad* de explicarse por puro azar*. En definitiva: se afirma que las diferencias encontradas no son estadísticamente significativas.

Esto es lo que se quedaría representado por la figura 11.a

En tales casos, el investigador debe ser cauto, prudente: si cabe una posibilidad razonable que esa diferencia en 5.3 y 5.1 pueda ser explicada por azar*, no la asume como verdadera sino que se la atribuye al azar*.


Si en la figura 11.a vemos intuitivamente que la parte Vexperimental (varianza producida por las diferencias entre métodos) es aproximadamente igual e incluso menor que Verror (varianza explicable por el azar), en la 11.b apreciamos que la primera es sensiblemente superior a la segunda. 

Por tanto, en el primer caso no cabe aceptar la hipótesis de que los métodos produzcan diferencias en la variable dependiente; pero en el segundo la decisión no la podemos tomar sin más, sino acudiendo a la Estadística inferencial, mediante un contraste de hipótesis* que nos ayudará a decidir a partir de las probabilidades de que nuestro resultado pueda explicarlo el azar o la casualidad .
Pues bien, la curva normal de probabilidades* (y otros modelos, como t, F o χ2) nos ayudan a asignar esas probabilidades. Científicamente se viene asumiendo que cuando las probabilidades a nuestro favor nivel de confianza- son 95 o más % y, por tanto, las probabilidades de equivocarnos son, como mucho, del 5 %, podemos aceptar la hipótesis* de que las diferencias se deben al método, aquí llamado variable independiente*, y no al puro azar*.
Conviene dejar constancia, no obstante, de que precisamente, la prueba F no sigue el modelo* normal (tiene sus propias tablas), pero todo el razonamiento utilizado le es aplicable. 





No hay comentarios.:

Publicar un comentario