TERCERA PARTE: REPRESENTACION DE LOS DATOS

 REPRESENTACIÓN DE LOS DATOS

Al igual que un alumno puede representar como delegado a su curso o a su carrera, el conjunto de los casos de un grupo, como los 100 anteriores, puede ser representado por uno que pretende ser el que, en conjunto, mejor les representa.

Si una elección de representantes se hace correctamente, es difícil que el representante elegido sea una persona “extrema”; lo habitual es elegir a aquella persona que se aparta menos de la gran mayoría de los casos, razón por la cual representa mejor a todos sin ser igual que ninguno de ellos.
En el manejo de los números que realiza la Estadística* la reducción que hemos presentado mediante distribuciones de frecuencias, por intervalos más o menos amplios- puede llevarse a manifestaciones superiores cuando todo un conjunto de datos (por ejemplo, los 100 anteriores) se reduce a 1, que pretende representarlos a todos con la mayor fiabilidad.

Cuando decimos que la mayoría de una clase aprueba, que la esperanza de vida de los españoles está en torno a los 80 años, que el abandono escolar supera el 30 %, ... estamos representando a todos por ese valor. Es obvio que algunos españoles viven más de 80 años y que la mayoría vive menos, pero ese valor representa mejor que ningún otro a todos los españoles en esa característica.

1. Medidas de posición o de tendencia central

Pues bien: cuando en Estadística* se habla de representación de un conjunto de datos se piensa generalmente en las medidas denominadas de posición* o tendencia central, alguna tan conocida como la media aritmética*; junto a ella, la mediana* y la moda*.

Si en la vida ordinaria se dice de algo que está de moda estamos afirmando que es lo que más se lleva. Por ello, podemos representar los 100 valores anteriores por el que más se da, al que denominamos Moda* (Mo) o, como otros dicen, Modo. Este valor es el 77, con los datos originales, o el 75,5 (marca de clase del intervalo con el mayor número de casos o frecuencia) en la distribución por intervalos.

Otro valor representativo es la Mediana* (Md). Basta con ordenar de mayor a menor, o viceversa, la serie original y contar hasta encontrar el que ocupa el lugar central. Si la serie tiene un número par de casos, la Md será el valor medio de los dos centrales. En nuestro caso, con los datos originales, tales puntuaciones son iguales (76) por lo que la Md. coincide con ellos.

La Estadística* nos enseña a representar un elevado número de casos por medio de un solo valor para todo un conjunto o grupo. En ocasiones, como veremos, acudimos a tres tipos de valores representativos, que nos ofrecen una visión muy completa del conjunto de puntuaciones del grupo.


Ahora bien: si analizamos la situación, podemos ver que, en el primer caso, solo cuenta la puntuación que más se repite, mientras en el segundo la única que se toma en consideración es la que ocupa el lugar central, sin que ni siquiera importe cuál es su valor. Son dos limitaciones a tener en cuenta.

Ambas limitaciones son superadas por la más completa de estas medidas, le Media o Media aritmética*, ya que todas y cada una de las puntuaciones de la serie contribuyen a configurarla en proporción a su valor. Por ello, para su cálculo no importa cuál sea la más repetida o cuál ocupe un determinado lugar en la serie ordenada; de hecho, no es preciso ordenar la serie sino sumar todas las puntuaciones y dividir la suma por el número de casos (N). Para el cálculo de la Media se aplica la ecuación siguiente: 








En el supuesto de calcular la media en una distribución de frecuencias, la anterior ecuación se convierte en esta otra (ecuación 4), donde el valor Xi no es una puntuación directa sino la marca de clase del intervalo: 







Compruebe el lector la pequeña distorsión que se da entre este valor, 73,02, el más exacto, y el obtenido en el caso de la distribución de 11 intervalos, donde la suma de los productos de las marcas de clase por sus frecuencias arroja un valor muy próximo: 7230, con la cual la media es de 72,3. Puede comprobar estos datos en la tercera fila de la tabla 3 y en la última columna.


El tipo de medidas que se utiliza más comúnmente para representar a un grupo es el de tendencia central o posición y, dentro de estas, la media aritmética* es la más completa; pero solo debe utilizarse con variables medidas con escalas de razón o cociente y de intervalo. En ocasiones, cuando los rangos de una variable ordina*l se aproximan razonablemente a una escala de intervalo, también se suele utilizar la media aritmética*. 



2. Medidas de dispersión* o variabilidad
Ponga ahora atención el lector a estas dos series de datos ya presentados anteriormente:
5, 5, 5, 5, 5,5,5,5,5,5 10,10,10,10,10, 0, 0, 0, 0, 0
Si calculamos la Mediana*, en ambos casos es la misma: 5 en la primera serie y (10 + 0) : 2 = 5 en la segunda. Y si lo hacemos con la Media, en ambos casos obtenemos una media de 5.

Sin embargo, a nadie se le oculta que estamos ante dos conjuntos de datos radicalmente diferentes, a pesar de que el valor representativo Media sea el mismo. Para hacer más realista el caso, piense en un profesor que tiene no 10 alumnos sino 20 o 30, en dos clases distintas: en la 



Ponga ahora atención el lector a estas dos series de datos ya presentados anteriormente:
5, 5, 5, 5, 5,5,5,5,5,5 10,10,10,10,10, 0, 0, 0, 0, 0

Si calculamos la Mediana*, en ambos casos es la misma: 5 en la primera serie y (10 + 0) : 2 = 5 en la segunda. Y si lo hacemos con la Media, en ambos casos obtenemos una media de 5.

Sin embargo, a nadie se le oculta que estamos ante dos conjuntos de datos radicalmente diferentes, a pesar de que el valor representativo Media sea el mismo. Para hacer más realista el caso, piense en un profesor que tiene no 10 alumnos sino 20 o 30, en dos clases distintas: en la primera, los 20 o 30 niños, con puntuaciones de 5 en Matemáticas y en la segunda, con la mitad de casos con 10 y la otra mitad con 0. Parece obvio que no debería actuar del mismo modo en ambas clases.

Un tipo de medidas representativas diferente del anterior (medidas de posición o tendencia central) es el denominado de dispersión*, que nos informa de esta característica. Si en la primera de las dos series anteriores la dispersión en nula, dado que todas las puntuaciones coinciden con la Media, en el segundo es máxima ya que todos los casos se sitúan en los extremos.

En un caso como este, basta fijarnos en lo que se conoce como rango de la serie para hacernos una idea clara del grado de dispersión*. Pero lo representado en ambas series no es lo habitual. Ni, por lo general, todos obtienen la misma puntuación ni se da una fractura tan grande entre los miembros del grupo.

Para apreciar la magnitud de la dispersión* contamos con medidas específicas, tales como la desviación mediana, la desviación media, la desviación típica* o la varianza*.

El mismo nombre de la primera desviación mediana- ya nos sugiere en qué consiste: es la media de las desviaciones de las puntuaciones con respecto a la Md del grupo. En el caso de la desviación media se trata, también, de la media de las desviaciones, pero ahora tomando como referencia la media aritmética*.

Ahora bien: podemos comprobar qué es lo que pasa cuando hacemos estas operaciones en la siguiente serie, donde la media 5: (50 : 10) y Md es 6 (Tabla 4) 


Como se puede apreciar, en el primer caso obtenemos una suma positiva o negativa según que la distribución tienda a los valores inferiores o superiores a la Md (en este caso, los valores son negativos). Pero en el segundo la suma da, y siempre dará, 0 como consecuencia de las propiedades de esa medida de posición. Por eso, en el caso de la desviación mediana tendremos que tomar las desviaciones en valor absoluto (lo que se representa por el símbolo | |) y trabajar con la suma de las mismas


DMd=26/10=2,6

No obstante, no es esta la medida de dispersión* más utilizada. Siempre que es posible, se acude a la desviación típica*, representada por s, y a su cuadrado, conocido como varianza*, representada por s2


En ambos casos, las desviaciones con respecto a la Media (Xi Media) se elevan al cuadrado a fin de evitar que la suma dé 0. Pues bien: la varianza (s2) es la media de las desviaciones de las puntuaciones individuales con respecto a la media, elevadas al cuadrado; por su parte, la desviación típica* (s) es la raíz cuadrada de la anterior.


Junto a las medidas de posición, podemos caracterizar un grupo con las de dispersión* o
variabilidad, que nos ofrecen una idea del grado de concentración de las puntuaciones directas en torno a la media, lo que tiene evidentes aplicaciones para la práctica profesional. Hemos citado, como fundamentales, la desviación media, la desviación típica* y la varianza*.

Estas medidas tienen su uso más frecuente en la denominada Estadística inferencial*; una utilidad muy común e importante es la de interpretar una puntuación individual en el marco de una distribución normal (campana de Gauss) como veremos más adelante.

Suponiendo que nuestra distribución empírica de datos se acomoda al modelo normal podremos interpretar la puntuación de un sujeto cualquiera viendo cuántas unidades de s se aparta de la media del grupo, algo que podemos traducir fácilmente a porcentajes como tendremos ocasión de ver.
Esa puntuación individual*, basada en s, se conoce como puntuación típica* (z) a la que ya nos hemos referido, e indica en cuántas desviaciones típicas se aparta un sujeto de la media del grupo (Ecuación 2).
Aunque tendremos ocasión de verlo con más detalle, lo podemos apreciar en el siguiente gráfico de la curva normal de probabilidades* (Figura 5): 






Cualquier puntuación individual (Xi)* ocupa un lugar en la curva, por encima o por debajo de la ordenada de la Media (línea roja vertical), que la divide en dos partes simétricas. Las puntuaciones cercanas a la Media se encuentran a su derecha o a su izquierda, según sean mayores o menores que ella. Una puntuación Xi que se aparte una desviación típica* por encima o por debajo de la media se situará en la ordenada correspondiente del gráfico (± σ). Pero de esto hablaremos más adelante.
Baste decir ahora que la Estadística* hace sus verdaderas aportaciones en lo que denominamos inferencia, que no es sino el proceso por el cual estimamos determinados valores de una variable en el conjunto total de casos (población*) a partir de los medidos en una muestra* de la misma. Los valores medidos en la muestra se denominan estadísticos* y se representan como hemos hecho hasta ahora (M, Md, Mo, DMd, s, s2, ...) Los valores estimados en la población se denominan parámetros* y para ellos utilizamos letras griegas (para el parámetro Media utilizamos , para la desviación típica, σ)
Un ejemplo claro y sencillo: un profesor con 4500 puede tomar una muestra* de los mismos de 150, obtener su media y estimar cuál será la media () de los 4500. Y lo mismo con la desviación típica (σ)
Otro: en las encuestas sobre intención de voto, se suelen tomar muestras de no más de 2 o 3 mil sujetos; a partir de sus respuestas se estima la intención de voto de los varios millones de españoles que votarán.
Sin entrar en detalles, se comprende:
  1. a)  Que los datos fiables son los medidos en la muestra*
  2. b)  Que los datos estimados en la población* podrán apartarse en mayor o menor grado del
    verdadero valor.
  3. c)  Que la precisión de la estimación depende de la calidad de la muestra*
  4. d)  Que los datos más útiles son los estimados a pesar del error de estimación que les
    afecte.
Cuanto más seguridad desee el investigador para sus estimaciones, más calidad deberá tener su muestra*, esto es: más representativa de la población*, lo que exige un tamaño suficiente y una selección imparcial de los sujetos, por lo general aleatoria. Para hacernos una idea de lo que entendemos por representatividad podemos acudir a una fotografía con respecto a la persona. Las fotografías pueden ser más o menos fieles al sujeto fotografíado.
Pues bien: para esos procesos de inferencia, las medidas de dispersión* más utilizadas son la varianza* y la desviación típica*. Su cálculo es sencillo a partir de los datos de la tabla 4, ya que no es sino la media de las desviaciones elevadas al cuadrado, en el primer caso; en el segundo, es la raíz cuadrada de dicho valor. Cuestión diferente, como veremos, es la de su interpretación.
En nuestro caso, tal suma alcanza el valor de 80, por lo que la varianza* será:

 Sinentrarendetalles,laMdes5;ylosQ1 yQ3 4y7.Portanto,el50%deloscasosse encuentra entre 4 y 7, siendo ese el valor de tal recorrido. Lo podemos apreciar fácilmente si la serie anterior la convertimos en datos originales, sin agrupar por frecuencias:

 



Terminaremos este punto con el coeficiente de variación, una sencilla medida que no es sino el cociente entre la desviación típica* y la media del grupo. Su principal utilidad es la de facilitar la comparación de la dispersión de dos series de datos.
; en nuestro caso estaríamos ante 5 : 8,94 = 0,56

3. Medidas  de  forma

En nuestro recorrido por las medidas de representación hemos visto las de posición o de tendencia central y las de dispersión*. 


Utilizadas conjuntamente, tenemos una valiosa información para hacernos una idea de las características de un grupo. Pero podemos mejorar tal información mediante otras dos medidas de interés, no tanto por sus propias aportaciones como por lo que contribuyen a la caracterización del grupo; nos referimos a las de simetría y de apuntamiento, denominadas en algunos manuales como medidas de forma por ofrecer información sobre la forma general de la distribución de los datos.
Veamos estas series de datos (Series 3 a, b, c, d, e):
a) 5,5,5,5,5,5,5,5,5,5 b) 1,1,1,1,1,1,1,1,1,1 c) 9,9,9,9,9,9,9,9,9,9 d) 1,2,4,4,5,5,6,6,8,9 e) 1,1,1,35,7,8,9,9,9
Las tres primeras series tienen la misma forma, una forma uniforme o plana; la diferencia se da en que los valores son medios en a) y extremos en b) y en c). La serie d) es más habitual: los valores extremos son menos frecuentes que los medios. Y la serie e) presenta una distribución menos frecuente, con más casos en los extremos que en el centro.
Si centramos nuestra atención en d) observamos que el valor más frecuente, el 5, está en el centro, y que tiene tantos valores a su izquierda como a su derecha; además, sus frecuencias descienden hacia ambos extremos en la misma forma: 2, 1 y 1 casos. Si representáramos la serie y la dobláramos por la mitad apreciaríamos su simetría.

3.1. Simetría / asimetría

Pues bien; una medida de forma es la que nos indica su simetría o, mejor, el grado de asimetría de una distribución empírica; se representa por g1 y mide el grado de asimetría de una serie de puntuaciones, esto es: la medida es que la serie empírica se aparta de una distribución simétrica, característica propia de las distribuciones denominadas normales, esto es, de las que siguen el modelo de la denominada curva normal de probabilidades* o campana de Gauss, una de cuyas características definitorias es la de ser simétrica con relación a la ordenada de la media.
La medida del grado de asimetría, denomina coeficiente de asimetría, se representa por g1 y se obtiene mediante la siguiente ecuación: 

Cuando el número de valores de una distribución es mayor en la parte inferior a la media que en la superior a la misma, la distribución se muestra asimétrica hacia la izquierda, y hacia la derecha en caso contrario. En el primer caso g1 < 0 y la asimetría se considera negativa; en el segundo, g1 > 0, y la asimetría es positiva.

Las medidas de forma nos ofrecen una idea de dos características del grupo como tal: el grado en que se acercan a la simetría, característica del modelo normal, y el de apuntamiento, más o menos equilibrado.


Si las diferencias entre los valores positivos y negativos en (Xi media) tienden a 0, la distribución se considera simétrica. La elevación de este valor al cubo se debe a que se trata de
evitar que la ∑ – = 0, como nos ocurría en el caso de la varianza*. En la figura 6 se presentan sendos ejemplos: 



3.2. Apuntamiento o curtosis


También con la serie d) podemos cuantificar su apuntamiento (simbolizado por g2) esto es: el grado en que las puntuaciones centrales se concentran en torno a la media del grupo. El apuntamiento también recibe el nombre de curtosis.
Sin entrar en explicaciones que no vienen al caso, diremos que el apuntamiento normal se representa por g2 = 3; valores de g2 > 3 representan una distribución que recibe el nombre de leptocúrtica, mientras que en el caso de distribuciones con g2 < 3, más achatadas, la distribución se denomina platicúrtica. La normal, obviamente, recibe el nombre de mesocúrtica.
La distribución leptocúrtica no solo tiene un mayor apuntamiento central sino que los valores extremos presentan, también, mayores frecuencias que en la normal. Por tanto, si un profesor está ante una distribución leptocúrtica sabe que sus alumnos se concentran más en el centro que en los extremos y que las puntuaciones extremas presentan frecuencias más elevadas que las que se darían si la distribución fuera normal.
El apuntamiento se obtiene mediante: 

En la figura 7 pueden apreciar curvas con diferente grado de apuntamiento, superior e inferior al normal.

Las medidas de asimetría nos permiten calificar la distribución de las puntuaciones de un grupo como “normal” o como asimétricas, en mayor o menor grado, bien sea asimetría positiva o negativa. 



No hay comentarios.:

Publicar un comentario