investigacion cuantitativa: TERCERA PARTE: REPRESENTACION DE LOS DATOS

REPRESENTACIÓN DE LOS DATOS

Al igual que un alumno puede representar como delegado a su curso o a su carrera, el conjunto de los casos de un grupo, como los 100 anteriores, puede ser representado por uno que pretende ser el que, en conjunto, mejor les representa.

Si una elección de representantes se hace correctamente, es difícil que el representante elegido sea una persona “extrema”; lo habitual es elegir a aquella persona que se aparta menos de la gran mayoría de los casos, razón por la cual representa mejor a todos sin ser igual que ninguno de ellos.
En el manejo de los números que realiza la Estadística* la reducción que hemos presentado – mediante distribuciones de frecuencias, por intervalos más o menos amplios- puede llevarse a manifestaciones superiores cuando todo un conjunto de datos (por ejemplo, los 100 anteriores) se reduce a 1, que pretende representarlos a todos con la mayor fiabilidad.

Cuando decimos que la mayoría de una clase aprueba, que la esperanza de vida de los españoles está en torno a los 80 años, que el abandono escolar supera el 30 %, ... estamos representando a todos por ese valor. Es obvio que algunos españoles viven más de 80 años y que la mayoría vive menos, pero ese valor representa mejor que ningún otro a todos los españoles en esa característica.

1. Medidas de posición o de tendencia central

Pues bien: cuando en Estadística* se habla de representación de un conjunto de datos se piensa generalmente en las medidas denominadas de posición* o tendencia central, alguna tan conocida como la media aritmética*; junto a ella, la mediana* y la moda*.

Si en la vida ordinaria se dice de algo que está de moda estamos afirmando que es lo que más se lleva. Por ello, podemos representar los 100 valores anteriores por el que más se da, al que denominamos Moda* (Mo) o, como otros dicen, Modo. Este valor es el 77, con los datos originales, o el 75,5 (marca de clase del intervalo con el mayor número de casos o frecuencia) en la distribución por intervalos.

Otro valor representativo es la Mediana* (Md). Basta con ordenar de mayor a menor, o viceversa, la serie original y contar hasta encontrar el que ocupa el lugar central. Si la serie tiene un número par de casos, la Md será el valor medio de los dos centrales. En nuestro caso, con los datos originales, tales puntuaciones son iguales (76) por lo que la Md. coincide con ellos.

La Estadística* nos enseña a representar un elevado número de casos por medio de un solo valor para todo un conjunto o grupo. En ocasiones, como veremos, acudimos a tres tipos de valores representativos, que nos ofrecen una visión muy completa del conjunto de puntuaciones del grupo.

Ahora bien: si analizamos la situación, podemos ver que, en el primer caso, solo cuenta la puntuación que más se repite, mientras en el segundo la única que se toma en consideración es la que ocupa el lugar central, sin que ni siquiera importe cuál es su valor. Son dos limitaciones a tener en cuenta.

Ambas limitaciones son superadas por la más completa de estas medidas, le Media o Media aritmética*, ya que todas y cada una de las puntuaciones de la serie contribuyen a configurarla en proporción a su valor. Por ello, para su cálculo no importa cuál sea la más repetida o cuál ocupe un determinado lugar en la serie ordenada; de hecho, no es preciso ordenar la serie sino sumar todas las puntuaciones y dividir la suma por el número de casos (N). Para el cálculo de la Media se aplica la ecuación siguiente:

En el supuesto de calcular la media en una distribución de frecuencias, la anterior ecuación se convierte en esta otra (ecuación 4), donde el valor Xi no es una puntuación directa sino la marca de clase del intervalo:

Compruebe el lector la pequeña distorsión que se da entre este valor, 73,02, el más exacto, y el obtenido en el caso de la distribución de 11 intervalos, donde la suma de los productos de las marcas de clase por sus frecuencias arroja un valor muy próximo: 7230, con la cual la media es de 72,3. Puede comprobar estos datos en la tercera fila de la tabla 3 y en la última columna.

El tipo de medidas que se utiliza más comúnmente para representar a un grupo es el de tendencia central o posición y, dentro de estas, la media aritmética* es la más completa; pero solo debe utilizarse con variables medidas con escalas de razón o cociente y de intervalo. En ocasiones, cuando los rangos de una variable ordina*l se aproximan razonablemente a una escala de intervalo, también se suele utilizar la media aritmética*.

2. Medidas de dispersión* o variabilidad
Ponga ahora atención el lector a estas dos series de datos ya presentados anteriormente:
5, 5, 5, 5, 5,5,5,5,5,5 10,10,10,10,10, 0, 0, 0, 0, 0
Si calculamos la Mediana*, en ambos casos es la misma: 5 en la primera serie y (10 + 0) : 2 = 5 en la segunda. Y si lo hacemos con la Media, en ambos casos obtenemos una media de 5.

Sin embargo, a nadie se le oculta que estamos ante dos conjuntos de datos radicalmente diferentes, a pesar de que el valor representativo Media sea el mismo. Para hacer más realista el caso, piense en un profesor que tiene no 10 alumnos sino 20 o 30, en dos clases distintas: en la

Ponga ahora atención el lector a estas dos series de datos ya presentados anteriormente:
5, 5, 5, 5, 5,5,5,5,5,5 10,10,10,10,10, 0, 0, 0, 0, 0

Si calculamos la Mediana*, en ambos casos es la misma: 5 en la primera serie y (10 + 0) : 2 = 5 en la segunda. Y si lo hacemos con la Media, en ambos casos obtenemos una media de 5.

Sin embargo, a nadie se le oculta que estamos ante dos conjuntos de datos radicalmente diferentes, a pesar de que el valor representativo Media sea el mismo. Para hacer más realista el caso, piense en un profesor que tiene no 10 alumnos sino 20 o 30, en dos clases distintas: en la primera, los 20 o 30 niños, con puntuaciones de 5 en Matemáticas y en la segunda, con la mitad de casos con 10 y la otra mitad con 0. Parece obvio que no debería actuar del mismo modo en ambas clases.

Un tipo de medidas representativas diferente del anterior (medidas de posición o tendencia central) es el denominado de dispersión*, que nos informa de esta característica. Si en la primera de las dos series anteriores la dispersión en nula, dado que todas las puntuaciones coinciden con la Media, en el segundo es máxima ya que todos los casos se sitúan en los extremos.

En un caso como este, basta fijarnos en lo que se conoce como rango de la serie para hacernos una idea clara del grado de dispersión*. Pero lo representado en ambas series no es lo habitual. Ni, por lo general, todos obtienen la misma puntuación ni se da una fractura tan grande entre los miembros del grupo.

Para apreciar la magnitud de la dispersión* contamos con medidas específicas, tales como la desviación mediana, la desviación media, la desviación típica* o la varianza*.

El mismo nombre de la primera –desviación mediana- ya nos sugiere en qué consiste: es la media de las desviaciones de las puntuaciones con respecto a la Md del grupo. En el caso de la desviación media se trata, también, de la media de las desviaciones, pero ahora tomando como referencia la media aritmética*.

Ahora bien: podemos comprobar qué es lo que pasa cuando hacemos estas operaciones en la siguiente serie, donde la media 5: (50 : 10) y Md es 6 (Tabla 4)

Como se puede apreciar, en el primer caso obtenemos una suma positiva o negativa según que la distribución tienda a los valores inferiores o superiores a la Md (en este caso, los valores son negativos). Pero en el segundo la suma da, y siempre dará, 0 como consecuencia de las propiedades de esa medida de posición. Por eso, en el caso de la desviación mediana tendremos que tomar las desviaciones en valor absoluto (lo que se representa por el símbolo | |) y trabajar con la suma de las mismas

DMd=26/10=2,6

No obstante, no es esta la medida de dispersión* más utilizada. Siempre que es posible, se acude a la desviación típica*, representada por s, y a su cuadrado, conocido como varianza*, representada por s2.

En ambos casos, las desviaciones con respecto a la Media (Xi – Media) se elevan al cuadrado a fin de evitar que la suma dé 0. Pues bien: la varianza (s2) es la media de las desviaciones de las puntuaciones individuales con respecto a la media, elevadas al cuadrado; por su parte, la desviación típica* (s) es la raíz cuadrada de la anterior.

Junto a las medidas de posición, podemos caracterizar un grupo con las de dispersión* o

variabilidad, que nos ofrecen una idea del grado de concentración de las puntuaciones directas en torno a la media, lo que tiene evidentes aplicaciones para la práctica profesional. Hemos citado, como fundamentales, la desviación media, la desviación típica* y la varianza*.

Estas medidas tienen su uso más frecuente en la denominada Estadística inferencial*; una utilidad muy común e importante es la de interpretar una puntuación individual en el marco de una distribución normal (campana de Gauss) como veremos más adelante.

Suponiendo que nuestra distribución empírica de datos se acomoda al modelo normal podremos interpretar la puntuación de un sujeto cualquiera viendo cuántas unidades de s se aparta de la media del grupo, algo que podemos traducir fácilmente a porcentajes como tendremos ocasión de ver.
Esa puntuación individual*, basada en s, se conoce como puntuación típica* (z) a la que ya nos hemos referido, e indica en cuántas desviaciones típicas se aparta un sujeto de la media del grupo (Ecuación 2).
Aunque tendremos ocasión de verlo con más detalle, lo podemos apreciar en el siguiente gráfico de la curva normal de probabilidades* (Figura 5):

Cualquier puntuación individual (Xi)* ocupa un lugar en la curva, por encima o por debajo de la ordenada de la Media (línea roja vertical), que la divide en dos partes simétricas. Las puntuaciones cercanas a la Media se encuentran a su derecha o a su izquierda, según sean mayores o menores que ella. Una puntuación Xi que se aparte una desviación típica* por encima o por debajo de la media se situará en la ordenada correspondiente del gráfico (± σ). Pero de esto hablaremos más adelante.
Baste decir ahora que la Estadística* hace sus verdaderas aportaciones en lo que denominamos inferencia, que no es sino el proceso por el cual estimamos determinados valores de una variable en el conjunto total de casos (población*) a partir de los medidos en una muestra* de la misma. Los valores medidos en la muestra se denominan estadísticos* y se representan como hemos hecho hasta ahora (M, Md, Mo, DMd, s, s2, ...) Los valores estimados en la población se denominan parámetros* y para ellos utilizamos letras griegas (para el parámetro Media utilizamos , para la desviación típica, σ)
Un ejemplo claro y sencillo: un profesor con 4500 puede tomar una muestra* de los mismos de 150, obtener su media y estimar cuál será la media () de los 4500. Y lo mismo con la desviación típica (σ)
Otro: en las encuestas sobre intención de voto, se suelen tomar muestras de no más de 2 o 3 mil sujetos; a partir de sus respuestas se estima la intención de voto de los varios millones de españoles que votarán.
Sin entrar en detalles, se comprende:

a) Que los datos fiables son los medidos en la muestra*
b) Que los datos estimados en la población* podrán apartarse en mayor o menor grado del
verdadero valor.
c) Que la precisión de la estimación depende de la calidad de la muestra*
d) Que los datos más útiles son los estimados a pesar del error de estimación que les
afecte.

Cuanto más seguridad desee el investigador para sus estimaciones, más calidad deberá tener su muestra*, esto es: más representativa de la población*, lo que exige un tamaño suficiente y una selección imparcial de los sujetos, por lo general aleatoria. Para hacernos una idea de lo que entendemos por representatividad podemos acudir a una fotografía con respecto a la persona. Las fotografías pueden ser más o menos fieles al sujeto fotografíado.
Pues bien: para esos procesos de inferencia, las medidas de dispersión* más utilizadas son la varianza* y la desviación típica*. Su cálculo es sencillo a partir de los datos de la tabla 4, ya que no es sino la media de las desviaciones elevadas al cuadrado, en el primer caso; en el segundo, es la raíz cuadrada de dicho valor. Cuestión diferente, como veremos, es la de su interpretación.
En nuestro caso, tal suma alcanza el valor de 80, por lo que la varianza* será:

Sinentrarendetalles,laMdes5;ylosQ1 yQ3 4y7.Portanto,el50%deloscasosse encuentra entre 4 y 7, siendo ese el valor de tal recorrido. Lo podemos apreciar fácilmente si la serie anterior la convertimos en datos originales, sin agrupar por frecuencias:

Terminaremos este punto con el coeficiente de variación, una sencilla medida que no es sino el cociente entre la desviación típica* y la media del grupo. Su principal utilidad es la de facilitar la comparación de la dispersión de dos series de datos.
; en nuestro caso estaríamos ante 5 : 8,94 = 0,56

3. Medidas de forma

En nuestro recorrido por las medidas de representación hemos visto las de posición o de tendencia central y las de dispersión*.

Utilizadas conjuntamente, tenemos una valiosa información para hacernos una idea de las características de un grupo. Pero podemos mejorar tal información mediante otras dos medidas de interés, no tanto por sus propias aportaciones como por lo que contribuyen a la caracterización del grupo; nos referimos a las de simetría y de apuntamiento, denominadas en algunos manuales como medidas de forma por ofrecer información sobre la forma general de la distribución de los datos.
Veamos estas series de datos (Series 3 a, b, c, d, e):
a) 5,5,5,5,5,5,5,5,5,5 b) 1,1,1,1,1,1,1,1,1,1 c) 9,9,9,9,9,9,9,9,9,9 d) 1,2,4,4,5,5,6,6,8,9 e) 1,1,1,35,7,8,9,9,9
Las tres primeras series tienen la misma forma, una forma uniforme o plana; la diferencia se da en que los valores son medios en a) y extremos en b) y en c). La serie d) es más habitual: los valores extremos son menos frecuentes que los medios. Y la serie e) presenta una distribución menos frecuente, con más casos en los extremos que en el centro.
Si centramos nuestra atención en d) observamos que el valor más frecuente, el 5, está en el centro, y que tiene tantos valores a su izquierda como a su derecha; además, sus frecuencias descienden hacia ambos extremos en la misma forma: 2, 1 y 1 casos. Si representáramos la serie y la dobláramos por la mitad apreciaríamos su simetría.

3.1. Simetría / asimetría

Pues bien; una medida de forma es la que nos indica su simetría o, mejor, el grado de asimetría de una distribución empírica; se representa por g1 y mide el grado de asimetría de una serie de puntuaciones, esto es: la medida es que la serie empírica se aparta de una distribución simétrica, característica propia de las distribuciones denominadas normales, esto es, de las que siguen el modelo de la denominada curva normal de probabilidades* o campana de Gauss, una de cuyas características definitorias es la de ser simétrica con relación a la ordenada de la media.
La medida del grado de asimetría, denomina coeficiente de asimetría, se representa por g1 y se obtiene mediante la siguiente ecuación:

Cuando el número de valores de una distribución es mayor en la parte inferior a la media que en la superior a la misma, la distribución se muestra asimétrica hacia la izquierda, y hacia la derecha en caso contrario. En el primer caso g1 < 0 y la asimetría se considera negativa; en el segundo, g1 > 0, y la asimetría es positiva.

Las medidas de forma nos ofrecen una idea de dos características del grupo como tal: el grado en que se acercan a la simetría, característica del modelo normal, y el de apuntamiento, más o menos equilibrado.

Si las diferencias entre los valores positivos y negativos en (Xi – media) tienden a 0, la distribución se considera simétrica. La elevación de este valor al cubo se debe a que se trata de
evitar que la ∑ – = 0, como nos ocurría en el caso de la varianza*. En la figura 6 se presentan sendos ejemplos:

3.2. Apuntamiento o curtosis

También con la serie d) podemos cuantificar su apuntamiento (simbolizado por g2) esto es: el grado en que las puntuaciones centrales se concentran en torno a la media del grupo. El apuntamiento también recibe el nombre de curtosis.
Sin entrar en explicaciones que no vienen al caso, diremos que el apuntamiento normal se representa por g2 = 3; valores de g2 > 3 representan una distribución que recibe el nombre de leptocúrtica, mientras que en el caso de distribuciones con g2 < 3, más achatadas, la distribución se denomina platicúrtica. La normal, obviamente, recibe el nombre de mesocúrtica.
La distribución leptocúrtica no solo tiene un mayor apuntamiento central sino que los valores extremos presentan, también, mayores frecuencias que en la normal. Por tanto, si un profesor está ante una distribución leptocúrtica sabe que sus alumnos se concentran más en el centro que en los extremos y que las puntuaciones extremas presentan frecuencias más elevadas que las que se darían si la distribución fuera normal.
El apuntamiento se obtiene mediante:

En la figura 7 pueden apreciar curvas con diferente grado de apuntamiento, superior e inferior al normal.

Las medidas de asimetría nos permiten calificar la distribución de las puntuaciones de un grupo como “normal” o como asimétricas, en mayor o menor grado, bien sea asimetría positiva o negativa.

Páginas

TERCERA PARTE: REPRESENTACION DE LOS DATOS

No hay comentarios.:

Publicar un comentario