EL CASO DE DOS O MÁS VARIABLES
La información contenida en una serie de datos puede resultar de sumo interés para comprender
la naturaleza y características del grupo al que hace referencia.
Sin embargo, es preciso reconocer que los fenómenos humanos son muy complejos, por lo que
es frecuente que entre los intereses de los profesionales o de los estudiosos se encuentre el de
conocer la relación* o falta de ella (independencia) entre dos o más series de datos.
Preguntas tales como: ¿está relacionada la inteligencia con el sexo, la raza o la escolaridad?.
¿Mantienen relación las técnicas de estudio con las calificaciones? ¿Qué relación se da entre el
número de horas de estudio y los resultados académicos? ¿Se relaciona la violencia juvenil con
el analfabetismo? ¿Hay relación entre el autoconcepto y la asertividad?. ¿Se da relación entre el
consumo de estupefacientes y el nivel cultural?...
A priori, cabe pensar que a más horas de estudio, mejores resultados, pero ¿no puede ocurrir
que, a partir de cierto número de horas el aprendizaje baje y hasta sea nulo? ¿No puede ser que
la relación varíe según el tipo de aprendizaje, memorístico o comprensivo? ¿O que dependa del
momento del día: por la mañana, a medio día o por la tarde?
En cuanto a la relación inteligencia - sexo ¿podría variar según el tipo de inteligencia de que se
trate (recordemos a Gardner y sus inteligencias múltiples)? ¿Podría ocurrir lo mismo con la raza?
1. La correlación*. Tipos y valores
Pues bien: cuando disponemos de dos series de datos y deseamos responder a preguntas
de ese tipo, la Estadística acude en nuestro auxilio al permitirnos establecer si se da o no
relación, denominada aquí correlación* y representada de ordinario por rXY (se lee correlación
entre las variables X e Y) de qué tipo (positiva o negativa) y con qué intensidad (perfecta o
imperfecta).
La existencia de relación supone que las dos series de datos co-varían, esto es: varían
conjuntamente; si hay correlación, el hecho de que los valores de una aumenten o disminuyan
implica que los de la otra aumentan o disminuyen (correlación positiva) o bien que disminuyen o
aumentan (correlación negativa).
Si los cambios mantienen una misma proporcionalidad, la correlación será perfecta, y
quedará representada por los valores +1 o -1, según que sea positiva o negativa; cuando los cambios no llegan a ese nivel, la correlación es imperfecta, positiva o negativa, oscilando entre 0
(correlación* nula) y 1, positivo o negativo (Figura 8).
En nuestro ámbito no cabe pensar en correlaciones perfectas, denominadas funciones. Así, la
relación entre la longitud de la circunferencia –C- con la de su radio o su diámetro es una
función, lo que nos permite conocer los valores de aquella a partir de los de estos:
2. Significación estadística* de un coeficiente de correlación*
Una cuestión importante es la de si una correlación solo es nula cuando su valor es,
exactamente, 0. Y aquí se nos aparece de nuevo la Estadística inferencial.
Parece claro que si las dos series de datos abarcan todos los casos posibles y han sido medidas
con instrumentos perfectos, una correlación* rXY = 0 es una correlación nula. Sin embargo, la
ciencia no utiliza todos los casos, bien sea por ser imposible, por ser muy caro, por no disponer
de medios o porque -y esto es más importante- lo que se pretende es que lo descubierto en un
caso pueda ser aplicado a otros de la misma naturaleza (por ejemplo: que la correlación
encontrada este curso en niños de pre-escolar de 5 años pueda aplicarse a los de 5 años del
curso siguiente).
Por ello, una pregunta aparentemente sencilla es: el valor rXY encontrado en una muestra*
¿representa una auténtica correlación*? Técnicamente se dice: ¿Es estadísticamente
significativo un valor de rXY, por ejemplo de 0.12? Evidentemente 0.12 > 0 y parece que
deberíamos afirmar que SI.
Sin embargo, la duda es inmediata: teniendo en cuenta que hemos obtenido los datos en unas
series con solo algunos casos (muestras) y que los instrumentos de medida no son perfectos
(tienen errores de medida debidos a las carencias en su fiabilidad), ¿podría ocurrir que tal valor
no deba ser tomado en consideración (no sea estadísticamente significativo?. La respuesta es
que SI; por ello, la Estadística nos ayudará a confiar o no en tal valor, a considerarlo como índice
de una auténtica correlación o, por el contrario, como un valor que pudiera ser compatible con
que, en el conjunto de casos (población), la correlación fuera nula.
Correlación imperfecta negativa Correlación imperfecta positiva
-1 0 +1
Correlación perfecta negativa Correlación nula Correlación perfecta
positiva
Una cuestión fundamental al estudiar las correlaciones entre dos variables es la de si su magnitud nos
permite pensar en una auténtica relación o si tal valor puede ser fruto del azar*, de la casualidad, en
definitiva: ser casual o fortuito. En el primer caso afirmaremos que la correlación es estadísticamente
significativa aunque asumimos cierto riesgo de error, concretado en un nivel de probabilidad* tan
pequeño como decida el investigador. A este tema se le conoce como estimación de parámetros*.
Así pues, analizaremos:
-
Qué es una correlación
-
De qué tipo: positiva o negativa
-
Qué intensidad tiene: perfecta o imperfecta, tanto positiva como negativa.
- Y dejaremos simplemente apuntada la idea de si es o no estadísticamente significativa,esto es, si la damos por tal o la consideramos fruto del azar* por los errores de muestreo y de medida.Por otra parte, conviene recordar los diferentes tipos de variables* y, en función de ellas, podemos establecer correlaciones entre:
-
Dos variables cualitativas: por ejemplo, sexo y grado universitario estudiado
- Dos variables ordinales: el puesto ocupado por un país en el Informe PISA y el rango yorden ocupado en analfabetismo.
- Dos variables cuantitativas discretas: pongamos por caso, las faltas de asistencia aclase y el curso académico que realizan los alumnos
-
Dos variables cuantitativas continuas, como puede ser el de edad y talla.
- Cabe hablar de relación entre dos variables de diferente naturaleza: sexo e inteligencia,curso académico e inteligencia, raza y orden en la entrega de trabajos, ...Dejemos constancia de que aquí solo pretendemos ejemplificar el concepto y tipos de correlación, acercándonos a su cálculo e interpretación, y que lo haremos con el coeficiente de correlación por excelencia, el de Pearson, representado, como hemos dicho, por rXY, aplicable a la correlación entre variables cuantitativas medidas en escalas de razón y de intervalo.Sobre los demás coeficientes de correlación (ordinal de Spearman, biserial, biserial por puntos, tetracórica o el coeficiente de asociación entre variables nominales) tendrán ocasión de acercarse a su conocimiento en el curso de la asignatura.3. Aproximación al cálculo y representación gráfica
- Con la simple finalidad de comprender lo que representa la correlación* presentaremos algún ejemplo sencillo; pongamos por caso, la correlación entre rendimiento académico, medido en un rango de 0 a 10 (variable A), y la inteligencia (variable B), medida con un test cuyo rango sea de 0 a 100 (tablas 8a y 8b). El cálculo no es objetivo de este curso introductorio.
-
Como se puede apreciar, la falta de ordenación hace difícil hacerse una idea sobre el tipo de
relación. Sin embargo, la ordenación de una de las variables ya apunta hacia una relación
imperfecta positiva:
Como se puede apreciar, los puntos reflejan la posición de cada sujeto en la serie A (que va de 0
a 10) y en la B, que va de 0 a 100. El punto en que se cruzan las líneas que van a los ejes de
ordenadas y de abscisas representa a cada sujeto.
Es fácil comprender que la tendencia de las puntuaciones va de la parte inferior izquierda a la superior derecha (diagonal positiva) y que la correlación, siendo positiva, lo es imperfecta. La perfecta encontraría todos los puntos en la diagonal que fuera del 0-0 al 100-10.
La relación positiva apuntada se confirma aplicando la correspondiente ecuación a las parejas de datos (rXY):
Es fácil comprender que la tendencia de las puntuaciones va de la parte inferior izquierda a la superior derecha (diagonal positiva) y que la correlación, siendo positiva, lo es imperfecta. La perfecta encontraría todos los puntos en la diagonal que fuera del 0-0 al 100-10.
La relación positiva apuntada se confirma aplicando la correspondiente ecuación a las parejas de datos (rXY):
La línea que mejor representa al conjunto de los puntos se denomina recta de regresión; cuando
más se ajuste al conjunto de los puntos, mayor será la correlación; por otra parte, la inclinación
de la pendiente también nos informa sobre la magnitud de la correlación. La recta de regresión
sigue la ecuación Y = a + bX, donde Y es la puntuación en una de las dos variables a partir de la
otra, X, siendo a y b dos constantes. La primera de ellas, a, es la ordenada en el origen y
representa el valor de Y para X = 0. Estos aspectos no son objeto de estudio en el presente
curso.
CURSO 0 DE ESTADÍSTICA APLICADA
∑∑∑
√∑–∑∑∑
La relación entre dos variables se expresa, en términos estadísticos, mediante un coeficiente de
correlación*. Sus valores pueden ir de -1 a +1; en tales casos, se habla de correlaciones
perfectas. El valor 0 representa la correlación nula y los demás, correlación imperfecta, sea
positiva o negativa.
La representación gráfica de dos pares de datos se conoce como diagrama de dispersión*, que nos permite apreciar de forma intuitiva el tipo de correlación y un acercamiento a su intensidad. La línea que mejor representa al conjunto de pares de datos se conoce como recta de regresión.
La representación gráfica de dos pares de datos se conoce como diagrama de dispersión*, que nos permite apreciar de forma intuitiva el tipo de correlación y un acercamiento a su intensidad. La línea que mejor representa al conjunto de pares de datos se conoce como recta de regresión.
4. Interpretación
La interpretación de rXY no es algo fácil ni definitivamente resuelto, salvo, claro está, en sus valores extremos, 0 y ±1.
Dos aspectos fundamentales deben ser tomados en consideración a la hora de interpretar los valores de rXY:
La interpretación de rXY no es algo fácil ni definitivamente resuelto, salvo, claro está, en sus valores extremos, 0 y ±1.
Dos aspectos fundamentales deben ser tomados en consideración a la hora de interpretar los valores de rXY:
-
a) Como ya hemos señalado previamente, si sus valores son o no estadísticamente
significativos; esto resulta especialmente importante en el caso de valores bajos,
próximo a 0, ya que bien podría ocurrir que una intensidad tan baja se debiera a factores
como el azar*, que nada tienen que ver con una relación auténtica entre las dos
variables correlacionadas.
En el caso de ser significativos, como en todas las estimaciones por vía de inferencia, estamos aceptando una probabilidad* de error al afirmar que si o que no lo son.
-
b) Cuando un valor es estadísticamente significativo suele interesar graduar la intensidad
de las correlaciones imperfectas, tanto positivas como negativas. Este punto no está
definitivamente establecido, aunque hay algunas propuestas como la siguiente (tabla 9):
.No obstante, debemos indicar que la intensidad de rXY varía en función de factores como el
recorrido de las variables correlacionadas, el tamaño de la muestra (N), su variabilidad o
dispersión y la fiabilidad de los instrumentos con los que se obtuvieron los valores de las
variables. Con esto, queremos poner de relieve que un mismo valor de rXY puede representar
diferentes intensidades de correlación, lo que aconseja mucha prudencia a hora de interpretar
este estadístico.
5. Principales aplicaciones
La gran utilidad de las correlaciones, como hemos reseñado, es la de ayudarnos a comprender la complejidad del ser humano al permitirnos conocer las relaciones existentes entre determinadas variables de su personalidad o de su actividad.
Pero conviene añadir dos muy importantes utilidades, a las que nos vamos a referir brevemente. En concreto son las que nos ayudan a establecer dos cualidades técnicas de gran relevancia que deben tener los instrumentos que utilizamos para recoger datos, la fiabilidad y la validez.
No es tarea de este curso meramente introductorio entrar con una mínima profundidad en ambos temas. Pero sí lo es, y con el ánimo de valorar su importancia, hacer saber que las técnicas estadísticas más utilizadas en uno y otro caso son las de correlación*
5.1. Fiabilidad
Sin entrar en detalle, la fiabilidad de un instrumento nos informa del grado en que lo que mide lo hace con precisión, con el menor error de medida posible.
Pues bien: la técnica estadística utilizada es un coeficiente de correlación* como el que hemos conocido, entre dos series de datos; dado que, como vamos a ver, ambas series se refieren a un mismo instrumento o a instrumentos equivalentes, la fiabilidad se representa por rXX. Las series de datos son:
5. Principales aplicaciones
La gran utilidad de las correlaciones, como hemos reseñado, es la de ayudarnos a comprender la complejidad del ser humano al permitirnos conocer las relaciones existentes entre determinadas variables de su personalidad o de su actividad.
Pero conviene añadir dos muy importantes utilidades, a las que nos vamos a referir brevemente. En concreto son las que nos ayudan a establecer dos cualidades técnicas de gran relevancia que deben tener los instrumentos que utilizamos para recoger datos, la fiabilidad y la validez.
No es tarea de este curso meramente introductorio entrar con una mínima profundidad en ambos temas. Pero sí lo es, y con el ánimo de valorar su importancia, hacer saber que las técnicas estadísticas más utilizadas en uno y otro caso son las de correlación*
5.1. Fiabilidad
Sin entrar en detalle, la fiabilidad de un instrumento nos informa del grado en que lo que mide lo hace con precisión, con el menor error de medida posible.
Pues bien: la técnica estadística utilizada es un coeficiente de correlación* como el que hemos conocido, entre dos series de datos; dado que, como vamos a ver, ambas series se refieren a un mismo instrumento o a instrumentos equivalentes, la fiabilidad se representa por rXX. Las series de datos son:
-
Las resultantes de dividir el instrumento en dos mitades (consistencia interna)
-
Las surgidas de la aplicación por dos veces, debidamente separadas en el tiempo
(estabilidad)
Las obtenidas de la aplicación de dos instrumentos con las mismas características
básicas (equivalencia).
5.2. Validez
El gran problema de los instrumentos de medida en nuestro ámbito es el de la validez, definida generalmente como el grado en que miden lo que dicen medir. Aparentemente es una obviedad, pero en la realidad es una afirmación difícil mantener con pruebas.
Dos modalidades de validez se resuelven mediante coeficientes de correlación: la validez concurrente y la predictiva. En ambos casos, el coeficiente de validez se representa por rXY.
La primera consiste en la correlación entre las puntuaciones obtenidas en el instrumento a validar –variable X- y en otros datos tomados como criterio, medidos por lo general de forma simultánea o muy próxima en el tiempo (variable Y). Por ejemplo: podemos intentar validar un instrumento para “medir” el grado de autoestima obteniendo la correlación entre las puntuaciones obtenidas en él por un grupo de alumnos –variable X- con las valoraciones realizadas sobre esta variable por un grupo de tutores que conocen bien a sus tutelados (criterio o variable Y), y recogidas ambas series de datos en tiempos muy próximos.
La segunda también utiliza el coeficiente de correlación, pero el criterio se mide pasado el tiempo para el que se desea predecir. Por ejemplo: si deseamos predecir a principio de curso la validez predictiva de una prueba diagnóstica de Estadística –variable X- en relación con las calificaciones de fin de curso, deberemos medir este criterio –calificaciones finales, variable Y- y obtener el coeficiente de correlación, denominado predictivo.
Si para la fiabilidad no suelen admitirse valores por debajo de 0.9, aquí no es fácil encontrar correlaciones superiores a 0.6 o 0.7, lo que hace que cualquier predicción implique asumir amplios márgenes de error.
5.2. Validez
El gran problema de los instrumentos de medida en nuestro ámbito es el de la validez, definida generalmente como el grado en que miden lo que dicen medir. Aparentemente es una obviedad, pero en la realidad es una afirmación difícil mantener con pruebas.
Dos modalidades de validez se resuelven mediante coeficientes de correlación: la validez concurrente y la predictiva. En ambos casos, el coeficiente de validez se representa por rXY.
La primera consiste en la correlación entre las puntuaciones obtenidas en el instrumento a validar –variable X- y en otros datos tomados como criterio, medidos por lo general de forma simultánea o muy próxima en el tiempo (variable Y). Por ejemplo: podemos intentar validar un instrumento para “medir” el grado de autoestima obteniendo la correlación entre las puntuaciones obtenidas en él por un grupo de alumnos –variable X- con las valoraciones realizadas sobre esta variable por un grupo de tutores que conocen bien a sus tutelados (criterio o variable Y), y recogidas ambas series de datos en tiempos muy próximos.
La segunda también utiliza el coeficiente de correlación, pero el criterio se mide pasado el tiempo para el que se desea predecir. Por ejemplo: si deseamos predecir a principio de curso la validez predictiva de una prueba diagnóstica de Estadística –variable X- en relación con las calificaciones de fin de curso, deberemos medir este criterio –calificaciones finales, variable Y- y obtener el coeficiente de correlación, denominado predictivo.
Si para la fiabilidad no suelen admitirse valores por debajo de 0.9, aquí no es fácil encontrar correlaciones superiores a 0.6 o 0.7, lo que hace que cualquier predicción implique asumir amplios márgenes de error.
De entre las aplicaciones o utilidades de la correlación destacamos las tres siguientes:
-
Facilitar la interpretación de las relaciones entre variables.
-
Calcular la fiabilidad de los instrumentos de medida (estabilidad, equivalencia, consistencia
interna)
-
Obtener indicios del grado de validez, predictiva y concurrente.
No hay comentarios.:
Publicar un comentario