CUARTA PARTE: CORRELACION DE VARIABLES

EL CASO DE DOS O MÁS VARIABLES

La información contenida en una serie de datos puede resultar de sumo interés para comprender la naturaleza y características del grupo al que hace referencia.
Sin embargo, es preciso reconocer que los fenómenos humanos son muy complejos, por lo que es frecuente que entre los intereses de los profesionales o de los estudiosos se encuentre el de conocer la relación* o falta de ella (independencia) entre dos o más series de datos.
Preguntas tales como: ¿está relacionada la inteligencia con el sexo, la raza o la escolaridad?. ¿Mantienen relación las técnicas de estudio con las calificaciones? ¿Qué relación se da entre el número de horas de estudio y los resultados académicos? ¿Se relaciona la violencia juvenil con el analfabetismo? ¿Hay relación entre el autoconcepto y la asertividad?. ¿Se da relación entre el consumo de estupefacientes y el nivel cultural?...
A priori, cabe pensar que a más horas de estudio, mejores resultados, pero ¿no puede ocurrir que, a partir de cierto número de horas el aprendizaje baje y hasta sea nulo? ¿No puede ser que la relación varíe según el tipo de aprendizaje, memorístico o comprensivo? ¿O que dependa del momento del día: por la mañana, a medio día o por la tarde?
En cuanto a la relación inteligencia - sexo ¿podría variar según el tipo de inteligencia de que se trate (recordemos a Gardner y sus inteligencias múltiples)? ¿Podría ocurrir lo mismo con la raza?

1. La correlación*. Tipos y valores

Pues bien: cuando disponemos de dos series de datos y deseamos responder a preguntas de ese tipo, la Estadística acude en nuestro auxilio al permitirnos establecer si se da o no relación, denominada aquí correlación* y representada de ordinario por rXY (se lee correlación entre las variables X e Y) de qué tipo (positiva o negativa) y con qué intensidad (perfecta o imperfecta).
La existencia de relación supone que las dos series de datos co-varían, esto es: varían conjuntamente; si hay correlación, el hecho de que los valores de una aumenten o disminuyan implica que los de la otra aumentan o disminuyen (correlación positiva) o bien que disminuyen o aumentan (correlación negativa).
Si los cambios mantienen una misma proporcionalidad, la correlación será perfecta, y quedará representada por los valores +1 o -1, según que sea positiva o negativa; cuando los cambios no llegan a ese nivel, la correlación es imperfecta, positiva o negativa, oscilando entre 0 (correlación* nula) y 1, positivo o negativo (Figura 8). 



En nuestro ámbito no cabe pensar en correlaciones perfectas, denominadas funciones. Así, la relación entre la longitud de la circunferencia C- con la de su radio o su diámetro es una función, lo que nos permite conocer los valores de aquella a partir de los de estos:

2. Significación estadística* de un coeficiente de correlación*

Una cuestión importante es la de si una correlación solo es nula cuando su valor es, exactamente, 0. Y aquí se nos aparece de nuevo la Estadística inferencial.
Parece claro que si las dos series de datos abarcan todos los casos posibles y han sido medidas con instrumentos perfectos, una correlación* rXY = 0 es una correlación nula. Sin embargo, la ciencia no utiliza todos los casos, bien sea por ser imposible, por ser muy caro, por no disponer de medios o porque -y esto es más importante- lo que se pretende es que lo descubierto en un caso pueda ser aplicado a otros de la misma naturaleza (por ejemplo: que la correlación encontrada este curso en niños de pre-escolar de 5 años pueda aplicarse a los de 5 años del curso siguiente).
Por ello, una pregunta aparentemente sencilla es: el valor rXY encontrado en una muestra* ¿representa una auténtica correlación*? Técnicamente se dice: ¿Es estadísticamente significativo un valor de rXY, por ejemplo de 0.12? Evidentemente 0.12 > 0 y parece que deberíamos afirmar que SI.
Sin embargo, la duda es inmediata: teniendo en cuenta que hemos obtenido los datos en unas series con solo algunos casos (muestras) y que los instrumentos de medida no son perfectos (tienen errores de medida debidos a las carencias en su fiabilidad), ¿podría ocurrir que tal valor no deba ser tomado en consideración (no sea estadísticamente significativo?. La respuesta es que SI; por ello, la Estadística nos ayudará a confiar o no en tal valor, a considerarlo como índice de una auténtica correlación o, por el contrario, como un valor que pudiera ser compatible con que, en el conjunto de casos (población), la correlación fuera nula.

Correlación imperfecta negativa Correlación imperfecta positiva
-1 0 +1
Correlación perfecta negativa Correlación nula Correlación perfecta positiva
Una cuestión fundamental al estudiar las correlaciones entre dos variables es la de si su magnitud nos permite pensar en una auténtica relación o si tal valor puede ser fruto del azar*, de la casualidad, en definitiva: ser casual o fortuito. En el primer caso afirmaremos que la correlación es estadísticamente significativa aunque asumimos cierto riesgo de error, concretado en un nivel de probabilidad* tan pequeño como decida el investigador. A este tema se le conoce como estimación de parámetros*.

Así pues, analizaremos:
  •   Qué es una correlación
  •   De qué tipo: positiva o negativa
  •   Qué intensidad tiene: perfecta o imperfecta, tanto positiva como negativa.
  •   Y dejaremos simplemente apuntada la idea de si es o no estadísticamente significativa, 
    esto es, si la damos por tal o la consideramos fruto del azar* por los errores de muestreo y de medida. 
    Por otra parte, conviene recordar los diferentes tipos de variables* y, en función de ellas, podemos establecer correlaciones entre: 
  •   Dos variables cualitativas: por ejemplo, sexo y grado universitario estudiado
  •   Dos variables ordinales: el puesto ocupado por un país en el Informe PISA y el rango y 
    orden ocupado en analfabetismo. 
  •   Dos variables cuantitativas discretas: pongamos por caso, las faltas de asistencia a 
    clase y el curso académico que realizan los alumnos 
  •   Dos variables cuantitativas continuas, como puede ser el de edad y talla.
  •   Cabe hablar de relación entre dos variables de diferente naturaleza: sexo e inteligencia, 
    curso académico e inteligencia, raza y orden en la entrega de trabajos, ... 
    Dejemos constancia de que aquí solo pretendemos ejemplificar el concepto y tipos de correlación, acercándonos a su cálculo e interpretación, y que lo haremos con el coeficiente de correlación por excelencia, el de Pearson, representado, como hemos dicho, por rXY, aplicable a la correlación entre variables cuantitativas medidas en escalas de razón y de intervalo. 
    Sobre los demás coeficientes de correlación (ordinal de Spearman, biserial, biserial por puntos, tetracórica o el coeficiente de asociación entre variables nominales) tendrán ocasión de acercarse a su conocimiento en el curso de la asignatura. 
    3. Aproximación al cálculo y representación gráfica 

  • Con la simple finalidad de comprender lo que representa la correlación* presentaremos algún ejemplo sencillo; pongamos por caso, la correlación entre rendimiento académico, medido en un rango de 0 a 10 (variable A), y la inteligencia (variable B), medida con un test cuyo rango sea de 0 a 100 (tablas 8a y 8b). El cálculo no es objetivo de este curso introductorio. 



Como se puede apreciar, la falta de ordenación hace difícil hacerse una idea sobre el tipo de relación. Sin embargo, la ordenación de una de las variables ya apunta hacia una relación imperfecta positiva: 




Como se puede apreciar, los puntos reflejan la posición de cada sujeto en la serie A (que va de 0 a 10) y en la B, que va de 0 a 100. El punto en que se cruzan las líneas que van a los ejes de ordenadas y de abscisas representa a cada sujeto.
Es fácil comprender que la tendencia de las puntuaciones va de la parte inferior izquierda a la superior derecha (diagonal positiva) y que la correlación, siendo positiva, lo es imperfecta. La perfecta encontraría todos los puntos en la diagonal que fuera del 0-0 al 100-10.
La relación positiva apuntada se confirma aplicando la correspondiente ecuación a las parejas de datos (rXY): 




La línea que mejor representa al conjunto de los puntos se denomina recta de regresión; cuando más se ajuste al conjunto de los puntos, mayor será la correlación; por otra parte, la inclinación de la pendiente también nos informa sobre la magnitud de la correlación. La recta de regresión sigue la ecuación Y = a + bX, donde Y es la puntuación en una de las dos variables a partir de la otra, X, siendo a y b dos constantes. La primera de ellas, a, es la ordenada en el origen y representa el valor de Y para X = 0. Estos aspectos no son objeto de estudio en el presente curso.
CURSO 0 DE ESTADÍSTICA APLICADA
∑∑∑ ∑–∑∑∑
La relación entre dos variables se expresa, en términos estadísticos, mediante un coeficiente de correlación*. Sus valores pueden ir de -1 a +1; en tales casos, se habla de correlaciones perfectas. El valor 0 representa la correlación nula y los demás, correlación imperfecta, sea positiva o negativa.
La representación gráfica de dos pares de datos se conoce como diagrama de dispersión*, que nos permite apreciar de forma intuitiva el tipo de correlación y un acercamiento a su intensidad. La línea que mejor representa al conjunto de pares de datos se conoce como recta de regresión.
4. Interpretación
La interpretación de rXY no es algo fácil ni definitivamente resuelto, salvo, claro está, en sus valores extremos, 0 y ±1.
Dos aspectos fundamentales deben ser tomados en consideración a la hora de interpretar los valores de rXY:
  1. a)  Como ya hemos señalado previamente, si sus valores son o no estadísticamente significativos; esto resulta especialmente importante en el caso de valores bajos, próximo a 0, ya que bien podría ocurrir que una intensidad tan baja se debiera a factores como el azar*, que nada tienen que ver con una relación auténtica entre las dos variables correlacionadas.
    En el caso de ser significativos, como en todas las estimaciones por vía de inferencia, estamos aceptando una probabilidad* de error al afirmar que si o que no lo son.
  2. b)  Cuando un valor es estadísticamente significativo suele interesar graduar la intensidad de las correlaciones imperfectas, tanto positivas como negativas. Este punto no está definitivamente establecido, aunque hay algunas propuestas como la siguiente (tabla 9): 



.No obstante, debemos indicar que la intensidad de rXY varía en función de factores como el recorrido de las variables correlacionadas, el tamaño de la muestra (N), su variabilidad o dispersión y la fiabilidad de los instrumentos con los que se obtuvieron los valores de las variables. Con esto, queremos poner de relieve que un mismo valor de rXY puede representar diferentes intensidades de correlación, lo que aconseja mucha prudencia a hora de interpretar este estadístico.

5. Principales  aplicaciones


La gran utilidad de las correlaciones, como hemos reseñado, es la de ayudarnos a comprender la complejidad del ser humano al permitirnos conocer las relaciones existentes entre determinadas variables de su personalidad o de su actividad.
Pero conviene añadir dos muy importantes utilidades, a las que nos vamos a referir brevemente. En concreto son las que nos ayudan a establecer dos cualidades técnicas de gran relevancia que deben tener los instrumentos que utilizamos para recoger datos, la fiabilidad y la validez.
No es tarea de este curso meramente introductorio entrar con una mínima profundidad en ambos temas. Pero sí lo es, y con el ánimo de valorar su importancia, hacer saber que las técnicas estadísticas más utilizadas en uno y otro caso son las de correlación*
5.1. Fiabilidad
Sin entrar en detalle, la fiabilidad de un instrumento nos informa del grado en que lo que mide lo hace con precisión, con el menor error de medida posible.
Pues bien: la técnica estadística utilizada es un coeficiente de correlación* como el que hemos conocido, entre dos series de datos; dado que, como vamos a ver, ambas series se refieren a un mismo instrumento o a instrumentos equivalentes, la fiabilidad se representa por rXX. Las series de datos son:
  •   Las resultantes de dividir el instrumento en dos mitades (consistencia interna)
  •   Las surgidas de la aplicación por dos veces, debidamente separadas en el tiempo
    (estabilidad) 

Las obtenidas de la aplicación de dos instrumentos con las mismas características básicas (equivalencia).
5.2. Validez
El gran problema de los instrumentos de medida en nuestro ámbito es el de la validez, definida generalmente como el grado en que miden lo que dicen medir. Aparentemente es una obviedad, pero en la realidad es una afirmación difícil mantener con pruebas.
Dos modalidades de validez se resuelven mediante coeficientes de correlación: la validez concurrente y la predictiva. En ambos casos, el coeficiente de validez se representa por rXY.
La primera consiste en la correlación entre las puntuaciones obtenidas en el instrumento a validar variable X- y en otros datos tomados como criterio, medidos por lo general de forma simultánea o muy próxima en el tiempo (variable Y). Por ejemplo: podemos intentar validar un instrumento para “medir” el grado de autoestima obteniendo la correlación entre las puntuaciones obtenidas en él por un grupo de alumnos variable X- con las valoraciones realizadas sobre esta variable por un grupo de tutores que conocen bien a sus tutelados (criterio o variable Y), y recogidas ambas series de datos en tiempos muy próximos.
La segunda también utiliza el coeficiente de correlación, pero el criterio se mide pasado el tiempo para el que se desea predecir. Por ejemplo: si deseamos predecir a principio de curso la validez predictiva de una prueba diagnóstica de Estadística variable X- en relación con las calificaciones de fin de curso, deberemos medir este criterio calificaciones finales, variable Y- y obtener el coeficiente de correlación, denominado predictivo.
Si para la fiabilidad no suelen admitirse valores por debajo de 0.9, aquí no es fácil encontrar correlaciones superiores a 0.6 o 0.7, lo que hace que cualquier predicción implique asumir amplios márgenes de error. 


De entre las aplicaciones o utilidades de la correlación destacamos las tres siguientes:
  •   Facilitar la interpretación de las relaciones entre variables.
  •   Calcular la fiabilidad de los instrumentos de medida (estabilidad, equivalencia, consistencia
    interna)
  •   Obtener indicios del grado de validez, predictiva y concurrente. 

No hay comentarios.:

Publicar un comentario