
:: Técnicas de correlación y autocorrelación en variables cuantitativas y cartográficas ::
Fecha de Publicación: 23/12/2004 En este artículo vamos a tratar los conceptos básicos
del análisis de la relación entre variables cuantitativas, desde
tres puntos de vista distintos:
- En primer lugar, aprenderemos a dibujar rectas de tendencia
manualmente y de dos formas distintas, para que esta operación no
sólo consista para nosotros en hacer un clic con el ratón.
Ahora sabremos qué operaciones conlleva esta tarea y cada uno de
nosotros será capaz de hacerlo por sí mismo. Analizaremos
también el más famoso de los índices de correlación:
el índice de correlación lineal de Pearson.
- En segundo lugar, tocaremos brevemente el concepto de Autocorrelación
espacial. Veremos en qué consiste y cómo se calcula
el índice de Geary. También mencionaremos la formulación
del semivariograma, como indicador básico de la autocorrelación
espacial, muy usado en múltiples aplicaciones de la ciencia geográfica
(sin ir más lejos, el krigeage).
- Por último, introduciremos brevemente el concepto de correlación
cruzada (cross-correlation) entre dos capas (variables)
cartográficas raster.
Este artículo contiene lo básico de lo básico, sobre
un tema de indudable calado teórico (y práctico también)
y que podría abarcar páginas y páginas. El objeto no
ha sido en este caso lograr un carácter exhaustivo en la exposición,
sino introducir los conceptos más importantes de forma breve y concisa.
Espero que sea de ayuda.
1.
ÍNDICES DE CORRELACIÓN ENTRE VARIABLES CUANTITATIVAS.
1.1. Definición de Relación
entre Variables.
Se considera que dos variables cuantitativas están relacionadas
entre sí cuando los valores de una de ellas varían de forma sistemática
con respecto a los valores homónimos de la otra; en otras palabras, si
tenemos dos variables, A y B, existe relación entre
ellas si al aumentar los valores de A también lo hacen los de
B, o por el contrario si al aumentar los valores de A disminuyen
los de B.
Si ponemos en relación las dos variables A
y B, compuestas por los valores representados de la tabla azul, obtenemos
el siguiente gráfico:

Un gráfico de dispersión como el mostrado arriba
es la forma más sencilla de comprobar la relación entre las dos
variables. En él hemos grafiado también la tendencia de la distribución,
plasmada como una recta que trata de ajustarse a los puntos del gráfico.
Más adelante estudiaremos cómo trazar esta recta de dos formas
distintas.
1.2. Definición de Relación
entre Variables.
La relación entre dos variables cuantitativas queda
representada mediante la línea de mejor ajuste, que es la que esquematiza
las condiciones de la nube de puntos y de la relación. Los componentes
elementales de una línea de ajuste y por extensión de una relación
entre dos variables son:
| · La fuerza. |
| · El sentido. |
| · La Forma |
La fuerza mide el grado en que la línea
representa a la nube de puntos. Si la nube es estrecha y alargada una línea
recta representará adecuadamente a la nube de puntos y a la relación
y por tanto ésta será fuerte. Si por el contrario, la nube de
puntos tiene una tendencia elíptica o circular, una línea recta
que trate de representar a la misma será consecuencia de una relación
débil y poco representativa, con amplios residuos.
El sentido de la relación se refiere a cómo
varían los valores de B con respecto a A. Si al crecer
los valores de la variable A lo hacen los de B, será
una relación positiva (a valores bajos de A le corresponden
valores bajos de B). Si al aumentar A, disminuye B,
será una relación negativa (a valores bajos de A le corresponden
valores altos de B y viceversa).
La forma establece el tipo de línea a emplear para
definir el mejor ajuste. Se pueden emplear tres tipos de líneas: una
línea recta, una curva monotónica y una curva no monotónica.
En el caso de usar una recta, se admite que existe una proporción
entre la diferencia entre dos valores A y la diferencia entre dos valores
de B. A ese factor de ajuste entre ambas series se le llama pendiente
de la recta, y se asume que es constante a lo largo de toda la recta de ajuste.
En el caso de usar una curva monotónica, ese factor
de proporción entre las dos variables no es constante a lo largo de toda
la recta, y por lo tanto la pendiente de la misma es variable en su recorrido.
Se dice entonces que la línea de ajuste es no lineal monotónica,
puesto que la línea se ha convertido en curva. Sin embargo, lo que no
varía es el sentido de la relación: si la relación es positiva
lo será a lo largo de todo el recorrido de la curva y si es negativa,
será negativa en toda la curva.
Por último, en el caso de usar una curva no monotónica
varía tanto la pendiente de la curva como el sentido de la relación,
que en unos sectores puede ser positiva (ascendente) y en otros negativa (descendente).

1.3. Cálculo de las Líneas
de Ajuste y sus Ecuaciones.
El primer paso para la obtención de la línea
de ajuste es escoger el método de representación, que puede ser
alguno de los siguientes:

Describiremos en este artículo el primer caso: la representación
de la relación entre dos series de variables mediante rectas, que es
el método más común. En primer lugar, veremos el método
de cálculo de la línea de mínimos cuadrados
o ecuación de regresión lineal simple entre dos
variables, que a su vez es la más utilizada de las rectas de ajuste.
Esta línea es la que hace mínima la suma de los cuadrados de los
residuos, es decir, es aquella recta en la que las diferencias elevadas al cuadrado
entre los valores calculados por la ecuación de la recta y los valores
reales de la serie, son las menores posibles.
Recordemos primero que la ecuación general de la recta tiene la forma:

Con esta sencilla ecuación podemos calcular para cualquier
punto de una recta, el valor que tomaría Y a partir del conocimiento
de su valor X, de la pendiente de la recta (m) y del punto
de corte sobre las ordenadas (b). Así, cuando tenemos una línea
recta convencional, el cálculo de la pendiente m es sencillo,
y se obtiene poniendo en relación el incremento de las X con
el incremento de las Y, para una distancia dada, de la forma:
En cuanto al parámetro b, ya hemos dicho que
es el valor que adquiere el punto de corte de la recta representada con el eje
cartesiano de las Y (ordenada). Dicho de otra forma, b es
el valor de Y para X = 0 , por lo que se puede deducir con
la ecuación general si conocemos la pendiente de la recta.
Puede que alguien se esté preguntando a estas alturas dónde está
la conexión entre la ecuación general de la recta y la Geografía...
Por poner un solo ejemplo: la ecuación general de la recta es la base
de los algoritmos que permiten calcular mapas de cuencas de visibilidad y la
valoración ponderada de la calidad paisajística. Pero no es el
únicio caso, existen decenas de aplicaciones de este principio a la ciencia
geográfica.
Una vez que hemos recordado estos conceptos básicos
acerca de la recta y su ecuación lineal, veamos cómo se calculan
los valores m y b para la línea de ajuste de mínimos
cuadrados o regresión lineal simple, aplicable a series de puntos no
alineados sobre las que buscamos la recta que mejor se ajuste a su distribución.
En estos casos el cálculo de m y de b se realiza de
la siguiente manera:
Donde
e son las medias
de x e y respectivamente. Son datos conocidos pues proceden
de los puntos de muestreo grafiados a partir de las series de datos.
En realidad, calculando el parámetro m, ya
podemos aplicar la ecuación general de la recta; en primer lugar para
x = 0, con lo que obtenemos b, y en segundo lugar para otro
punto x que queramos. Con ello obtendremos los valores de y
correspondientes, pudiendo en consecuencia dibujar dos puntos sobre el gráfico
que, unidos, darán lugar a la recta de tendencia.
El problema de la línea de mínimos cuadrados
y de las regresiones lineales simples es que no son resistentes a valores extremos
en las series, que pudieran ser anomalías en los datos. Este método,
por tanto, puede ser engañoso si se dispone de muy pocos datos y valores
extremos en los mismos. Como medida de comparación, se puede utilizar
el proceso de cálculo de la recta resistente, cuyo proceso de cálculo
describiremos a continuación.
Para calcular la recta resistente, el primer paso es crear
el gráfico de distribución de la nube de puntos. Posteriormente
se divide el gráfico en tres grupos con igual número de casos,
y se calculan las medianas de cada grupo:

Se calcula la pendiente m de la recta resistente,
de la forma:

La ordenada de origen (punto de intersección con el
eje de las Y, o en otras palabras, punto donde x=0 ), se calcula
de la forma:

Dado que la línea resistente se configura a partir de
las medianas y no de las medias, es mucho más tolerante a los valores
extremos en la serie, y constituye un elemento de gran ayuda para contrastar
y comparar la validez de la recta de mínimos cuadrados resultante de
la regresión simple.
1.4. Coeficiente de Correlación
Lineal de Pearson.
El Coeficiente de Correlación Lineal de Pearson es un
índice estadístico que permite definir de forma más concisa
la relación entre dos variables. Su resultado es un valor que fluctúa
entre –1 (correlación perfecta de sentido negativo) y +1 (correlación
perfecta de sentido positivo). Cuanto más cercanos al 0 sean los valores,
indican una mayor debilidad de la relación o incluso ausencia de correlación
entre las dos variables.
Su cálculo se basa en la expresión:

O lo que es lo mismo: el coeficiente de correlación
lineal de Pearson se calcula a partir de la covarianza de las dos series, dividido
por el producto de las desviaciones típicas de las dos series, es decir:

Normalmente se utiliza la desviación típica “verdadera”
y no la muestral: obsérvese que el sumatorio de los residuos al cuadrado
se multiplica por 1/n y no por 1/(n-1).
La interpretación del índice de Pearson es la
siguiente:
| · r = 1 indica que la correlación es positiva. |
| · r = 0 indica la inexistencia de correlación. |
| · r = -1 indica que la correlación es negativa. |
2.
AUTOCORRELACIÓN ESPACIAL DE UNA VARIABLE GEOGRÁFICA.
2.1. Definición.
La autocorrelación espacial es una medida de la similitud
temática de los objetos geográficos en un área determinada.
Cada objeto geográfico tiene valores-atributos descriptivos de sus características
(por ejemplo, un tipo de uso del suelo, tipo de vegetación, etc.) y coordenadas
espaciales (coordenadas x e y del punto de ubicación
del fenómeno). La autocorrelación espacial viene a poner en relación
las diferencias temáticas de los objetos en relación con la distancia
que presentan entre sí.
En general, si los objetos cercanos se parecen mucho entre sí, se dice
que existe una autocorrelación espacial positiva; si por el contrario,
los objetos cercanos, por el hecho de estar juntos, difieren mucho entre sí,
la autocorrelación espacial es negativa (por ejemplo, la delincuencia
suele ser menor en las cercanías de las comisarías de policía,
denotando una autocorrelación espacial negativa entre casos de delincuencia
y presencia policial).
2.2. Expresión General de la Autocorrelación
Espacial.
La autocorrelación espacial -medida con el índice que sea- siempre
responde al mismo principio: poner en relación las diferencias en los
valores temáticos entre dos ubicaciones o casos, con la correspondiente
distancia geométrica que les separa. Por ello, existe un armazón
común a todo índice de autocorrelación espacial del tipo:

Donde Wij es la distancia geográfica
entre los dos sucesos o casos y Cij es la distancia
en el espacio de datos o diferencia entre datos temáticos. A partir de
esta idea básica, existen dos índices de autocorrelación
espacial: el Índice de Geary, y el Índice de Moran.
2.3. El Índice de Autocorrelación
Espacial de Geary.
Fue planteado por el autor del mismo nombre en 1954 y su formulación
responde a la siguiente expresión:

Donde:
Wij es la distancia euclideana entre los
dos casos analizados (i, j).
Zi y Zj son
los valores de la variable temática en i y en j
respectivamente.
Vemos cómo la expresión general de la autocorrelación
espacial que veíamos en el punto anterior toma aquí la forma de
W = distancia euclideana y C = (Zi –
Zj)².
La interpretación del índice de Autocorrelación
Espacial de Geary es la siguiente:
| · C < 1 indica autocorrelación
espacial positiva. |
| · C = 1 indica la inexistencia de autocorrelación
espacial. |
| · C > 1 indica autocorrelación espacial negativa. |
Junto con el índice de Geary, otra forma similar de medida de la autocorrelación
espacial es el Índice de Moran (I), en cuyo cálculo no vamos a
entrar dado que su utilidad es muy similar a la del estadístico ya expuesto.
2.4. El Semivariograma.
Por último, un indicador de suma importancia en la estimación
de la autocorrelación espacial es el semivariograma. El método
kriging de interpolación espacial utiliza el semivariograma como indicador
para conocer el alcance espacial de la autocorrelación en una variable
geográfica (por ejemplo altitudes), y son múltiples las aplicaciones
en geoestadística del semivariograma. Su expresión es la siguiente:

Donde:
xi xj son los valores
de la variable en dos puntos espaciales distintos.
h es la distancia de separación.
n es el número de puntos.
es la media
de la variable.
3.
CORRELACIÓN ESPACIAL CRUZADA ENTRE DOS CAPAS RASTER.
3.1. Definición.
La correlación cruzada (cross correlation)
entre dos capas cartográficas raster puede definirse como la medida de
la similitud de los atributos temáticos de dichas capas, compuesta bajo
la forma de un único índice deducido a partir de las diferencias
de valores entre cada una de las celdas. Su utilidad se extiende a innumerables
aplicaciones, por lo que es importante entender en qué consiste.
3.2. Expresión.
Aunque existen diversas variantes, el índice más
utilizado para la estimación de la correlación cruzada es el siguiente:

Donde:
Zi y Zj son los
valores de una celda raster en cada una de las dos capas correladas.
La interpretación de este índice de correlación
cruzada es la siguiente:
| · C = 1 indica correlación crizada
positiva entre las dos capas comparadas |
| · C = 0 indica la inexistencia de correlación
cruzada. |
| · C = -1 indica correlación cruzada negativa.
|

¿Esta información te ha sido útil?
Ayúdanos a mantener la página con una donación:

© GabrielOrtiz.com
|