SEGUNDA PARTE:
ANALISIS DE
VARIABLES MULTIPLES
Por:
Ing. Roberto Piol Puppio
E-Mail: rpiol@yahoo.com
Website: www.rpiol.com
CONTENIDO
I INTRODUCCION
II CONCEPTOS BASICOS:
ANALISIS DE REGRESION SIMPLE
1.0 Conceptos
básicos
2.0 El Análisis de
los Mínimos Cuadrados
3.0
4.0
5.0 El Coeficiente
de Determinación
6.0 El Estadístico
F (Test de Fischer)
7.0 Multicolinealidad.
III USO DE
IV USO DE
I INTRODUCCION
1.0 En la
práctica se observa que existe
una relación entre dos o más variables,
como por ejemplo la relación que existe
entre el área de los terrenos y sus respectivos precios unitarios.
2.0 Lo
ideal sería expresar esta
relación mediante una
expresión matemática, es decir
hallar una ecuación que ligue las
variables. Por lo tanto el problema
reside en encontrar un
modelo que se ajuste lo mejor posible a la muestra
seleccionada.
3.0 Una vez encontrada la ecuación de la curva o modelo que más ajusta los datos obtenidos, se deberá calcular por algún modo una medida que indique la bondad del ajuste de la
curva.
4.0 Sin embargo, la decisión del valor más
representativo de una muestra de datos, está basada sobre la relación existente entre los valores que se
conocen y los valores que
se van a estimar, esto se
conoce como “Estudio de Correlación”.
5.0 Se
define como Regresión al estudio
de la fuerza, consistencia o
grado de asociación de la correlación de n variables independientes. El Análisis
de Regresión determina la
naturaleza de la correlación
y permite realizar la correspondiente Predicción.
II CONCEPTOS BASICOS:. ANALISIS DE REGRESION SIMPLE
1.0 El problema de
ajustar una curva a una serie de
datos, consiste en primer término
determinar
2.0 El Análisis de los Mínimos Cuadrados
2.1 En la
siguiente gráfica se ha dibujado una
curva (una línea recta en este caso) de una familia de curvas preseleccionadas y un grupo de datos.
2.2 Se han
medido la diferencia entre la
ordenada de cada punto y la función.
2.3 Una forma
de seleccionar la curva que mejor
representa el grupo de puntos, es elegir aquella que para la cuál sea menor el promedio de las
diferencias de las ordenadas.
Otra forma sería en
hacer que tenga mínima la suma de
las diferencias, tomadas en valor absoluto.
2.4 por lo
tanto el Método de Ajuste de los
Mínimos Cuadrados consiste en determinar los parámetros de una curva, de manera que la suma de los cuadrados de las
diferencias mencionadas sea la menor posible.

3.0
3.1 El tipo mas sencillo de curva de aproximación
en la línea recta cuya ecuación puede escribirse:
![]()
3.2 La recta
de aproximación por mínimos cuadrados del conjunto
de puntos (x1,y1), (x2,y2)...(xn,yn) tienen
las ecuaciones normales siguientes:

3.3 Estas
ecuaciones representan que
![]()

![]()
![]()
![]()

3.4 Resolviendo
el sistema de ecuaciones en derivadas parciales anterior,
se despejan los parámetros A y B de donde se obtienen sus
respectivos valores:


EJEMPLO:
Se quieren
actualizar una serie de valores
(Precios Unitarios de Terrenos) en un
período de tiempo
de 18 meses a fin
de calcular (predecir) cuál será el
precio unitario (Bs/M2) en el futuro. Para eso se
analizaron los libros
de Registro del
Municipio Autónomo
correspondiente y se obtuvieron la siguiente serie de datos:
![]()
X: o sea
Y: o sea

N = 6
(222.50 * 685) - (53 * 2,577.50)
a = ----------------------------------------------- = 12.15
(6 * 685) - (53)2
(6 * 2,577.50) - (53 * 222.50)
b = ------------------------------------------------ = 2.82
(6 * 685) - (53)2
Por lo tanto
la ecuación de Correlación de
la línea mínimo cuadrática de mejor ajuste será:
y = 12.15 + 2.82 * x
Ahora se puede predecir cuál será el comportamiento de
Si se desea
saber cuál será el valor esperado a los 20
meses de haberse hecho la primera
observación (o sea la fecha
del avalúo), se obtendrá para X =
20
y = 12.15 + 2.82 (20) = 68.57 [Bs/M2
]
4.0
La familia de rectas (y
=a + b x) y las familias de curvas exponenciales (y = a * bx), son
las ecuaciones de correlación simple más utilizadas en la práctica.
4.2 Sin
embargo se verá más
adelante, el estudio de
los métodos computarizados para
la obtención de la familia de curvas de mejor ajuste en otros familias modelos
también aplicables.
4.3 En este
caso para correlacionar la muestra de datos obtenidas se estudiará una Ecuación
Exponencial cuya expresión es:
![]()
4.4 Resolviendo
el sistema de sus ecuaciones
normales se obtienen las siguientes
expresiones para los coeficientes a y b:


EJEMPLO
En un caso similar al ejemplo anterior; se han obtenido el registro de
operaciones de compra-venta de terreno en los últimos 20 meses:

En este caso x (

n = 8
(11.8205)*(1,334) - (90)*(148.4355)
log A = -------------------------------------------------- = 0.9367
(8) *(1,334) - 902
(8)*(148.4355) - 90*(11.8205)
log B
=-------------------------------------------- = 0.0481
(8) *(1,334) - 902
PERO AUN FALTAN CALCULAR LOS ANTILOGARITMOS
a = Antlog (0.9367) = 8.6437
b = Antlog (0.0481) = 1.1171
La ecuación de correlación será:
![]()
En este
ejercicio no solo se
podrá predecir el valor unitario del terreno a
la fecha del avalúo, sino también se podrá interpolar para meses en que no han existido
operaciones de compra-venta o cualquier mes seleccionado:
Por ejemplo se podrá obtener el precio unitario
para:
a) Interpolar
el valor unitario a los 12 meses después de la fecha de origen
b) ídem
para 17 meses
c) Predecir
el valor unitario a los 22 meses

5.0 EL COEFICIENTE DE
DETERMINACION
5.1 El Coeficiente de
Determinación, mide la bondad del ajuste
relativo de la curva de regresión. Indica la cantidad de variación en Y que se explica en la ecuación de
regresión.

5.2 Desviación Total de Y
Es la diferencia entre
el valor observado (datos) y el promedio
de los valores observados:
![]()
5.3 Desviación No Explicada
Corresponde al Error
o Residual y se define como
la diferencia entre el valor observado y el valor calculado:
![]()
5.4 Desviación Explicada
Corresponde a la diferencia
entre el valor calculado y el valor promedio:
![]()
5.5 Relación entre los términos anteriores
Se cumplirá que:
Desviación Total = Desv. No Explicada + Desv. Explicada
![]()
5.6 Dentro de
a) SCT o Suma de Cuadrados Total
![]()
b) SCE o Suma del Cuadrado del Error
![]()
c) SCR o Suma del Cuadrado de la Regresión
![]()
5.7 De la misma manera anterior, se cumple la
relación:
SCT = SCE
+ SCR
5.8 El Coeficiente de Determinación:
Se define como
coeficiente de determinación:
![]()
DESPEJANDO:
![]()
DONDE EL COEFICIENTE DE DETERMINACION TOMA VALORES COMPRENDIDOS EN EL INTERVALO: [0 , 1]
5.9 Interpretación del Coeficiente de
Determinación:
Un valor
de
, debe
interpretarse que el 75%
de las variaciones de y, son explicadas
por las variables y número de datos utilizados para calcular el modelo.
Se preferirá siempre el
Modelo cuyo Coeficiente de Determinación sea lo más cercano a la unidad (1.00).
EJEMPLO:
Sean los siguientes datos correspondientes al
ejemplo anterior:

CALCULO DEL MODELO DE CORRELACION EXPONENCIAL:
![]()

![]()
![]()
![]()
Recalculando la misma data, pero esta vez
suponiendo que el modelo de Correlación es Lineal, se obtiene:
CALCULO DEL MODELO DE CORRELACION LINEAL:
![]()
Y su correspondiente Coeficiente de Determinación:
![]()
![]()
6.0 El Estadístico F (Test de Fischer)
El estadístico F
corresponde una prueba o hipótesis para rechazar o aceptar la predicción de la correlación y
así como el Coeficiente de
Determinación nos ayuda a decidir entre
varias curvas de regresión, el
estadístico F nos dirá si los datos y variables tomadas son significativas o
no; y es la forma de validar la ecuación o modelo de correlación.
Es precisamente el Estadístico
F, quien indica la cantidad
de datos o variables mínimas que
se requieren para que
la Regresión exista.
El Estadístico F,
se compara con el valor de “F de prueba” (Fo), el cual se determina en la tabla que se anexa.
El valor de F será grande, cuando la regresión es
significativa y obligatoriamente deberá ser mayor que Fo para que el modelo sea
válido.
Si F es menor que Fo,
deberán reestudiarse los datos ya que los datos y variables seleccionadas, no
son suficientes o significativas para calcular un modelo de regresión que pueda predecir el
comportamiento de la variable dependiente con relación a la independiente.
Cálculo del Estadístico
F:

DONDE:
k = Nro. de variables
independientes
n = Nro. de
observaciones
EJEMPLO:
En el ejemplo anterior, vamos a proceder a validar
el modelo, el único dato faltante para calcula el Estadístico F,
es SCE,
sin embargo es fácilmente
deducible partiendo de la relación:
SCT = SCE + SCR
SCT = 4,846.88
SCR = 4,226.52
SCE = SCT – SCR
SCE = 620.36
k = 1 (NRO: DE VARIABLES INDEPENDIENTES)
n = 8 (NRO: DE OBSERVACIONES)

EN LA TABLA ANEXA SE PUEDE OBSERVAR QUE:
PARA: k
= 1
Y PARA: n - (k +
1) = 6
SE OBTIENE: Fo = 5.99
(Para una Confianza del 95%)
40.88 >>
5.99
F > Fo POR LO TANTO SE VALIDA LA REGRESION PARA UNA
CONFIANZA DEL 95%

7.0 MULTICOLINEALIDAD: La Matriz de Correlación
El problema de
Multicolinealidad se presenta cuando entre
las Variables Independientes existen relaciones lineales entre algunas
de ellas; es decir las Variables Independientes están relacionadas entre sí, unas dependen de las
otras.
Cuando se
presenta el problema de
multicolinealidad entre las
variables independientes, el
sistema de ecuaciones
normales (que permitió obtener el
valor de los coeficientes a, b, c...,
n de la ecuación de
regresión mínimo-cuadrática) no
permite obtener una solución única
para cada uno de los parámetros
de la función de regresión.
El problema de la
multicolinealidad afecta a
la descripción del modelo de regresión múltiple, ya que significa que todos los datos se encuentran sobre una misma línea
recta y por lo tanto no existe un plano óptimo en el sentido mínimo cuadrático; sino los infinitos que pasan por dicha recta.
La
multicolinealidad en una serie de datos se mide a través de la Matriz de Correlación. La Matriz
de correlación permite conocer la tendencia y magnitud de la relación lineal o
asociación entre las variables
independientes. El modelo de regresión se
vuelve cada vez menos confiable a
medida que aumenta la correlación entre dichas variables independientes.
La Matriz de
Correlación tiene las siguientes características físicas:
a) Es una Matriz Unidad: La diagonal principal de la misma es la unidad (1.00).
b) Es una Matriz Simétrica: Ambos lados de la diagonal principal son antimétricos,
de tal manera que si la matriz se “doblara” por la diagonal principal
coincidirán los coeficientes.
Los Coeficientes de
Correlación
Los Coeficientes
de Correlación indican
el grado y
tipo de asociación entre las
variables.
a) Si el coeficiente de
correlación es positivo, indica que una de las variables está directamente
relacionada con la otra.
b) Si el coeficiente de
correlación es negativo, indica que una de las variables está inversamente
relacionada con la otra.
c) La mantisa del
coeficiente de correlación indica la magnitud de la relación entre las
variables. En general se puede señalar que:

Se define
que existe Multicolinealidad entre
dos variables independientes
cuando la correlación entre ambas es fuerte (r > 0.75).
Para solucionar
el problema de multicolinealidad, se
deberá eliminar de la
regresión una de
las dos variables
independiente correlacionadas, ya
que al
estar una en función de la
otra no permitirá una solución aceptable
de la regresión mínimo-cuadrática.
El CRITERIO para el
caso de un modelo de regresión múltiple donde dos (2) variables independientes
estén altamente correlacionadas entre sí; es seleccionar cual de las dos
Variable Independiente es la que tiene que salir del Modelo de Regresión.
Para esto se utiliza el
procedimiento estadístico denominado “ANÁLISIS FACTORIAL”; el cual trata de
agrupar aquellas variables que se encuentren muy relacionadas entre sí (r > 0.75)
en un único factor, bajo el criterio de que las mismas a su vez estén poco
correlacionadas (r < 0.75) con el resto de las variables independientes que
no estén incluidas en ese factor; de tal manera que se logre pasar de un modelo
inicial de “n” variables independientes a otro modelo con “n-1” variables
independientes, eliminando de esta manera una de las dos variables
correlacionadas.
Para utilizar la
Técnica Estadística “Análisis Factorial”, se utilizan paquetes estadísticos
dedicados, como lo son el SPSS, Statgraphics, etc.
El manejo de estos
paquetes estadísticos, se sale del alcance de esta Monografía; ya que en la
misma se utiliza como herramienta de desarrollo la Hoja de Cálculo Microsoft Excel
(Versión 6.0 o superior).
Lo realmente
importante, es que no pueden convivir (2) dos variables independientes correlacionadas
entre sí en un modelo de regresión; una de las dos debe salir.
Ejemplo:
La hoja de cálculo Excel, generó
la siguiente matriz
de correlación de una muestra de datos:

En la Matriz de Correlación se observa:
A) La
Diagonal Principal es la Unidad.
B) El Software utilizado solo
mostró la parte inferior de
la matriz de correlación, ya que
la parte superior es antimétrica a esta.
C) Solamente
existe una Correlación Fuerte e Inversa (Problema de Multicolinealidad)
entre las variables independientes: FECHA y %COND.
NOTA: No se deberán tomar en cuenta los coeficientes de la primera columna CTE (Constante), ya que
solo interesa conocer la correlación entre las Variables
Independientes únicamente. De hecho, algunos de los principales paquetes
estadísticos no la presentan al solicitar su impresión.
Para
poder obtener una
solución aceptable al
modelo de correlación mínimo-cuadrática,
se deberán eliminar de los datos una de las dos
variables que presentan problemas
de multicolinealidad.
III USO DE LA HOJA DE CALCULO EXCEL EN LOS ANALISIS DE
REGRESION SIMPLE
1.0 En esta Sección se orientará al uso de los
microcomputadores para la solución de
problemas de regresión simple
aplicado a la materia de avalúos. En ningún momento pretende ser un curso de computación ya que únicamente
se expondrán los métodos frecuentemente usados. El alumno deberá aplicar por su cuenta, en
sus equipos y corriendo en su Hoja de Cálculo Excel, que forma parte del
paquete “Microsoft Office” la metodología que aquí se explica.
2.0 —La Hoja de Cálculo Excel (Versión 6.0 o
superior)
Con los conocimientos aquí suministrados es posible
calcular a través de las funciones de regresión de la hoja de cálculo
Excel:
·
Los coeficientes de correlación
·
El Estadístico F
·
El Coeficiente
de Determinación (R²)
·
SCR
·
SCE
·
Errores Estándar
·
Otros factores
Lo importante está en ser cuidadosos en la entrada de los datos y obtener una salida presentable que sirva como anexo al avalúo donde se aplique este procedimiento.
EJEMPLO:
Se desea obtener el valor de una vivienda rural de 80 M2 y 20 años de
construida.
En la correspondiente Oficina de Registro Inmobiliario, se obtuvieron los
siguientes grupos de datos correspondientes a viviendas rurales ubicadas en el
mismo asentamiento agrícola:

Salta a la vista
que debe existir una relación entre
la Edad y el Precio de la vivienda rural ya que todas son de idéntica
área y están ubicadas en el mismo parcelamiento. Por lo tanto obligatoriamente se debe deducir
la forma en que se correlacionan ambas variables.
Se considerará como variable independiente X [años]
y como variable dependiente Y [Bs.], ya que la variable “Area” es constante.
La salida de la Hoja de Cálculo Excel podrá ser
parecida a la siguiente:

Viendo los resultados de la salida de la hoja de
cálculo, el Modelo de Correlación Lineal será el siguiente:
Y = 122,552,211.30 -
3,276.90418 * X
Sustituyendo X=20 años (Edad del Inmueble) se
obtiene:
Y = 122,552,211.30 - 3,276.90418 * (20) [Bs.]
Y = 57,014.13 [Bs.]
y el Valor del inmueble será Bs. 57,014.13
3.0 El uso de los Paquetes Estadísticos en los
Informe de Avalúos
La mayoría de los
paquetes estadísticos son complejos, difíciles de usar, caros y
la mayoría de los
datos que nos suministran no nos interesa en absoluto al momento de hacer
un avalúo.
Sin embargo, su
utilización cada día es mayor y su versatilidad nos permite llegar en forma
extremadamente rápidas a resultados.
Existen en el mercado una gran variedad de Paquetes Estadísticos mas o menos complejos
para cada tipo de Sistema Operativo
(DOS, Windows, McIntosh, Linux, Unix,
OS2, etc.),
Sin embargo, en
los últimos años, los paquetes integrados tales como MS-Office
(Excel), Lotus Smart Suite (Lotus 123) y Smart Office (Q-Pro), han mejorado sus
aplicaciones estadísticas,
de tal forma que se
han transformado en los preferidos de los usuario.
IV USO DE LA HOJA DE CALCULO EXCEL EN LOS ANALISIS DE
REGRESION MULTIPLE
1.0 La
mayoría de los casos en la vida real,
para poder predecir la variación
de una variable, no se hace en función de una sola variable independiente (Precio Unitario
vs. Area, por ejemplo); sino mas bien son VARIAS las variables que son necesarias para predecir un comportamiento o
fenómeno.
2.0 En este
caso solamente se estudiará el
caso de REGRESION LINEAL MULTIPLE[1], es decir una variable
estará explicada en función de otras en
forma lineal:
Y
= A + B X1 + C X2 + D X3 +...+ M Xn
3.0 Como ejemplo, en el caso del avalúo de un
apartamento, se deberían considerar las siguientes variables:

y así sucesivamente se pueden
estudiar las todas las diferentes variables que son posibles de medir u
obtener, que ayudarían a explicar el
fenómeno, que en este caso sería LA
VARIACION DEL PRECIO UNITARIO DE APARTAMENTOS.
4.0.- La
metodología que se utiliza en la
correlación lineal múltiple es similar o
más bien la misma que la que hemos estudiado en la correlación lineal simple.
La dificultad está en
obtener los parámetros del modelo,
la cual sin el computador
u ordenador, se hace muy
engorroso o prácticamente imposible cuando se superan las tres variables independientes, ya que habría
que resolver el sistema
de ecuaciones normales a través
de matrices y
determinantes.
NOTA
1:
Se explicará la implementación de las Técnicas de Regresión Múltiple, como
“Metodología Valuatoria”, por la vía del
ejemplo.
NOTA
2:
Se utilizará en esta monografía, la Hoja de Cálculo de Uso General: Microsoft
Excel, la cual, entre su funciones estadísticas,
posee: Regresión Lineal Múltiple y Regresión Exponencial Múltiple.
5.0.-Implementación de las
Técnicas de Regresión Múltiple como
Métodología Valuatoria
Es común observar una relación entre dos o más variables cuando se analizan una
serie de “Inmuebles Referenciales” para
una zona o región determinada.
Por ejemplo, analizando
los Precios Unitarios y las Areas de Terreno; en estas dos variables parece
existir una relación inversa de
proporcionalidad; ya que aparentemente: A mayor área de terreno, se observa
menor precio unitario.
Lo ideal sería expresar
estas relaciones mediante
una expresión algebraica que sea capaz
de interrelacionar las variables entre sí. Sin embargo, es casi imposible encontrar una función que se ajuste perfectamente a la serie de
datos estudiados, por lo
tanto se deberá buscar el “Modelo de Mejor Ajuste” que indique
la tendencia de las diferentes
variables consideradas en una Serie.
Se deberá entonces
acudir a Métodos Estadísticos complejos, a fin de poder determinar
la Ecuación o
Modelo que permitirá
obtener “La Tendencia” en términos generales de una Serie de Datos, en virtud del incremento o disminución que tendrá
una variable en función de la otra u otras.
Estos Métodos
Estadísticos, entre otros son:
o
La Regresión Simple: Trata de correlacionar dos (2)
Variables (una Dependiente y una Independiente)
o
La Regresión Múltiple: Trata de correlacionar Una
(1) Variable Dependiente y “n” Variables Independientes.
6.0.- Reglas Básicas en
la implementación de las técnicas de Regresión Múltiple, como Proceso
Valuatorio
6.1.- Se considerará siempre
como Variable Dependiente,
el Precio Unitario (sin corregir) de
una serie de referenciales, y deberá
siempre estar expresada en Bs/M2 (Unidad Monetaria / Area).
6.2.- Las
Variables Independientes numéricas,
tales como el área del terreno, el área
de construcción, la edad del inmueble
etc., podrán ser enteradas libremente en las ecuaciones de correlación.
6.3.- Otras Variables, que no puedan ser
expresadas algebraicamente tal como
el tiempo transcurrido entre la protocolización
y la fecha del avalúo, deberán ser transformada a una expresión numérica; una
vez obtenida la
expresión numérica podrán
ser enteradas en las
ecuaciones de correlación.
NOTA
IMPORTANTE: Las variables No Numéricas o Cualitativas, no pueden formar parte de
la Regresión, ya que para poder transformarla en “Variables Numéricas”, habría
que recurrir a establecer un criterio (casi siempre empírico) desvirtuando así
la técnica eminentemente objetiva, donde no entra para nada el criterio del
Profesional Tasador.
6.4.- Se presenta a
veces el caso, de que no es posible
obtener todas las variables de un referencial
por diversas razones,
siendo principalmente: La
información incompleta del inmueble
en el Documento Protocolizado en
la Oficina de Registro Inmobiliario. En estos
casos, alguno de los Software Estadístico podrá generar automáticamente la predicción de la variable o variables
faltantes, permitiendo
continuar el proceso de correlación.
NOTA
IMPORTANTE: En caso de utilizar MS-Excel o un paquete similar, habría que
descartar al Referencial o Comparable, ya que en una Hoja de Cálculo, si una
celda está “en blanco”, la asumiría como cero (0.00). Cosa que afectaría el
resultado de la regresión.
6.5.- Preparación y
entrada de los datos a correlacionar: Hay que
tener especial cuidado en la trascripción de los datos dentro de la hoja de cálculo o Programa Estadístico. Se ha
comprobado que la mayoría de las
veces los errores ocurren por
una o varias equivocaciones en la
trascripción de la data.
EJEMPLO:
1.- Descripción General del Inmueble
El inmueble
objeto de este avalúo está
representado por una casa identificada
como 6-3, Manzana 6, que forma
parte del Sector
identificado como “Aragua”,
ubicado en el
Conjunto Residencias Venezuela,
Urbanización Coche. Caracas
2.- Area de Terreno y Construcción:
Según el Documento de Propiedad y las mediciones
efectuadas en el propio inmueble:
AREA APROXIMADA:
3.- Referenciales o Comparables de casas en la
Urbanización Coche:

4.- Entrada de las data en la Hoja de Cálculo:

5.- Salida de la Función de Regresión Múltiple
Lineal:

6.- Interpretación de los Resultados:

7.- Cálculo de la Matriz de Correlación:

8.- Interpretación de la Matriz de Correlación:
No existe problemas de MULTICOLINIALIDAD entre las
Variables Independientes: Area de Terreno (X1) y Area de Construcción (X2).
9.- Cálculo de Fo para la validación del Modelo de
Regresión Lineal Múltiple:

Utilizando la tabla de Puntos de Porcentaje de la Distribución F para una
confianza del 95%, que se anexa a este
informe, obtenemos el valor de Fo = 9.5 Valor que satisface el CRITERIO:
F >> Fo
10.- Conclusión: Se concluye que existe una regresión conjunta entre las
variables incluidas en el Modelo y por
lo tanto se puede afirmar que:
Modelo de Correlación Múltiple Lineal:
y = 28,237.7054 - 6.29879967 * X1 + 165.372264 * X2
Sustituyendo:
![]()

7.0 Aplicación General
de la Metodología de Correlación Múltiple
7.1 En el
ejemplo anterior, se obtuvo un Coeficiente de Determinación Alto, permitiendo lograr la
solución del Modelo de Correlación Múltiple Lineal.
7.2 Sin embargo,
en el campo de la valuación de
inmuebles, la realidad es otra; debido
a la alta dispersión de
los datos referenciales obtenidos y a
la falta de sinceridad en
la Protocolización de los Documentos de Compra-Venta, es poco probable obtener un Coeficiente de Determinación alto al
aplicar esta Metodología en la primera corrida.
7.3 Para
tratar de solventar este
problema, se ha establecido
un procedimiento que permite determinar cuál es el problema que impide que exista la
cohesión entre los datos referenciales.
Este procedimiento se puede enunciar de la siguiente manera:
o
Determinar cuál es el modelo de mejor ajuste
o
Determinar la
existencia de Multicolinealidad entre las Variables Independientes
o
Determinar la existencia de Valores Atípicos
o
Validar la Regresión
7.3.1 Determinación del Modelo de Mejor
Ajuste.
La mayoría de las Hojas
de Cálculo, Paquetes Estadísticos y algunas calculadoras científicas tienen la opción de ofrecer varios modelos o familias de curvas; pero las mismas se limitan al caso de correlación simple únicamente.
Para el caso de Correlación Múltiple, la situación es invertida: Muy pocos softwares permiten
el estudio de Correlación Múltiple No Lineal (de manera directa).
Quizás la única Hoja de Cálculo que tiene un modelo de regresión múltiple exponencial, además del
modelo lineal, es el MS-EXCEL versión 6.0 o superior.
Conocido lo
anterior, es muy poco o nada lo que pueda hacerse sin contar con varios modelos de regresión múltiple en función de buscar el modelo de regresión que mejor se ajuste a
los datos, o sea el que posea un Coeficiente
de Determinación significativo.
7.3.2 Determinación de la
existencia de Multicolinealidad
entre las Variables Independientes.
El caso de
la Multicolinealidad, se
estudió con detalle en las páginas anteriores. Para el caso de Correlación Múltiple, la
aplicación de la Matriz
de Correlación, permite
determinar la existencia
de Variables Independientes que
están en función de otras,
obligando a la eliminación de una de las variables correlacionadas.
Es importante de señalar,
que la existencia de
Multicolinealidad entre Variables Independientes, debe verificarse, aún si el Coeficiente de
Determinación del Modelo de Regresión Múltiple sea cercano a 1.0, ya que este
hecho no
necesariamente implica la
inexistencia de problemas
de Multicolinealidad en la regresión.
7.3.3 Determinación de la existencia de
Valores Atípicos.
Se definen
como “Valores Atípicos”,
aquellos valores que no
perteneciendo a la
serie estudiada, forman
parte de la
muestra recolectada.
En un
sistema de registro inmobiliario insincero u ofertas engañosas de la prensa
inmobiliaria especializada, donde una
gran cantidad de operaciones de compra-venta de inmuebles no están sujetas a la realidad,
es muy común la presencia de “Valores Atípicos” en la Serie de datos referenciales
estudiada.
En la
estadística de Regresión,
se define como
“Residuo” o “Residual”, a la diferencia entre los valores observados
en la serie y los valores calculados o
estimados de la regresión:
![]()
Gráficamente, para un
Modelo de Correlación Simple, se puede
observar que existen valores (x , y) muy
cercanos a la curva de regresión,
mientras que otros están muy alejados.

En el caso de
Correlación Múltiple, donde no se habla
de curvas de regresión, sino mas bien
de Planos de Regresión, si se correlacionan Tres (3) variables; es muy difícil
representar gráficamente los
Valores Observados en relación con el
Plano de Regresión para sistemas de Tres Variables:

Sin embargo, es
imposible la representación gráfica
cuando existen mas de tres variables,
ya que estaríamos fuera del
espacio convencional; por eso
se habla de Hiperplanos de Regresión,
que aunque no
pueden ser representados
gráficamente (o físicamente), existen matemáticamente.
La representación
de los valores atípicos en planos o hiperplanos de correlación,
es posible de
visualizar mediante el
siguiente procedimiento:
a) Se define
el Eje de las Ordenadas (Y)
para representar los valores observados
( y ), (En el caso de avalúos: el Precio Unitario).
b) Se define el Eje de las Abscisas (X) para
representar los valores calculados o estimados
.
c) Se define una recta bisectriz
, que corta el plano XY en dos semiplanos.
d) Se plotean
los pares ordenados
(Valor
Calculado , Valor Observado); la distancia
perpendicular de cada punto a la recta bisectriz definirá a los valores
atípicos, que serán los más alejados a
esa recta bisectriz.

Los valores que más
alejados de la curva, plano o hiperplano
de regresión, son los que se definirán
como “Valores Atípicos”.
Estos datos, que
por definición no pertenecen a la
Serie estudiada, deberán ser eliminados
a fin de obtener un mejor ajuste en la regresión (un Coeficiente de
Determinación (R2) mas alto).
El problema se presenta
en determinar cuantos valores atípicos
hay que eliminar de la serie,
cuidando a su vez, no alterar
sustancialmente el fenómeno
estudiado (comportamiento del
mercado en nuestro caso)
Si se eliminaran todos los valores
atípicos de la serie, mas bien
estaríamos “forzando” a unos
datos a que encajen en un modelo, y lo
que realmente se busca: Es el modelo que
“mejor se ajuste (explique)” los datos de la muestra seleccionada.
7.3.4.- Procedimiento
Analítico para la detección de Valores Atípicos
Analíticamente, se consideran
Valores Atípicos, aquellos datos cuyos residuos
, se alejen más de un determinado (k) número de veces de la Recta Bisectriz
precitada en el
punto anterior.
Para poder aplicar este
procedimiento se deberá suponer que los Residuos
de los
referenciales se distribuye de manera “Normal”[2].
Una vez acordado la
hipótesis anterior, se deberá calcular aquella desviación estándar que cumpla
con la condición: Todo dato ubicado fuera del rango
, tenga una “Probabilidad” (p) que tienda a cero
(0).
Donde la probabilidad
(p) se calcula:
![]()
Siendo “n” el número de
datos de la serie de referenciales seleccionados.

Aquellos datos, cuyos
residuos se ubiquen debajo de las dos “colas”, se consideran atípicos.
Para
conocer el inicio de cada una de las colas, debemos calcular en número de
desviaciones estándar
mas allá de las
cuales la probabilidad (p) sea inferior que:
(
)
La función que genera
el coeficiente (k), se denomina: “Distribución Normal Estándar Inversa”
(IDF) y se calcula por medio de una subrutina presente en la hoja de cálculo
Excel dentro de las funciones estadísticas[3]
Ahora bien, habiendo
calculado los residuos
de todos los
datos de la serie de referenciales:
Se definirán como “Valores
Atípicos” todos aquellos datos que cumplan con la condición de que el Valor
Absoluto de su residuo, se aleje
veces del valor
observado (y).
![]()
Estos Valores Atípicos,
serán eliminados de la serie de referenciales; y se volverá a correr la
Regresión Múltiple con los datos remanentes.
7.3.5.- Método
Empírico:
El “Método Empírico”,
se basa en suponer:
a) Que los
Residuos
se distribuyen
en forma Normal
b) Que debajo de las
colas se ubica de un 20 a 25 % de los Residuos
c) Que debajo de la
campana se ubica de un 75 a 80 % de los Residuos

El método, aconseja que
el máximo de datos o valores atípicos
que pueden ser eliminados de una serie, sin que la misma se altere sustancialmente,
es de un 20 a 25% de los valores.
Adicionalmente se recomienda, para garantizar la integridad de
los datos; que la totalidad de los valores atípicos de una serie no deben ser
eliminados de una sola vez, sino por lo
menos en dos corridas:
a) Primero se elimina
el 50% de los valores atípicos o menos
b) Se vuelve a correr
el software de Regresión Múltiple con los datos restantes, se chequea el R² y si no es satisfactorio
c) Se elimina el 50%
restante y se vuelve a correr el software con el remanente que quedó de la
serie.
7.3.6.- Validación: de
la Regresión
Una vez eliminados los
Valores Atípicos de la serie, se deberá comprobar si el Número de Datos y
Variables Independientes que quedan en el modelo cumplen con el Test de Fisher
(Estadístico F o Prueba F).
Para esto se vuelve a
correr la serie de datos remanentes. De la salida del software se ubicará en
valor del Estadístico F y se comparará con el Fo (F de prueba); que deberán
cumplir con el criterio que F >>Fo para poder validar la regresión.
7.3.7.- Alcance del
Método:
Por supuesto, todas las recomendaciones vistas en el Apartado 7.3, no garantizan la seguridad
de poder determinar y validar
la regresión múltiple.
Si no
es posible determinar el
modelo satisfactorio para
explicar el fenómeno estudiado (comportamiento de los precio, en
nuestro cas); no queda
otro camino que
el de realizar
la valoración por la metodología clásica de Comparación o Mercado,
ajustando los referenciales a las correcciones y criterios del Profesional Tasador.
EJEMPLO
Durante
el último trimestre,
se registraron los
siguientes inmuebles, correspondientes a Apartamentos de una misma urbanización de interés social:

a) Utilizando la hoja de cálculo MS-Excel, se
presenta la Salida de la
subrutina correspondiente a la regresión múltiple lineal, de donde se obtiene:
* Coeficientes del modelo de regresión múltiple
lineal:
* Estadístico F
* Coeficiente de Determinación R2
* Desviación Estándar de la regresión
* Otros datos estadísticos importantes
NOTA: El
paquete utilizado solo tiene definido algoritmos para el cálculo de Regresión Múltiple Lineal y Regresión Múltiple
Exponencial (mal llamada por los desarrolladores de Microsoft como “Logarítmica”);
por lo tanto no será posible
determinar otro modelo
de correlación diferente a los
anteriores que explique mejor el fenómeno.
1) Modelo
de Regresión Múltiple Lineal:

De igual forma, se llama desde la hoja de cálculo
la Subrutina de regresión múltiple logarítmica de donde se obtiene la salida
siguiente:
2) Modelo
de Regresión Múltiple Logarítmica:

Tal como se observa, los Coeficientes de Determinación (R2)
para cada uno de los modelos es:

Sin embargo, el Coeficiente de Determinación del
Modelo Lineal es ligeramente superior al del Modelo Logarítmico.
Por lo tanto, se elegirá al Modelo de Regresión
Lineal, por tener el Coeficiente de Determinación más alto.
No obstante, el modelo lineal solo explica algo mas del 26% del fenómeno a ser
estudiado. Por lo tanto, a esta altura del ejemplo, la correlación entre las
variables no existe.
3) Existen por lo menos Dos (2) posibles causas de
este bajo Coeficiente de
Determinación (R2):
a) La
existencia de Multicolinealidad entre
las Variables Independientes
b) La
Existencia de Valores Atípicos en la serie de referenciales
seleccionados.
4) Para determinar si existen problemas de
Multicolinealidad entre las variables independientes, se presenta la salida del
software, que corresponde a la Matriz de Correlación:

Se puede apreciar en la Matriz de Correlación, que
entre las Variables Independientes AREA (X1) y
EDAD (X2), existe una
correlación MEDIA y DIRECTA, no
detectándose problemas de
Multicolinealidad entre las Variables Independientes.
Habiendo descartado problemas de multicolinialidad,
se presume que el bajo Coeficiente de Determinación calculado en el modelo, es
consecuencia de la presencia de Valores Atípicos en la serie de referenciales.
Por lo tanto se procederá a calcular los Residuos para determinar dichos
valores.
5) Cálculo del valor de los Residuos:

6) Se procede a determinar los Valores Atípicos:
NOTA
IMPORTANTE: En este ejemplo se
emplearán los Dos (2) Métodos “Analítico” y “Empírico”, para demostrar su
aplicación.
Sin
embargo, es de hacer notar al estudiante, que debido a un “bug” en la
programación de la función “Regresión Exponencial” (llamada erróneamente en
Excel como “Logarítmica”); el resultado de la salida de los elementos:
*
“Desviación Estándar de la Regresión”
*
“Desviaciones Parciales de las Variables”
*
“SCR”
*
“SCE”
No
son correctos; y al no poder obtener
(Desviación Estándar de la Regresión), no se
puede calcular el intervalo
y por lo tanto no se
puede aplicar el “Método Analítico” a los resultados de la “Regresión Exponencial”.
a) Procedimiento Analítico:
a-1) Se calcula la probabilidad ![]()
a-2) Se calcula (k) a través de la función de la
hoja de cálculo Excel: “Distribución Normal Estándar Inversa” (IDF)
a-3) Se obtiene la Desviación Estándar de la
Regresión de la salida de la Regresión Múltiple Lineal ![]()
a-4) Se calcula el factor ![]()

a-5) Se procede a determinar cuáles son los datos
que el Valor Absoluto de su residuo es mayor a
:

Donde ![]()
a-6) Se concluye que los datos “6” y
“12”, son Valores Atípicos, y por lo tanto podrán eliminarse y volver a
correr el software con los datos restantes para determinar el modelo de
regresión.
b) Comprobamos a través del Método Empírico:
a-1) Siendo 12 los datos de la serie de
referenciales, el 25% de los mismos
serán 3 datos, que es el número
máximo de Valores Atípicos
que se pueden eliminar. Ordenados de Mayor a menor
estos serán:

a-2) Sin embargo, el procedimiento indica que por lo men