Regresión Lineal Múltiple Aplicada Al Avalúo.

36
[email protected] MANEJO COMPUTARIZADO DE DATOS DE AVALÚOS. MANEJO COMPUTARIZADO DE DATOS DE AVALÚOS. [email protected] 0258-4335084 Venezuela. LA TECNICA DE RGRESIÓN MULTIPLE DISCRETA, EL PRONÓSTICO EN AVALÚOS. TOPICOS BASICOS. LA TECNICA DE RGRESIÓN MULTIPLE DISCRETA, EL PRONÓSTICO EN AVALÚOS. TOPICOS BASICOS. TOPICOS BASICOS SOBRE: TOPICOS BASICOS SOBRE: LA TECNICA DE REGRESIÓN MULTIPLE DISCRETA. LA TECNICA DE REGRESIÓN MULTIPLE DISCRETA. MODELOS LINEALES GENERALES. MODELOS LINEALES GENERALES. EL PRONÓSTICO EN AVALÚOS CON MODELOS HEDONICOS. EL PRONÓSTICO EN AVALÚOS CON MODELOS HEDONICOS. El pronóstico, predicción o estimación de una respuesta (ŷ) en función de varios factores (variables predictoras X i ), requiere la construcción de un modelo de regresión (modelo poblacional), que puede tener muchas formas, pero que la literatura econométrica y biológica por experiencia, recomienda que un modelo de regresión lineal múltiple cuadrático con interacciones de primer orden, ajusta bastante bien a “casi” cualquier proceso o comportamiento: Modelo lineal polinómico cuadrático con interacciones de primer orden: Por ejemplo, para la respuesta precio ( ŷ 1 ), y para dos variables predictoras X 1 (modelo carro) y X 2 (Condición del carro); el modelo poblacional ŷ=ƒ(X 1 , X 2 ) + e, tendrá la siguiente forma: ŷ 1 = β 0 + β 1 X 1 + β 2 X 2 + β 11 X 1 2 + β 22 X 2 2 + β 12 X 1 X 2 + e. Donde ŷ 1 = Respuesta a estimar. β 0 = Coeficiente no regresor (termino independiente). β 1, β 2, β 11, β 22 y β 12 = Coeficientes regresores. e = Error total (de muestreo o experimental). Entonces, suponiendo a priori que este modelo se ajusta bastante bien a los datos tomados, el siguiente paso es estimar los coeficientes regresores β 1, β 2, β 11, β 22 y β 12 para así tener un modelo, que al introducirles valores de X 1 y X 2 , pronostiquemos valores de ŷ. En el modelo poblacional anterior: El termino β 1 X 1 + β 2 X 2 representa la parte de primer orden (linear) del modelo. El termino β 11 X 1 2 + β 22 X 2 2 representa la parte de segundo orden (cuadrática) del modelo. El termino β 12 X 1 X 2 representa la interacción (sinergia) de primer orden entre las dos variables predictoras. 1

Transcript of Regresión Lineal Múltiple Aplicada Al Avalúo.

[email protected] Manejo Computarizado de Datos DE AVALOS. [email protected] 0258-4335084 Venezuela.la teCNICA de rgresin multiple discreta, el PRONSTICO en avalos. topicos basicos.

TOPICOS BASICOS sobre: La tecnica de regresin multiple discreta.

modelos lineales generales. el PRONSTICO en avalos con modelos hedonicos.El pronstico, prediccin o estimacin de una respuesta () en funcin de varios factores (variables predictoras Xi), requiere la construccin de un modelo de regresin (modelo poblacional), que puede tener muchas formas, pero que la literatura economtrica y biolgica por experiencia, recomienda que un modelo de regresin lineal mltiple cuadrtico con interacciones de primer orden, ajusta bastante bien a casi cualquier proceso o comportamiento:Modelo lineal polinmico cuadrtico con interacciones de primer orden:Por ejemplo, para la respuesta precio ( 1), y para dos variables predictoras X1 (modelo carro) y X2 (Condicin del carro); el modelo poblacional =(X1, X2) + e, tendr la siguiente forma: 1 = 0+ 1X1+ 2X2+ 11X12+ 22X22+ 12 X1X2 + e. Donde 1 = Respuesta a estimar. 0= Coeficiente no regresor (termino independiente).

1, 2, 11, 22 y 12 = Coeficientes regresores. e = Error total (de muestreo o experimental).

Entonces, suponiendo a priori que este modelo se ajusta bastante bien a los datos tomados, el siguiente paso es estimar los coeficientes regresores 1, 2, 11, 22 y 12 para as tener un modelo, que al introducirles valores de X1 y X2, pronostiquemos valores de .En el modelo poblacional anterior:

El termino 1X1+ 2X2 representa la parte de primer orden (linear) del modelo.

El termino 11X12+ 22X22 representa la parte de segundo orden (cuadrtica) del modelo.

El termino 12 X1X2 representa la interaccin (sinergia) de primer orden entre las dos variables predictoras.S, las variables predictoras fuesen tres (X1, X2 y X3); siendo X1 =modelo de carro, X2 = condicin del carro y

X3 =Kilometraje recorrido. El modelo se expresara como:1 = 0+ 1X1+ 2X2+ 3X3 + 11X12+ 22X22+ 33X32 + 12 X1X2 + 13 X1X3 + 23 X2X3 + error.

S un coeficiente regresor tiene signo positivo por ejemplo + 1X1, significa que: por cada incremento unitario de la variable X1, la respuesta aumentar 1 veces.S, un coeficiente regresor tiene signo negativo por ejemplo 2X2, significa que: por cada incremento unitario de la variable X2, la respuesta disminuir 2 veces.

Podemos darnos cuenta que si las variables predictoras Xij son muchas, el modelo se hace grande y los clculos se hacen difciles de hacerlos manualmente; por ello se recomienda usar un programa de un software estadstico-matemtico-grafico, que nos ayude en la resolucin del problema.El software estadstico-matemtico para encontrar los 1, 2, 11, 22 y ij del modelo, aplica el mtodo de MCOM mnimos cuadrados ordinarios matriciales:

As: Para dos variables predictoras (Xij); se realiza la siguiente operacin matricial. ij = (XX)-1* (XY) -1 1 2 11 22 = X X * XY .

. . 12Observemos la siguiente limitante o exigencia del mtodo: Que se pueda invertir la matriz (XX) o sea que se pueda realizar (XX)-1 Esto se puede realizar si:

1. Los datos son numricos continuos infinitos.

2. Las columnas (vectores) son independientes, o sean ortogonales (no multicolinealidad). Recordemos que un software es una herramienta que nos ayuda, l no es inteligente, nosotros somos los inteligentes y, s le metemos basura al programa, este nos devolver basura. Es por ello que debemos saber qu datos recolectar, qu tipo de variables recolectamos, qu estudio y tratamiento debemos aplicar a los datos crudos antes de utilizarlos, cmo se organizan los datos en una hoja de calculo, qu programa especifico del software utilizar, etc.El mtodo comn o tradicional para estimar los coeficientes regresores ij de un modelo poblacional de este tipo es:

Mtodo de Mnimos Cuadrados Ordinarios Matricial (MCOM), esto es solo para variables predictoras Xij y respuestas que sean numricas continuas. En el caso de avalos, la mayora de las variables son discretas, categricas (nominal u ordinal), se requiere entonces aplicar un mtodo ms general o sea Mtodo de Modelos Lineales Generales (MLG). Por ello se habla de mtodos de regresin discretos. Dado que la escala de estas variables son hednicas en su mayora; entonces hablamos de modelos de regresin hednicos.S los valores de respuesta () medidos, presenta problemas como autocorrelacin seriada, se aplica logaritmo a la respuesta medida. Si la respuesta tiene varias posibilidades (dico o policotomica: escala hednica) se implementa Modelos Logsticos (ML).

MLG implementa un mtodo de seleccin de variables predictoras de paso a paso (stepwise) y el mejor subconjunto (best-subset) como procedimiento para construir el modelo.GLM para poder resolver el problema de trabajar con variables discretas, usa el mtodo de mxima verosimilitud (mximum kelihood) para probar hiptesis de los efectos de las variables predictoras sobre la respuesta; o puede utilizar inversa generalizada de Moore-Penrose o la inversa condicional.Si los datos son de series de tiempos, entonces usamos un mtodo como el de series de Fourier o redes neuronales.Se sabe que en avalos el precio depende del sitio (espacio geogrfico) y del tiempo; para ello se habla entonces de regresin para construir un Modelo Hednico Espacio-Temporal, con anlisis variogrfico del precio.

Cuando la variable dependiente es discreta (escala hednica), se recomienda utilizar regresin logstica o regresin logstica multinominal. Esto es lo que se llama regresin discreta y limitada de variables dependientes.Adems de todas las complicaciones y todos los intrngulis que tienen que hacerse para hacer un buen pronostico, deben comprobarse y satisfacerse los requerimientos (supuestos) del mtodo de anlisis de regresin, esto para que sean validos los resultados y el modelo sea un buen predictor. Los supuestos son: 1. Homogeneidad de varianza o varianza constante entre las observaciones.

2. Normalidad de los errores e = (y- ).

3. Independencia de las observaciones (no correlacin seriada).

4. Aditividad de los efectos.

Por otro lado, para hacer el anlisis de la bondad de ajuste del modelo (regresin, falta de ajuste, coeficiente de regresin), se usa prueba de hiptesis de relacin de varianza (F de Fischer); para lo cual necesita comprobarse y satisfacerse los supuestos del anlisis de varianza: que los errores deben distribuirse en forma normal, Independientes, con media cero y varianza constante 2; e ~ NID (0, 2).En cualquier caso, s los datos son mixtos (cualquier tipo de variable y escala de medida), con cualquier nivel (dico, tri policotmica o hednica de niveles variados), muchos casos, muchas variables, datos muy complicados y datos muy complejos; entonces es preferible usar tcnicas alternativas avanzadas como son: Anlisis Multivariado, Redes Neuronales, Lgica Difusa o Sistemas Neurodifusos.De la introduccin anterior puede observarse que la implementacin y construccin de un modelo de regresin, requiere de un conocimiento previo sobre tipos de variables y escalas de medidas, para as decidir que tipo de programa de regresin utilizar.Por qu un Avaluador requiere conocer las bases tericas, los fundamentos tericos y los intrngulis del mtodo de regresin?Porque en algn momento de su existencia tendr que enfrentar un problema legal, donde debe defender su trabajo bajo ese mtodo; donde necesariamente estaran presentes jueces expertos avaluadores y quizs expertos matemticos-estadsticos a la hora del juicio de carcter legal-jurdico.TIPOS DE VARIABLES Y ESCALAS DE MEDIDAS.Tipos de Variables.

Las variables pueden clasificarse como:

1. Variables dependientes (Variables Respuestas)Estas variables (respuestas medidas), dependen de las variables predictoras, y se denominan con la letra y, luego despus de construido el modelo y pronosticada (predicha) las respuestas, se denomina con la letra . La diferencia entre la respuesta medida y la respuesta pronosticada (predicha) se denomina residuales o error residual(y- ). La sumatoria al cuadrado de estos errores, se llama Suma de Cuadrados de los Errores (SCE):

(yi- i)2, los mtodos de regresin construyen muchos modelos, sin embargo seleccionan el mejor modelo como aquel que presenta el mnimo valor de SCE.2. Variables Independiente (Variables Predictoras).Estas variables se denominan con la letra Xi.3. Variables Intervinientes (Covariables).

Son aquellas variables que aunque no pudieron medirse o se midieron mal, se saben que influencian la respuesta. En estos casos donde se dejan de introducir variables, s dichas variables predictoras influencian grandemente (tiene alta correlacin con la respuesta), entonces tendremos un deficiente modelo poblacional.

Otra forma de clasificar las variables: Numricas y Categricas (con sus escalas de medidas).1.Numricas.2. Categricas (discretas)

1.1.Continuas.

Estas variables, caen dentro de la escala de proporcin. Esta escala da informacin acerca de las relaciones de orden, de distancia y de razn o proporcin entre dos observaciones. Aqu el punto cero es natural y las unidades son arbitrarias (peso, tamao, volumen, tiempo de efecto de un factor, etc.).

Infinita: Puede tomar cualquier valor real.

Finita: Puede tomar cualquier valor real, pero dentro de una escala o rango, por ejemplo cualquier valor entre 1 y 10.

2.1.Nominal.La escala nominal utiliza nmeros, letras o palabras como medio para asignar o separar las propiedades o elementos en clases, en grupos o en categoras distintas.

Por ejemplo, Marca, tipo de zona, tipo de construccin, color, calidad de, etc. Aqu la asignacin de los nmeros o letras a cada nominacin es arbitraria.

1.2. Intervalo continuo.

Esta escala da informacin acerca de la relacin de orden y relacin de distancia entre dos observaciones. Esta escala se caracteriza por una unidad de medida comn y punto cero arbitrario (escala de temperatura, tiempo con reloj, tiempo con un calendario, etc.).

2.2.Ordinal.

La escala ordinal se refiere a medidas en las cuales solamente tengan sentido los trminos de comparacin mayor, menor e igual entre las observaciones. El valor numrico o letra es utilizado exclusivamente para indicar orden. Como ejemplo se tiene:

A. Las respuestas de opinin y las escalas de calidad (survey) de un bien (escala hednica).

B. Clasificacin: Tamao, Color, Marca, Edad, etc.

C. Rangos: Renta, Ingresos, etc.

D. Contajes: Casos atpicos en un condominio, animales muertos en una carretera.

S, una variable ordinal representa incrementos constantes, puede ser tratada como una variable discreta.

2.3.Intervalo discreto.

Puede tomar cualquier valor entero dentro de una escala, por ejemplo 10 posibles valores entre 1 y 10 (escala hednica).

En general en una investigacin de avalu se recogen una gran diversidad de variables predictoras categricas (discretas), en estos casos hay que codificar los niveles de esta variable, o lo que es lo mismo, crear variables dummy (falsas). Lo que si hay que tener presente es que los niveles para cada variable deberan ser constantes, si se puede. Por ejemplo: todas dicotmicas, todas tricotmicas, etc. S no, cuando introduzcamos los datos en la hoja de clculo del software, quedarn celdas vacas, las cuales crearan perturbaciones en los clculos. Sin embargo no nos preocupemos por eso, el software te preguntar si quieres obviar del anlisis los datos vacios (faltantes: Seleccionando la opcin Pairwise).Por ejemplo, como analizara la recogida de los siguientes datos espaciales-temporales y de precios, usando las siguientes escalas. Qu tipo de variable y de escala es en cada caso?, como introducira la variable calidad de las vas de acceso, s: en ZC es mala, en ZB es buena y en ZA es excelente.AoEdificacinPrecio: Valor de Mercado.

0=Muy alto, 1=alto 2=medio, 3= Bajo.Zona C (ZC)

Zona marginalZona B (ZB)

Zona clase mediaZona A (ZA)

Zona clase alta

1A1001

1B2010

1C3100

1D3100

2A0001

2B1010

2C3100

2D2100

4A0001

4B1010

4C2100

4D3100

Cules son las variables y cuales los casos? Cmo arreglara estos datos para acomodarlos correctamente en una hoja de clculo y hacer una regresin del precio en funcin de ao, edificacin, zona y la calidad de la va de acceso?ESPECIFICACIN DE LAS VARIABLES Y DATOS EN UNA HOJA DE CLCULO.Cualquier programa de un software estadstico-matemtico, exige que las variables en la hoja de clculo, le sea declarado el tipo de medida, tipo de dato y el formato. Por ejemplo el software estadstico muestran un cuadro de dialogo en el cual se deben especificar las caractersticas de las variables y datos:Tipo de medida (Measuremet Type).

Tipo de dato (Data Type)

Formato del dato (Display Format)

Measurement type.

Tipo de medida.

Unespecified

Auto

Continuos

Categorical

OrdinalData Type

Tipo de datoDouble

Text

Integer

Byte

Display Format

Formato del datoGeneral

Number

Date

Time

Scientific

Currency

Percentage

Fraction

Custom

El manual electrnico del software presenta la siguiente descripcin, la cual explica cada caso. Double. The Double (Double Precision abbreviated) data type is the default format for storing numeric values in STATISTICA. Technically, the values are stored as 64-bit floating point real numbers, with 15-digit precision (1 bit for the sign, 11 for the exponent, and 52 for the mantissa). The range of values supported by this data type is approximately 1.7*10308. Each numeric value can have a unique text label attached (see Text Labels Editor) of practically unlimited length when the Display format is General. This is the only data type that allows numbers containing decimals. When your data type is Double, each cell takes up 8 bytes of storage (plus the optional text label). Note that for the Double data type, the missing data code is -9999.

Integer. If Integer is the data type, you can enter integers between and including -2,147,483,648 through 2,147,483,647. You cannot enter numeric values containing decimals into a variable of this type. Each numeric value can have an unique text label attached (see Text Labels Editor) of practically unlimited length when the Display format is General. When your data type is Integer, each cell takes up 4 bytes of storage; hence this data type offers a more economical way of storing numbers than when Double is the data type and is recommended for storing integer data especially in large datafiles. Note that for the Integer data type, the missing data code is the same as Double: -9999.

Byte. If Byte is the data type, you can enter integers between and including 0 through 255. You cannot enter numeric values containing decimals into a variable of this type. Each byte value can have a unique text label attached (see Text Labels Editor) of practically unlimited length when the Display format is General. The advantage of specifying Byte as your data type is that it offers the most economical storage for values that are small integers, as each cell takes up only 1 byte of storage. Note that for the Byte data type, the missing data code is 255.

Text. The Text data type is optimized for storing sequences of any characters of practically unlimited length. Note that in STATISTICA, you can perform numerical analyses on text values, and in those circumstances, STATISTICA will assign unique numeric equivalents to all text values being processed (unlike the relation between the numeric data types listed above and their permanent text labels, the relations between text values and numbers are created ad hoc and are not stored by STATISTICA; hence, most likely different numbers will be created the next time if a text variable is included in numerical analyses). The length of a field reserved for text variable type is not constant and can be adjusted. Note that for the Text data type, the missing data code is always an empty string.

Transforming variables of type text. STATISTICA also supports various logical and other (e.g., concatenation) operations on variables of type text. For available transformations of these variables (variables of type text), see Transformation of Text Variables (Variables of Type Text). Note that STATISTICA Spreadsheets also support text labels for numeric values (these are labels "attached" to numeric values, which are used for display purposes only); when transforming the values with attached text labels, the respective transformations are performed on the numeric representations, and not on the text labels.

Why do you need different variable types? The difference between the text and the numeric types is straightforward; however, the main reason for having three types of numeric values is the storage efficiency. For most data files, that is not important and, thus, using the default (Double) data type is recommended. However, for very large data files, being able to switch to a 2 (or even 8) times more efficient storage (by using different data types) could make a difference between being able to perform the necessary analysis on a specific computer system or not.

La hoja de clculo del software statistica (STATISTICA Spreadsheets), all podemos elegir mostrar el formato (display format), que acompaa una variable con el tipo de dato (data type) como: double, integer, o byte. Aqu se da la explicacin para cada caso.Display FormatExplanation

GeneralThis category has no specific number format.

NumberSelect this category if the values of the variable are numeric, or numeric with text equivalents. When you select this category, you can specify the number of decimal places to be displayed in the spreadsheet via the Decimals places option.

Representation. These values are represented in decimal format, with or without commas (e.g., 1000 or 1,000). Negative values of the variable can be represented either with a negative sign (e.g., -1000) or with parentheses enclosing the number (e.g., (1000)). There are four Number representations available in this category:

1000;-1000 ; 1,000;-1,000; 1000;(1000); 1,000;(1,000)

Note that a European representation (e.g., 1,20) is supported by STATISTICA if you select this style in the Control Panel. If this style is not selected in the Control Panel, and you enter a comma in the decimal place, STATISTICA will treat the value as a text label.

DateSelect this category in order for variables to be interpreted as dates (e.g., variables containing Julian date values imported or pasted from Excel). Note that in order to be displayed as a valid date, all values in the variable must be correct dates or explicitly defined text labels.

Representation. Select the desired Date representation from the list of Date formats. In the Edit Format dialog, the various Date representations are as follows:

3/17/92; 03/17/1992; 17-Mar-92; 17-Mar; Mar-1992; 17/03/92; 1992/03/17; Windows Date Format

Note that if the Windows Date Format is selected, STATISTICA will format the date display using the specifications given in the Regional Settings dialog of the Control Panel.

Conversion of Julian days to displayed dates. The exact algorithm of how integer values (Julian date or "days") are converted to standard dates and vice versa is affected by the setting of the Adjust Julian dates to account for no leap year in 1900 option on the Options dialog Spreadsheet tab. For example, a date entered and displayed as 1/21/1968 may be stored as the Julian date 24858 or 24856, depending on the setting of that option.

TimeThis category will display the values of the variables in one of several Time formats. Time values of variables are stored in the data as (optional) decimal values representing the fraction of the day since midnight. For example, 6:00AM is stored as 0.25. Time values stored in this manner can be used in subsequent analyses and transformed using arithmetic operations; at the same time, they can be displayed as times in reports or graphs (e.g., used to label scale values). STATISTICA will format the display of time values according to the current settings in the Regional Settings dialog of the Control Panel.

Representation. Time can be represented in one of several formats. You can choose from a date-time combination [with either 24-hour time or 12-hour (AM/PM) time format], or just time [either a 24-hour time or 12-hour (AM/PM) time format] in hours and minutes or hours, minutes, and seconds. You could also select the Windows Time Format, which will use the current settings in the Regional Settings dialog of the Control Panel. In the Edit Format dialog, the various Time representations are as follows:

3/17/92 5:20 PM; 3/17/92 17:20; 5:20 PM ; 17:20; 5:20:19PM; 17:20:19; Windows Time Format

ScientificThis category allows you to display the values of the variable in scientific notation. When you select this category, you can specify the number of decimal places to be displayed in the spreadsheet via the Decimal places edit field.

Representation. The first representation (standard scientific notation) will display all numbers in the column in scientific notation according to the following rules:

For example, 1.2345E-02 or -3.2100E+08.

The second representation will apply the scientific format only to those (small) values of the variable which would be displayed as 0 (zero) in Number format [i.e., they are from the interval (-1,1) and the significant digits start after the position specified by the Decimal places edit field]. For example, if Decimal places = 4, and the value is 0.0000123, then in Number format, the value would be displayed as 0.0000, whereas, in the second Scientific representation, the number would be displayed as 1.230E-5 (displaying 4 digits before E).

CurrencySelect this category to display the values of the variable in a Currency format. When you select this category, you can specify the number of decimal places to be displayed in the spreadsheet via the Decimal places edit field.

Representation. Currency values are displayed with a currency symbol before or after the number (depending on the configuration specified on your computer; e.g., $, DM, etc., see the Regional Settings dialog in the Control Panel). You can choose to represent negative values of the variable either with a negative sign (e.g., $-1,000) or with parentheses enclosing the number (e.g., ($1,000)). In the Edit Format dialog, the Currency representations are as follows:

$1,000; -$1,000; $1,000; ($1,000)

PercentageSelect this category to display the values of the variable as percentages. When you select this category, you can specify the number of decimal places to be displayed in the spreadsheet via the Decimal places edit field. The percentage is based on what fraction of 1 the value of the variable represents. For example, the value 0.23 will be translated to 23% while 23.4 will be translated to 2340%.

Representation. Percentages are represented with a % character at the end of the number.

FractionSelect this category to display the values of the variable as fractions. When you select this format, you can choose the number of digits (one or two) to be displayed in the fraction, or the denominator to be used in the fraction (e.g., sixteenth).

Representation. In the Edit Format dialog, the Fraction representations are as follows:

Up to one digit (1/2); Up to two digits (17/29); Up to three digits (129/257); As halves (1/2);As fourths (1/4); As eighths (5/8); As sixteenths (3/16); As thirty-seconds (17/32);As tenths (7/10); As hundredths (77/100)

CustomThis category of display formats allows you to choose from predefined Custom number formats, or to create your own using standard custom number format syntax.

The sections of the custom number format are separated by colons. The section before the semicolon defines how a positive number is displayed. The section after the semicolon defines how a negative number is displayed.

See custom number format codes for more information about the syntax used to create new custom number display formats.

ANALISIS DE CORRELACION, AUTOCORRELACIN y CLUSTER. Una vez que hemos recolectado adecuadamente los datos y construido la hoja de clculo, se realiza:

A. Un anlisis de correlaciones mltiples entre las variables:

1. Entre la respuesta y, y las variables predictoras Xi. Esto para detectar la correlacin (cantidad y tipo), permitindonos detectar y estratificar las variable predictoras en orden de importancia.2. Entre las variables predictoras Xi. Esto permite detectar multicolinealidad , o sea si hay o no independencia entre vectores predictoras. Sin embargo hay que tener mucha precaucin en el anlisis visual, ya que las variables son discretas, y estas formaran grupos, alineados verticalmente.B. Un anlisis de autocorrelacin seriada.

Esto permite estudiar la variable respuesta y detectar si los valores, medidos en la secuencia realizada son

dependientes o independiente; para que los resultados sean validos y el modelo prediga adecuadamente, debe

haber independencia (no autocorrelacin). Solo para la columna (vector) respuesta.C. Anlisis Cluster.Este permite clasificar las variables en grupos, de tal manera que cada grupo explica la misma variabilidad sobre el precio, como si estuvieran solas. De esta manera podramos bajar la dimensionalidad; as que podramos tomar solo una de cada grupo (la ms importante) y utilizarla en el modelo. De esta manera simplificaramos el modelo.Anlisis de Correlaciones.

Correlacin (r) es una medida de la relacin lineal entre dos o ms variables. La escala de medida a usar debe ser por lo menos en escala de intervalo, sin embargo otros coeficientes de correlacin estn disponibles cuando se manejan otro tipo de datos. El coeficiente de correlacin va desde -1.00 hasta +1.00, o viceversa. Un valor de de -1.00 representa una perfecta correlacin negativa, mientras que un valor de +1.00 representa una perfecta correlacin positiva. Un valor de 0.00 representa una falta de correlacin (ver la siguiente figura).

El coeficiente de correlacin ms ampliamente usado es el Coeficiente de correlacin de Pearson (r), llamado correlacin producto-momento. Las graficas de correlaciones permiten detectar visualmente valores extraos o influnciales (outliers).

AUTOCORRELACIN.Cuando las observaciones (respuestas) tienen un orden secuencial en forma natural, la correlacin entre un dato anterior y otro posterior, se denomina autocorelacin. Esto generalmente ocurre en lo que se llama medidas repetidas en el tiempo. Cuando muchas medidas son tomadas de la misma unidad de muestreo (edificio, terreno, carro, etc.), las medidas tienden a estar correlacionadas una con la siguiente (s), S, a la misma unidad le medimos varias cosas como rea, condiciones, depreciacin, revalorizacin, etc.; estas estarn correlacionadas, con las medidas que se realicen la prxima vez. Tipos de autocorrelacin.Autocorrelacin pura.

1. Observaciones sucesivas en el tiempo o en el espacio tienden a tener residuales correlacionados ya que ellas estn afectadas por condiciones similares.

2. Series grandes de errores positivos o negativos son seguidos por series grandes de errores positivos y negativos ya que residuales adyacentes generalmente presentan dimensiones similares.Autocorrelacin operativa.1. Sistematizacin en la obtencin de los datos en la variable dependiente, como en las serie de tiempo.

2. Omisin de una o ms variables predictoras en el modelo. Cuando los efectos de secuencias de las variables claves perdidas estn correlacionadas, los trminos de error en el modelo de regresin tendern a estar correlacionados debido a que stos incluyen efectos de las variables perdidas.

3. Uso de un modelo de primer orden (linear) en lugar de otro ms apropiado (curvilneo, exponencial, etc.) o falta de una transformacin tal como la logartmica.

Consecuencias de la autocorrelacin.

1. Los coeficientes de regresin obtenidos por mnimos cuadrados ordinarios aunque siguen siendo insesgados pierden la propiedad de la varianza mnima y pueden ser muy ineficientes.

2. Los cuadrados medios esperados de un factor (CMfact= SCEfact/gl) y el error estndar pueden estar fuertemente subestimados, por lo que las verdaderas varianzas del error (CMe) y las desviaciones estndar de regresin.3. El coeficiente de determinacin (R2) puede resultar sobre-estimado (alto), dando la impresin de aparente exactitud y buena bondad de ajuste del modelo, sin embargo el modelo predice mal.

4. Las pruebas de t, F y los intevalos de confianza no son estrictamente aplicables.

Deteccin de la autocorrelacin.Graficar los errores en forma secuencial en el tiempo como se midi la respuesta; no debera haber correlacin, o sea que r=0,00.Prueba de rachas.

La grafica anterior aunque no presente correlacin, tampoco debe presentarse rachas de grupos negativos seguidos de grupos positivos o viceversa, en forma secuencial.

Prueba estadstica.

Prueba de d de Durbin-Watson.

Esta prueba se basa en el supuesto de que los errores constituyen una serie autorregresiva de primer orden. Se ha demostrado que el valor de d se aproxima a 2(1-).d = 2(1-)Teniendo en cuenta los lmites de variacin del coeficiente de correlacin emprico, 1r 1 ,

se puede deducir el rango de variacin del estadstico de Durbin-Watson y el signo de la

autocorrelacin,

r 1 d 4 se considera que existe autocorrelacin negativa

r 0 d 2 indica ausencia de autocorrelacin

r 1 d 0 se puede admitir que existe autocorrelacin positiva

As, se aprecia que el estadstico experimental tomar valores entre 0 y 4 de tal modo que cunto

ms prximo a cero (a cuatro) sea el valor del estadstico d mayor es la evidencia de

autocorrelacin positiva (negativa). Si el valor del estadstico experimental d es dos, entonces la

correlacin muestral ser nula y por tanto no se detectar un problema de autocorrelacin entre

las perturbaciones (errores).Mtodo para paliar la autocorrelacin.Los software estadsticos -matemticos, poseen programas que pueden paliar esta situacin; basta con indicrselos.1. Transformacin de Cochrane y Orcutt.

2. Transformacin de Contraste.

3. Transformacin polinomial.

4. Transformacin Helmert.

5. Transformacin Media.

6. Transformacin Profile

Es comn y til aplicar logaritmo a la variable respuesta para minimizar la correlacin entre la media y la varianza de la data, y as realizar el anlisis de regresin.Estudio de clasificacin de las variables predictoras (si fuera el caso).En el caso de medidas sobre bienes para avalos es tpico el caso de presentarse autocorrelacin seriada, deberamos entonces usar primero un procedimiento de discriminacin-clasificacin-agrupamiento (cluster) de variable predictoras para determinar cuales variables predictoras dicen o tienen la misma capacidad de predecir. Para esto se recomienda aplicar un Anlisis Multivariado; s, estamos interesados en explicar (discriminar) el comportamiento de cada variable sobre la respuesta precio; por ejemplo Componentes Principales o Anlisis Cluster.ESTUDIO DE LA BONDAD DE AJUSTE DEL MODELO DE REGRESIN.

Una vez construido el modelo de regresin, debemos estudiar la bondad de ajuste de este, esto es verificar si realmente predice.Lo primero que se debe revisar son los valores predichos por el modelo ( ) para cada valor medido (y), estos sern idnticos s el modelo es perfecto, sin embargo sabemos que en el proceso asumimos errores, as como sabemos que el mtodo de regresin utilizado es una aproximacin discreta; por tanto habr diferencia entre ellos, esta diferencia es lo que se llama residual o errores y debe ser lo mnimo posible para cada caso medido. Cuando un valor predicho es muy diferente al valor medido real, debe revisarse este dato para ver si es un valor extrao y, si es susceptible de sustraerlo del anlisis. Debemos tener cuidado con los valores extraos, quizs sean mas importantes que la otra gran masa de datos.Con base a lo anterior y s aceptamos que el modelo es suficiente. Realizamos un anlisis de varianza (ANAVAR).

El ANAVAR es un cuadro donde discrimina cada parte del modelo de regresin, su falta de ajuste y el error; de la siguiente manera (ver cuadro siguiente): Ejemplo para el caso de dos variables predictoras y para una respuesta.

Nota: Cada respuesta, se corresponde con un modelo, por lo que cada respuesta tendr su ANAVAR.

Nota: Este cuadro tal y como est conformado, no lo da ningn software en forma automtica, el software da alguna parte en forma fraccionada, el resto se construye manualmente; sabiendo que:Total = Tratamiento + Error + Repeticin + Bloque.

Tratamiento=Regresin +Falta de Ajuste. ( Falta de Ajuste = Tratamiento - RegresinEn datos tomados para avalos las repeticin son iguales a los tratamiento, adems no hay bloques; por tanto tendremos el ANAVAR as:Total = Regresin + Falta de Ajuste + Error.

SCtot. = SCreg. + SCfa + SCer.

Cmo conocemos el valor de tratamiento, con el fin de conocer la falta de ajuste?: Sabemos que cada caso medido es un tratamiento distinto. Se construye una columna adicional con todos los n casos medidos, as los gl de tratamiento ser n-1. Con esto al realizar el anavar con el procedimiento de modelos lineales generalizados, le pedimos que nos haga precio=tratamiento, y as obtenemos la suma de cuadrados de tratamiento (SCtrat).Cuadro xx. Anlisis de varianza para la regresin de la respuesta precio de autos marca www,

para dos variables predictoras (X1=modelo, X2=Clase).FVFuente de VariacinglGrados de LibertadSCSuma de CuadradosCMCM=SC/gl

Cuadrados MediosFPrueba de Fischer

F=CMfv/CMerProb.