¿Qué es un factor de inflación de varianza (VIF)?
Un factor de inflación de varianza (VIF) es una medida de la cantidad de multicolinealidad en el análisis de regresión. La multicolinealidad existe cuando existe una correlación entre múltiples variables independientes en un modelo de regresión múltiple. Esto puede afectar negativamente a los resultados de la regresión. Por lo tanto, el factor de inflación de la varianza puede estimar cuánto se infla la varianza de un coeficiente de regresión debido a la multicolinealidad.
Puntos clave
- Un factor de inflación de varianza (VIF) proporciona una medida de multicolinealidad entre las variables independientes en un modelo de regresión múltiple.
- La detección de la multicolinealidad es importante porque, si bien la multicolinealidad no reduce el poder explicativo del modelo, sí reduce la significancia estadística de las variables independientes.
- Un VIF grande en una variable independiente indica una relación altamente colineal con otras variables que se deben considerar o corregir en el diseño del modelo y la selección de variables independientes.
Comprender un factor de inflación de varianza (VIF)
Un factor de inflación de varianza es una herramienta para ayudar a identificar el grado de multicolinealidad. La regresión múltiple se usa cuando una persona quiere probar el efecto de múltiples variables en un resultado particular. La variable dependiente es el resultado sobre el que actúan las variables independientes, las entradas en el modelo. La multicolinealidad existe cuando existe una relación lineal, o correlación, entre una o más de las variables independientes o entradas.
El problema de la multicolinealidad
La multicolinealidad crea un problema en el modelo de regresión múltiple porque las entradas se influyen entre sí. Por lo tanto, en realidad no son independientes y es difícil probar cuánto afecta la combinación de las variables independientes a la variable dependiente, o resultado, dentro del modelo de regresión.
Si bien la multicolinealidad no reduce el poder predictivo general de un modelo, puede producir estimaciones de coeficientes de regresión que no son estadísticamente significativas. En cierto sentido, se puede considerar como una especie de doble contabilidad en el modelo.
En términos estadísticos, un modelo de regresión múltiple en el que exista una alta multicolinealidad hará más difícil estimar la relación entre cada una de las variables independientes y la variable dependiente. En otras palabras, cuando dos o más variables independientes están estrechamente relacionadas o miden casi lo mismo, se considera que el efecto subyacente que miden es el doble (o más) en todas las variables. Cuando las variables independientes están estrechamente relacionadas, se vuelve difícil saber qué variable influye en las variables dependientes.
Pequeños cambios en los datos utilizados o en la estructura de la ecuación del modelo pueden producir cambios grandes y erráticos en los coeficientes estimados de las variables independientes. Esto es un problema porque el objetivo de muchos modelos econométricos es probar exactamente este tipo de relación estadística entre las variables independientes y la variable dependiente.
Test para resolver multicolinealidad
Para asegurarse de que el modelo se especifique correctamente y funcione correctamente, se pueden realizar pruebas de multicolinealidad. El factor de inflación de la varianza es una de esas métricas. El uso de factores de inflación de varianza ayuda a identificar la gravedad de cualquier problema de multicolinealidad para que el modelo pueda ajustarse. El factor de inflación de la varianza mide cuánto se ve afectado o inflado el comportamiento (varianza) de una variable independiente por su interacción/correlación con las otras variables independientes.
Los factores de inflación de varianza permiten una medición rápida de cuánto contribuye una variable al error estándar en la regresión. Cuando existen problemas significativos de multicolinealidad, el factor de inflación de la varianza será muy grande para las variables involucradas. Una vez que se han identificado estas variables, se pueden usar diferentes enfoques para eliminar o combinar variables colineales, resolviendo el problema de la multicolinealidad.
fórmula VIF y cálculo
La fórmula para VIF es:
donde ryo2 representa el coeficiente de determinación sin ajustar para la regresión de iel variable independiente sobre las restantes.
¿Qué te puede decir VIF?
cuando ryo2 es igual a 0, y por lo tanto, cuando VIF o tolerancia es igual a 1, iel variable independiente no está correlacionada con las restantes, lo que significa que no existe multicolinealidad.
En términos generales,
- VIF igual a 1 = las variables no están correlacionadas
- VIF entre 1 y 5 = las variables están moderadamente correlacionadas
- VIF mayor que 5 = las variables están altamente correlacionadas
Cuanto mayor sea el VIF, mayor será la posibilidad de que exista multicolinealidad y se necesita más investigación. Cuando VIF es mayor que 10, existe una multicolinealidad significativa que debe corregirse.
Ejemplo de uso de VIF
Por ejemplo, supongamos que un economista quiere probar si existe una relación estadísticamente significativa entre la tasa de desempleo (variable independiente) y la tasa de inflación (variable dependiente). La inclusión de variables independientes adicionales relacionadas con la tasa de desempleo, como nuevas solicitudes iniciales de desempleo, probablemente introduciría multicolinealidad en el modelo.
El modelo general puede mostrar un poder explicativo fuerte y estadísticamente suficiente, pero ser incapaz de identificar si el efecto se debe principalmente a la tasa de desempleo oa nuevas solicitudes iniciales de desempleo. Esto es lo que el VIF detectaría y sugeriría eliminar una de las variables del modelo o encontrar una forma de consolidarlas para capturar su efecto conjunto según la hipótesis específica que el investigador esté interesado en probar.
¿Qué es un buen valor VIF?
Como regla general, un VIF de tres o menos no es motivo de preocupación. A medida que aumenta el VIF, menos fiables serán los resultados de la regresión.
¿Qué significa un VIF de 1?
Un VIF de uno significa que las variables no están correlacionadas y que la multicolinealidad no existe en el modelo de regresión.
¿Para qué sirve VIF?
VIF mide la fuerza de la correlación entre las variables independientes en el análisis de regresión. Esta correlación se conoce como multicolinealidad, lo que puede causar problemas en los modelos de regresión.
La línea de fondo
Si bien una cantidad moderada de multicolinealidad es aceptable en un modelo de regresión, una mayor multicolinealidad puede ser motivo de preocupación.
Se pueden tomar dos medidas para corregir la alta multicolinealidad. Primero, se pueden eliminar una o más variables altamente correlacionadas, ya que la información proporcionada por estas variables es redundante. El segundo método consiste en utilizar el análisis de componentes principales o la regresión de mínimos cuadrados parciales en lugar de la regresión OLS, que pueden reducir respectivamente las variables a un conjunto más pequeño sin correlación o crear nuevas variables no correlacionadas. Esto mejorará la previsibilidad de un modelo.