Modelo Logit |
||
| José Enrique González Cornejo | ||
| DocIRS | Abril 2002 |
Introducción
El siguiente desarrollo tiene el objetivo de ilustrar de forma práctica cómo propone DocIRS tratar el modelo econométrico Logit para aplicarlo en la Plataforma Tecnológica MyPE (Ver presentación "Scoring MyPe. Un modelo de calificación del riesgo de morosidad para clientes de renta variable"). Se advierte que una serie de formulaciones y estimaciones estadísticas asociadas a los cálculos del modelo, no son mostrados (correlaciones, desviación estándar, factor de corrección, etc..). En resumen, se muestra cómo se aplicará la estimación de la Logit, cómo se obtienen los parámetros básicos. La regresión lineal utilizada obviamente puede ser múltiple. Sin embargo, aquí se utiliza una sola variable independiente que intenta explicar la variación de la variable dicotómica (o "dummy"). También se utiliza un ejemplo que ilustra el procedimiento como se agrega la data, y se realizan los cálculos. Finalmente se presenta un simulador que calcula el riesgo en función del ingreso, utilizando con los valores estimados del ejemplo. |
El modelo Logit
El modelo Logit se inscribe dentro de llamadas regresiones sobre "dummy" variables. Una variable "dummy" o dicotómica es una variable numérica usada en el análisis de regresión líneal para representar los subgrupos de la muestra en su estudio. En el diseño de la investigación, una variable "dummy" se utiliza a menudo para distinguir a diversos grupos del tratamiento. En el caso más simple, con valores 0 y 1. Las variables "dummy" son útiles porque nos permiten utilizar una sola ecuación de la regresión para representar a grupos múltiples1. La Logit es una de la llamada LPM (Logit and Probit Models) |
![]() |
El modelo Logit, se define a partir de la siguiente función de distribución:
|
donde
|
y las variables se definen de la siguiente forma:
|
La linearizando de la función de distribución (1), se realiza mediante la definición de la LOGIT que denotamos por Li, tomando el logaritmo natural de la razón de la probabilidades complementarias: |
|
|
Estimación de la Logit
1. Agregando los datos en Clases
Se construye una la tabla con clases, niveles o intervalos con escala de ingresos. Se asocia la frecuencia de los Buenos y los Malos según criterio pre-definido2, contenidos en cada intervalo . Por ejemplo la siguiente tabla muestra los intervalos el ingreso en miles de pesos: |
| Ingreso en Miles de $ | Buenos | Malos | Tamaño Intervalo |
| Xi | n1i |
n2i |
Ni |
200 |
11078 |
1022 |
12100 |
350 |
7147 |
853 |
8000 |
500 |
6539 |
861 |
7400 |
700 |
15224 |
2376 |
17600 |
900 |
25521 |
4079 |
29600 |
1100 |
9342 |
1458 |
10800 |
1400 |
15564 |
2036 |
17600 |
1500 |
16164 |
1536 |
17700 |
1850 |
9819 |
881 |
10700 |
| Total--> | 106579 | 14221 |
120800 |
Tabla 1
Tal como lo muestra la Tabla 1 para cada nivel de ingreso Xi, existen Ni clientes. Donde n1i representa el número de créditos cancelados "Buenos" y n2i los "Malos" para cada nivel de ingreso Xi, Ni representa el tamaño del intervalo respectivo . Es decir; Ni = n1i + n2i. |
Gráfico 1 |
|
|
Para estimar los parámetros de la Logit utilizaremos la frecuencia relativa P'i (parámetro estimado) como la probabilidad de ser Bueno para cada nivel de ingreso Xi: |
|
Utilizando la Tabla Utilizando la Tabla 1 y aplicando las expresiones (4) , (3) se obtiene la siguiente tabla |
Ingresos |
Buenos | Malos | Tamaño Intervalo |
Prob. Bueno | Prob. Malo | Razón | Logit Li |
| Xi | n1i |
n2i |
Ni |
P'i | 1-P'i | P'i/(1-P'i) | Ln{P'i/(1-P'i)} |
200 |
11078 |
1022 |
12100 |
0,9155 |
0,0845 |
10,8343 |
2,3827 |
350 |
7147 |
853 |
8000 |
0,8934 |
0,1066 |
8,3809 |
2,1260 |
500 |
6539 |
861 |
7400 |
0,8837 |
0,1163 |
7,5985 |
2,0279 |
700 |
15224 |
2376 |
17600 |
0,8650 |
0,1350 |
6,4074 |
1,8575 |
900 |
25521 |
4079 |
29600 |
0,8622 |
0,1378 |
6,2569 |
1,8337 |
1100 |
9342 |
1458 |
10800 |
0,8650 |
0,1350 |
6,4074 |
1,8575 |
1400 |
15564 |
2036 |
17600 |
0,8843 |
0,1157 |
7,6430 |
2,0338 |
1500 |
16164 |
1536 |
17700 |
0,9132 |
0,0868 |
10,5207 |
2,3533 |
1850 |
9819 |
881 |
10700 |
0,9177 |
0,0823 |
11,1507 |
2,4115 |
Total |
106579 | 14221 |
120800 |
- | - | - | - |
Tabla 2
Aplicando el Método de los Mínimos Cuadrados y regresando las cifras de acuerdo a la expresión (2) , entonces la variable dependiente Li eplicada por Xi arroja los siguientes parámetros estimados3: |
Parámetro Estimado |
Valor |
| ß0 | 2,011432424 |
| ß1 | 9,18776E-05 |
R2 |
0,048491063 |
Tabla 3
Cálculo del Error
Xi |
Li |
Li' |
u |
u2 |
200 |
2,38271883 |
2,0298 |
0,3529 |
0,1245 |
350 |
2,1259509 |
2,0436 |
0,0824 |
0,0068 |
500 |
2,02794458 |
2,0574 |
-0,0294 |
0,0009 |
700 |
1,85745473 |
2,0757 |
-0,2183 |
0,0477 |
900 |
1,8336839 |
2,0941 |
-0,2604 |
0,0678 |
1100 |
1,85745473 |
2,1125 |
-0,2550 |
0,0650 |
1400 |
2,03379574 |
2,1401 |
-0,1063 |
0,0113 |
1500 |
2,35334829 |
2,1492 |
0,2041 |
0,0417 |
1850 |
2,41149943 |
2,1814 |
0,2301 |
0,0529 |
Su2= |
0,4186 |
Tabla 4
Simulación: A continuación se ilustra una rutina de simulación, que utiliza los parámetros estimados del ejemplo presentados en la Tabla 3, para calcular la Probabilidad de Riesgo, en función de un monto ingresado entre 110 y 2000. |
1Esto significa que no necesitamos poner los modelos separados de la ecuación en escrito para cada subgrupo. Las variables dicotómicas actúan como los 'switches' que transforman varios parámetros en SI/NO en una ecuación. Otra ventaja de una variable dummy es que pueden tratars en clases (niveles o intervalos) aunque sean variables nominales
2 Por ejemplo, un criterio de atraso costoso podría definirse como un atraso promedio de 15 días o más con respecto al día de pago programado.
3 Cálculos realizados con el paquete estadístico Statistica version 5.1, con los datos de la Tabla 3. VAR2= Logit Li y VAR1=Xi
