Modelo Logit

José Enrique González Cornejo
DocIRS

Abril 2002

Introducción

El siguiente desarrollo tiene  el objetivo de ilustrar de forma práctica cómo propone DocIRS tratar el modelo econométrico Logit para aplicarlo en la Plataforma Tecnológica MyPE  (Ver presentación "Scoring MyPe. Un modelo de calificación del riesgo de morosidad para clientes de renta variable"). Se advierte que una serie de formulaciones y estimaciones estadísticas asociadas a los cálculos del modelo,  no son mostrados (correlaciones, desviación estándar, factor de corrección, etc..).

En resumen, se muestra cómo se aplicará la estimación de la Logit, cómo se obtienen los parámetros básicos. La regresión lineal utilizada obviamente puede ser múltiple. Sin embargo, aquí se utiliza una sola variable independiente que intenta explicar la variación de la variable dicotómica (o "dummy"). También se utiliza un ejemplo que ilustra el procedimiento como se agrega la data, y se realizan los cálculos.

Finalmente se presenta un simulador que calcula el riesgo en función del ingreso, utilizando con los valores estimados del ejemplo.

El modelo Logit

El modelo Logit se inscribe dentro de llamadas regresiones sobre "dummy" variables. Una variable "dummy" o dicotómica es una variable numérica usada en el análisis de regresión líneal para representar los subgrupos de la muestra en su estudio. En el diseño de la investigación, una variable "dummy" se utiliza a menudo para distinguir a diversos grupos del tratamiento. En el caso más simple, con valores  0 y 1.  Las variables "dummy" son útiles porque nos permiten utilizar una sola ecuación de la regresión para representar a grupos múltiples1. La Logit es una de la llamada LPM (Logit and Probit Models)

Logit

El modelo Logit, se define a  partir de la siguiente función de distribución:

1

P(Y = 1 / Xi) =

-------------------------

(1)

1 + e-Zi

donde

Zi = ß0 + ß1 Xi + m

(2)

y las variables se definen de la siguiente forma:

Yi=1 Bueno
Yi=0 Malo
Xi Ingreso de Cliente
P(Yi=1/Xi) Probabilidad de ser Bueno, explicado por la variable Xi
Zi Exponente del exponencial que es una regresión líneal
ßo Intercepto de la Curva (Parámetro a estimar)
ß1 Pendiente de la Curva (Parámetro a estimar)
m Error
i=1,2,3,...N Indice de diferenciación de variables

 

La linearizando de la función de distribución (1), se realiza mediante la definición de la LOGIT que denotamos por Li, tomando el logaritmo natural de la razón de la probabilidades complementarias:

Estimación de la Logit

1. Agregando los datos en Clases

Se construye una la tabla  con  clases, niveles o intervalos con escala de ingresos. Se  asocia la frecuencia de los Buenos y los Malos según criterio pre-definido2, contenidos en cada intervalo . Por ejemplo la siguiente tabla muestra los intervalos el ingreso en miles de pesos:

Ingreso en Miles de $

Buenos Malos

Tamaño Intervalo

Xi

n1i

n2i

Ni

200

11078

1022

12100

350

7147

853

8000

500

6539

861

7400

700

15224

2376

17600

900

25521

4079

29600

1100

9342

1458

10800

1400

15564

2036

17600

1500

16164

1536

17700

1850

9819

881

10700

Total-->

106579

14221

120800

Tabla 1

Tal como lo muestra la Tabla 1 para cada nivel de ingreso Xi, existen Ni clientes. Donde n1i representa el número de créditos cancelados "Buenos"  y  n2i   los "Malos" para cada nivel de ingreso Xi,  Ni representa el tamaño del intervalo respectivo . Es decir; Ni = n1i + n2i.

Gráfico 1

logit_frec

 

Para estimar los parámetros de la Logit utilizaremos la frecuencia relativa P'i (parámetro estimado) como la probabilidad de ser Bueno para cada   nivel de ingreso  Xi:

   

n1i

Pi =

-------------------------

(4)

Ni

Utilizando la Tabla Utilizando la Tabla 1 y aplicando las expresiones (4) , (3) se obtiene la siguiente tabla

Ingresos

Buenos Malos

Tamaño Intervalo

Prob. Bueno Prob. Malo Razón

Logit Li

Xi

n1i

n2i

Ni

P'i

1-P'i

P'i/(1-P'i)

Ln{P'i/(1-P'i)}

200

11078

1022

12100

0,9155

0,0845

10,8343

2,3827

350

7147

853

8000

0,8934

0,1066

8,3809

2,1260

500

6539

861

7400

0,8837

0,1163

7,5985

2,0279

700

15224

2376

17600

0,8650

0,1350

6,4074

1,8575

900

25521

4079

29600

0,8622

0,1378

6,2569

1,8337

1100

9342

1458

10800

0,8650

0,1350

6,4074

1,8575

1400

15564

2036

17600

0,8843

0,1157

7,6430

2,0338

1500

16164

1536

17700

0,9132

0,0868

10,5207

2,3533

1850

9819

881

10700

0,9177

0,0823

11,1507

2,4115

Total

106579

14221

120800

- - - -

Tabla 2

Aplicando el Método de los Mínimos Cuadrados y regresando las cifras de acuerdo a la expresión (2) , entonces  la variable dependiente  Li    eplicada por Xi arroja los siguientes parámetros estimados3:

Parámetro Estimado

Valor

ß0

2,011432424

ß1

9,18776E-05

R2

0,048491063

Tabla 3

Cálculo del Error

Xi

Li

Li'

u

u2

200

2,38271883

2,0298

0,3529

0,1245

350

2,1259509

2,0436

0,0824

0,0068

500

2,02794458

2,0574

-0,0294

0,0009

700

1,85745473

2,0757

-0,2183

0,0477

900

1,8336839

2,0941

-0,2604

0,0678

1100

1,85745473

2,1125

-0,2550

0,0650

1400

2,03379574

2,1401

-0,1063

0,0113

1500

2,35334829

2,1492

0,2041

0,0417

1850

2,41149943

2,1814

0,2301

0,0529

Su2=

0,4186

Tabla 4

Simulación: A continuación se ilustra una rutina  de simulación, que utiliza los parámetros estimados del ejemplo presentados en la Tabla 3, para calcular la Probabilidad de Riesgo, en función de un monto ingresado entre 110 y 2000.

Simulador

Ingreso Estimado en miles de $

Resultado: Probabilidad de Riesgo en %


1Esto significa que no necesitamos poner los modelos separados de la ecuación en escrito para cada subgrupo. Las variables dicotómicas actúan como los 'switches' que transforman varios parámetros en SI/NO en una ecuación. Otra ventaja de una variable dummy es que pueden tratars en clases (niveles o intervalos)  aunque sean   variables nominales

2 Por ejemplo, un criterio de atraso costoso podría definirse como un atraso promedio de 15 días o más con respecto al día de pago programado.

3 Cálculos realizados con el paquete estadístico Statistica version 5.1, con los datos de la Tabla 3. VAR2= Logit Li y VAR1=Xi

 statistica.jpg