Eventos, XIII Semana de Estatística: A Estatística na sociedade e na era do big data

Tamanho da fonte: 
Regressão linear com regularização: Um estudo comparativo
Silvio Cabral Patricio

Última alteração: 2016-07-29

Resumo


No intuito de obter modelos com menor erro de predição e maior interpretabilidade, métodos de seleção de variáveis como backward, forward e stepwise geralmente são utilizados. Entretanto, devido ao processo discreto na escolha das variáveis regressoras, i.e. as variáveis são retidas ou descartadas, o modelo resultante pode apresentar grande variância e portanto não reduzir o erro de predição quando comparado com o modelo completo. Outra abordagem para melhorar a interpretabilidade e erro de predição é a utilização de regularização na regressão, que buscam o encolhimento dos coeficientes em direção a zero. Dentre as regularizações mais utilizadas destacam-se o ridge, lasso e elastic net. O presente trabalho consiste em um estudo comparativo entre os modelos de regressão utilizando a regularização ridge, lasso e elastic net, além do modelo usando seleção de variáveis stepwise e o modelo completo. Dados sintéticos com diferentes tamanhos de amostras e regressores foram gerados para realizar o estudo comparativo. Além disso, uma base de dados real foi utilizada no estudo.

No intuito de obter modelos com menor erro de predição e maior interpretabilidade, métodos de seleção de variáveis como backward, forward e stepwise geralmente são utilizados. Entretanto, devido ao processo discreto na escolha das variáveis regressoras, i.e. as variáveis são retidas ou descartadas, o modelo resultante pode apresentar grande variância e portanto não reduzir o erro de predição quando comparado com o modelo completo. Outra abordagem para melhorar a interpretabilidade e erro de predição é a utilização de regularização na regressão, que buscam o encolhimento dos coeficientes em direção a zero. Dentre as regularizações mais utilizadas destacam-se o ridge, lasso e elastic net. O presente trabalho consiste em um estudo comparativo entre os modelos de regressão utilizando a regularização ridge, lasso e elastic net, além do modelo usando seleção de variáveis stepwise e o modelo completo. Dados sintéticos com diferentes tamanhos de amostras e regressores foram gerados para realizar o estudo comparativo. Além disso, uma base de dados real foi utilizada no estudo.