Última alteração: 2016-07-29
Resumo
No intuito de obter modelos com menor erro de predição e maior interpretabilidade, métodos de seleção de variáveis como backward, forward e stepwise geralmente são utilizados. Entretanto, devido ao processo discreto na escolha das variáveis regressoras, i.e. as variáveis são retidas ou descartadas, o modelo resultante pode apresentar grande variância e portanto não reduzir o erro de predição quando comparado com o modelo completo. Outra abordagem para melhorar a interpretabilidade e erro de predição é a utilização de regularização na regressão, que buscam o encolhimento dos coeficientes em direção a zero. Dentre as regularizações mais utilizadas destacam-se o ridge, lasso e elastic net. O presente trabalho consiste em um estudo comparativo entre os modelos de regressão utilizando a regularização ridge, lasso e elastic net, além do modelo usando seleção de variáveis stepwise e o modelo completo. Dados sintéticos com diferentes tamanhos de amostras e regressores foram gerados para realizar o estudo comparativo. Além disso, uma base de dados real foi utilizada no estudo.
No intuito de obter modelos com menor erro de predição e maior interpretabilidade, métodos de seleção de variáveis como backward, forward e stepwise geralmente são utilizados. Entretanto, devido ao processo discreto na escolha das variáveis regressoras, i.e. as variáveis são retidas ou descartadas, o modelo resultante pode apresentar grande variância e portanto não reduzir o erro de predição quando comparado com o modelo completo. Outra abordagem para melhorar a interpretabilidade e erro de predição é a utilização de regularização na regressão, que buscam o encolhimento dos coeficientes em direção a zero. Dentre as regularizações mais utilizadas destacam-se o ridge, lasso e elastic net. O presente trabalho consiste em um estudo comparativo entre os modelos de regressão utilizando a regularização ridge, lasso e elastic net, além do modelo usando seleção de variáveis stepwise e o modelo completo. Dados sintéticos com diferentes tamanhos de amostras e regressores foram gerados para realizar o estudo comparativo. Além disso, uma base de dados real foi utilizada no estudo.