Skip to main content

Previsione di Home Sales Prices

Page 1

Previsione di Home Sale Prices Altrocchi Stefano 826167 19 gennaio 2022 Sommario L’obiettivo dell’analisi è la previsione del prezzo di vendita (price, in scala log10) di m = 4320 abitazioni. Confrontando diversi modelli, sia parametrici sia non parametrici, emerge che la miglior performance in fase di validazione finale è ottenuta mediante l’impiego di stacking tra le previsioni fornite da modelli di regressione LASSO e XGBoost, ottenendo un M AE = 0.0514155. Considerata l’importante mole di dati di training (n = 17293 osservazioni per 19 variabili), uno dei focus dell’analisi è relativo all’impiego di strategie di tuning e/o modelli parsimoniosi finalizzati a limitare lo sforzo computazionale necessario all’ottimizzazione del risultato.

1

Analisi esplorativa dei dati

Il dataset homesales è composto da 22243 abitazioni per le quali sono riportate le osservazioni relative a 18 covariate di tipo numerico, spaziale, categoriale e temporale. Il dataset di training è composto da n=17293 abitazioni per le quali è nota la variabile dipendente price, espressa in scala log10, che indica il prezzo di vendita. Nel dataset non sono presenti valori mancanti.

47.8

47.6

Set Test

47.4

Training 47.2

Al fine di migliorare la contestualizzazione del problema di previsione, sono state utilizzate le variabili lattitude e longitude che rappresentano le coordinate geografiche di ciascuna abitazione, per individuarne la collocazione spaziale. Tutte le abitazioni osservate risultano essere collocate nella Contea di King (Washington), USA e concentrate in particolare nell’area di Seattle, città portuale e capoluogo della regione (fig.1). La distribuzione della variabile target rispetto alle coordinate geografiche suggerisce la presenza di dipendenza spaziale: i prezzi risultano più elevati nella zona nord della contea in corrispondenza dell’area urbana di Seattle mostrando in particolare i valori maggiori nei quartieri di Mercer Island, Clyde Hill, Madison Park e Sand Point (rive del lago Washington, fig.2). Si osserva inoltre un abbassamento dei prezzi nei pressi dell’aeroporto Boeing Field-King County. Tale evidenza suggerisce che le coordinate geografiche e le aree d’appartenenza, informazioni contenute nelle variabili lattitude, longitude e zip_code, sono importanti nella definizione del prezzo di un’abitazione. Le prime due essendo numeriche sono facilmente gestibili da tutti i modelli mentre la variabile zip_code, catgoriale con 70 livelli, richiede soluzioni ad hoc per poterne sfruttare il valore informativo.

−122.5

−122.0

−121.5

−121.0

Figura 1: Contea di King (Washington), USA

47.7

price 47.6 6.5 6.0

47.5

5.5 5.0

47.4

47.3 −122.5

−122.4

−122.3

−122.2

−122.1

−122.0

Figura 2: Prezzi osservati nell’area di Seattle 1


Turn static files into dynamic content formats.

Create a flipbook
Previsione di Home Sales Prices by stefanoaltrocchi - Issuu