House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data

Autores
Gutiérrez, Emiliano; López del Río, Lorena Caridad; Ocerín, José María Caridad
Año de publicación
2026
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
This study explores housing price prediction in six major cities of Andalusia using a combination of traditional and machine learning models. Online property listings were compiled to build a detailed dataset incorporating structural, socioeconomic, and locational variables. A traditional hedonic model was estimated using Ordinary Least Squares (OLS), and its performance was compared with that of Random Forest, K-Nearest Neighbours, and XGBoost. Results show that linear models tend to underperform, highlighting the relevance of non-linear approaches in capturing the complex dynamics of the housing market. To enhance interpretability, SHapley Additive exPlanations (SHAP) values were applied to the XGBoost model, enabling the identification of the most influential predictors in each city. While structural variables remained important across all models, socioeconomic and locational features exhibited varying effects depending on the city. These findings underscore the potential of combining rich data sources with interpretable machine learning techniques for urban housing market analysis.
Este estudio analiza la predicción de precios de la vivienda en seis ciudades principales de Andalucía mediante una combinación de modelos tradicionales y de aprendizaje automático. Se recopilaron anuncios inmobiliarios en línea para construir un conjunto de datos detallado que incorpora variables estructurales, socioeconómicas y de localización. Se estimó un modelo hedónico tradicional mediante Mínimos Cuadrados Ordinarios (MCO) y se comparó su rendimiento con el de Random Forest, K-Nearest Neighbours y XGBoost. Los resultados muestran que los modelos lineales tienden a tener un desempeño inferior, lo que destaca la relevancia de los enfoques no lineales para capturar la compleja dinámica del mercado inmobiliario. Para mejorar la interpretabilidad, se aplicaron valores SHapley Additive exPlanations (SHAP) al modelo XGBoost, lo que permitió identificar los predictores más influyentes en cada ciudad. Si bien las variables estructurales siguieron siendo importantes en todos los modelos, las características socioeconómicas y de localización mostraron efectos variables según la ciudad. Estos hallazgos subrayan el potencial de combinar fuentes de datos con técnicas de aprendizaje automático interpretables para el análisis del mercado de la vivienda urbana.
Facultad de Informática
Materia
Ciencias Informáticas
Andalusia
Machine learning
Real Estate market
Hedonic models
SHAP
Andalucía
Aprendizaje automático
Mercado inmobiliario
Modelos hedónicos
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/193819

id SEDICI_298a9697984bbf181cd364ebe4f2e0e9
oai_identifier_str oai:sedici.unlp.edu.ar:10915/193819
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online DataPredicción de precios de la vivienda en Andalucía: un estudio comparativo de enfoque hedónico y aprendizaje automático utilizando datos en líneaGutiérrez, EmilianoLópez del Río, Lorena CaridadOcerín, José María CaridadCiencias InformáticasAndalusiaMachine learningReal Estate marketHedonic modelsSHAPAndalucíaAprendizaje automáticoMercado inmobiliarioModelos hedónicosThis study explores housing price prediction in six major cities of Andalusia using a combination of traditional and machine learning models. Online property listings were compiled to build a detailed dataset incorporating structural, socioeconomic, and locational variables. A traditional hedonic model was estimated using Ordinary Least Squares (OLS), and its performance was compared with that of Random Forest, K-Nearest Neighbours, and XGBoost. Results show that linear models tend to underperform, highlighting the relevance of non-linear approaches in capturing the complex dynamics of the housing market. To enhance interpretability, SHapley Additive exPlanations (SHAP) values were applied to the XGBoost model, enabling the identification of the most influential predictors in each city. While structural variables remained important across all models, socioeconomic and locational features exhibited varying effects depending on the city. These findings underscore the potential of combining rich data sources with interpretable machine learning techniques for urban housing market analysis.Este estudio analiza la predicción de precios de la vivienda en seis ciudades principales de Andalucía mediante una combinación de modelos tradicionales y de aprendizaje automático. Se recopilaron anuncios inmobiliarios en línea para construir un conjunto de datos detallado que incorpora variables estructurales, socioeconómicas y de localización. Se estimó un modelo hedónico tradicional mediante Mínimos Cuadrados Ordinarios (MCO) y se comparó su rendimiento con el de Random Forest, K-Nearest Neighbours y XGBoost. Los resultados muestran que los modelos lineales tienden a tener un desempeño inferior, lo que destaca la relevancia de los enfoques no lineales para capturar la compleja dinámica del mercado inmobiliario. Para mejorar la interpretabilidad, se aplicaron valores SHapley Additive exPlanations (SHAP) al modelo XGBoost, lo que permitió identificar los predictores más influyentes en cada ciudad. Si bien las variables estructurales siguieron siendo importantes en todos los modelos, las características socioeconómicas y de localización mostraron efectos variables según la ciudad. Estos hallazgos subrayan el potencial de combinar fuentes de datos con técnicas de aprendizaje automático interpretables para el análisis del mercado de la vivienda urbana.Facultad de Informática2026-04info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/193819enginfo:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/4338info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-06T13:00:55Zoai:sedici.unlp.edu.ar:10915/193819Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-06 13:00:55.653SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data
Predicción de precios de la vivienda en Andalucía: un estudio comparativo de enfoque hedónico y aprendizaje automático utilizando datos en línea
title House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data
spellingShingle House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data
Gutiérrez, Emiliano
Ciencias Informáticas
Andalusia
Machine learning
Real Estate market
Hedonic models
SHAP
Andalucía
Aprendizaje automático
Mercado inmobiliario
Modelos hedónicos
title_short House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data
title_full House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data
title_fullStr House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data
title_full_unstemmed House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data
title_sort House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data
dc.creator.none.fl_str_mv Gutiérrez, Emiliano
López del Río, Lorena Caridad
Ocerín, José María Caridad
author Gutiérrez, Emiliano
author_facet Gutiérrez, Emiliano
López del Río, Lorena Caridad
Ocerín, José María Caridad
author_role author
author2 López del Río, Lorena Caridad
Ocerín, José María Caridad
author2_role author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Andalusia
Machine learning
Real Estate market
Hedonic models
SHAP
Andalucía
Aprendizaje automático
Mercado inmobiliario
Modelos hedónicos
topic Ciencias Informáticas
Andalusia
Machine learning
Real Estate market
Hedonic models
SHAP
Andalucía
Aprendizaje automático
Mercado inmobiliario
Modelos hedónicos
dc.description.none.fl_txt_mv This study explores housing price prediction in six major cities of Andalusia using a combination of traditional and machine learning models. Online property listings were compiled to build a detailed dataset incorporating structural, socioeconomic, and locational variables. A traditional hedonic model was estimated using Ordinary Least Squares (OLS), and its performance was compared with that of Random Forest, K-Nearest Neighbours, and XGBoost. Results show that linear models tend to underperform, highlighting the relevance of non-linear approaches in capturing the complex dynamics of the housing market. To enhance interpretability, SHapley Additive exPlanations (SHAP) values were applied to the XGBoost model, enabling the identification of the most influential predictors in each city. While structural variables remained important across all models, socioeconomic and locational features exhibited varying effects depending on the city. These findings underscore the potential of combining rich data sources with interpretable machine learning techniques for urban housing market analysis.
Este estudio analiza la predicción de precios de la vivienda en seis ciudades principales de Andalucía mediante una combinación de modelos tradicionales y de aprendizaje automático. Se recopilaron anuncios inmobiliarios en línea para construir un conjunto de datos detallado que incorpora variables estructurales, socioeconómicas y de localización. Se estimó un modelo hedónico tradicional mediante Mínimos Cuadrados Ordinarios (MCO) y se comparó su rendimiento con el de Random Forest, K-Nearest Neighbours y XGBoost. Los resultados muestran que los modelos lineales tienden a tener un desempeño inferior, lo que destaca la relevancia de los enfoques no lineales para capturar la compleja dinámica del mercado inmobiliario. Para mejorar la interpretabilidad, se aplicaron valores SHapley Additive exPlanations (SHAP) al modelo XGBoost, lo que permitió identificar los predictores más influyentes en cada ciudad. Si bien las variables estructurales siguieron siendo importantes en todos los modelos, las características socioeconómicas y de localización mostraron efectos variables según la ciudad. Estos hallazgos subrayan el potencial de combinar fuentes de datos con técnicas de aprendizaje automático interpretables para el análisis del mercado de la vivienda urbana.
Facultad de Informática
description This study explores housing price prediction in six major cities of Andalusia using a combination of traditional and machine learning models. Online property listings were compiled to build a detailed dataset incorporating structural, socioeconomic, and locational variables. A traditional hedonic model was estimated using Ordinary Least Squares (OLS), and its performance was compared with that of Random Forest, K-Nearest Neighbours, and XGBoost. Results show that linear models tend to underperform, highlighting the relevance of non-linear approaches in capturing the complex dynamics of the housing market. To enhance interpretability, SHapley Additive exPlanations (SHAP) values were applied to the XGBoost model, enabling the identification of the most influential predictors in each city. While structural variables remained important across all models, socioeconomic and locational features exhibited varying effects depending on the city. These findings underscore the potential of combining rich data sources with interpretable machine learning techniques for urban housing market analysis.
publishDate 2026
dc.date.none.fl_str_mv 2026-04
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Articulo
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/193819
url http://sedici.unlp.edu.ar/handle/10915/193819
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/4338
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1864469148759752704
score 13.1485815