House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data
- Autores
- Gutiérrez, Emiliano; López del Río, Lorena Caridad; Ocerín, José María Caridad
- Año de publicación
- 2026
- Idioma
- inglés
- Tipo de recurso
- artículo
- Estado
- versión publicada
- Descripción
- This study explores housing price prediction in six major cities of Andalusia using a combination of traditional and machine learning models. Online property listings were compiled to build a detailed dataset incorporating structural, socioeconomic, and locational variables. A traditional hedonic model was estimated using Ordinary Least Squares (OLS), and its performance was compared with that of Random Forest, K-Nearest Neighbours, and XGBoost. Results show that linear models tend to underperform, highlighting the relevance of non-linear approaches in capturing the complex dynamics of the housing market. To enhance interpretability, SHapley Additive exPlanations (SHAP) values were applied to the XGBoost model, enabling the identification of the most influential predictors in each city. While structural variables remained important across all models, socioeconomic and locational features exhibited varying effects depending on the city. These findings underscore the potential of combining rich data sources with interpretable machine learning techniques for urban housing market analysis.
Este estudio analiza la predicción de precios de la vivienda en seis ciudades principales de Andalucía mediante una combinación de modelos tradicionales y de aprendizaje automático. Se recopilaron anuncios inmobiliarios en línea para construir un conjunto de datos detallado que incorpora variables estructurales, socioeconómicas y de localización. Se estimó un modelo hedónico tradicional mediante Mínimos Cuadrados Ordinarios (MCO) y se comparó su rendimiento con el de Random Forest, K-Nearest Neighbours y XGBoost. Los resultados muestran que los modelos lineales tienden a tener un desempeño inferior, lo que destaca la relevancia de los enfoques no lineales para capturar la compleja dinámica del mercado inmobiliario. Para mejorar la interpretabilidad, se aplicaron valores SHapley Additive exPlanations (SHAP) al modelo XGBoost, lo que permitió identificar los predictores más influyentes en cada ciudad. Si bien las variables estructurales siguieron siendo importantes en todos los modelos, las características socioeconómicas y de localización mostraron efectos variables según la ciudad. Estos hallazgos subrayan el potencial de combinar fuentes de datos con técnicas de aprendizaje automático interpretables para el análisis del mercado de la vivienda urbana.
Facultad de Informática - Materia
-
Ciencias Informáticas
Andalusia
Machine learning
Real Estate market
Hedonic models
SHAP
Andalucía
Aprendizaje automático
Mercado inmobiliario
Modelos hedónicos - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
.jpg)
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/193819
Ver los metadatos del registro completo
| id |
SEDICI_298a9697984bbf181cd364ebe4f2e0e9 |
|---|---|
| oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/193819 |
| network_acronym_str |
SEDICI |
| repository_id_str |
1329 |
| network_name_str |
SEDICI (UNLP) |
| spelling |
House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online DataPredicción de precios de la vivienda en Andalucía: un estudio comparativo de enfoque hedónico y aprendizaje automático utilizando datos en líneaGutiérrez, EmilianoLópez del Río, Lorena CaridadOcerín, José María CaridadCiencias InformáticasAndalusiaMachine learningReal Estate marketHedonic modelsSHAPAndalucíaAprendizaje automáticoMercado inmobiliarioModelos hedónicosThis study explores housing price prediction in six major cities of Andalusia using a combination of traditional and machine learning models. Online property listings were compiled to build a detailed dataset incorporating structural, socioeconomic, and locational variables. A traditional hedonic model was estimated using Ordinary Least Squares (OLS), and its performance was compared with that of Random Forest, K-Nearest Neighbours, and XGBoost. Results show that linear models tend to underperform, highlighting the relevance of non-linear approaches in capturing the complex dynamics of the housing market. To enhance interpretability, SHapley Additive exPlanations (SHAP) values were applied to the XGBoost model, enabling the identification of the most influential predictors in each city. While structural variables remained important across all models, socioeconomic and locational features exhibited varying effects depending on the city. These findings underscore the potential of combining rich data sources with interpretable machine learning techniques for urban housing market analysis.Este estudio analiza la predicción de precios de la vivienda en seis ciudades principales de Andalucía mediante una combinación de modelos tradicionales y de aprendizaje automático. Se recopilaron anuncios inmobiliarios en línea para construir un conjunto de datos detallado que incorpora variables estructurales, socioeconómicas y de localización. Se estimó un modelo hedónico tradicional mediante Mínimos Cuadrados Ordinarios (MCO) y se comparó su rendimiento con el de Random Forest, K-Nearest Neighbours y XGBoost. Los resultados muestran que los modelos lineales tienden a tener un desempeño inferior, lo que destaca la relevancia de los enfoques no lineales para capturar la compleja dinámica del mercado inmobiliario. Para mejorar la interpretabilidad, se aplicaron valores SHapley Additive exPlanations (SHAP) al modelo XGBoost, lo que permitió identificar los predictores más influyentes en cada ciudad. Si bien las variables estructurales siguieron siendo importantes en todos los modelos, las características socioeconómicas y de localización mostraron efectos variables según la ciudad. Estos hallazgos subrayan el potencial de combinar fuentes de datos con técnicas de aprendizaje automático interpretables para el análisis del mercado de la vivienda urbana.Facultad de Informática2026-04info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/193819enginfo:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/4338info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-06T13:00:55Zoai:sedici.unlp.edu.ar:10915/193819Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-06 13:00:55.653SEDICI (UNLP) - Universidad Nacional de La Platafalse |
| dc.title.none.fl_str_mv |
House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data Predicción de precios de la vivienda en Andalucía: un estudio comparativo de enfoque hedónico y aprendizaje automático utilizando datos en línea |
| title |
House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data |
| spellingShingle |
House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data Gutiérrez, Emiliano Ciencias Informáticas Andalusia Machine learning Real Estate market Hedonic models SHAP Andalucía Aprendizaje automático Mercado inmobiliario Modelos hedónicos |
| title_short |
House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data |
| title_full |
House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data |
| title_fullStr |
House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data |
| title_full_unstemmed |
House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data |
| title_sort |
House Price Prediction in Andalusia: A Comparative Study of Hedonic and Machine Learning Approaches Using Online Data |
| dc.creator.none.fl_str_mv |
Gutiérrez, Emiliano López del Río, Lorena Caridad Ocerín, José María Caridad |
| author |
Gutiérrez, Emiliano |
| author_facet |
Gutiérrez, Emiliano López del Río, Lorena Caridad Ocerín, José María Caridad |
| author_role |
author |
| author2 |
López del Río, Lorena Caridad Ocerín, José María Caridad |
| author2_role |
author author |
| dc.subject.none.fl_str_mv |
Ciencias Informáticas Andalusia Machine learning Real Estate market Hedonic models SHAP Andalucía Aprendizaje automático Mercado inmobiliario Modelos hedónicos |
| topic |
Ciencias Informáticas Andalusia Machine learning Real Estate market Hedonic models SHAP Andalucía Aprendizaje automático Mercado inmobiliario Modelos hedónicos |
| dc.description.none.fl_txt_mv |
This study explores housing price prediction in six major cities of Andalusia using a combination of traditional and machine learning models. Online property listings were compiled to build a detailed dataset incorporating structural, socioeconomic, and locational variables. A traditional hedonic model was estimated using Ordinary Least Squares (OLS), and its performance was compared with that of Random Forest, K-Nearest Neighbours, and XGBoost. Results show that linear models tend to underperform, highlighting the relevance of non-linear approaches in capturing the complex dynamics of the housing market. To enhance interpretability, SHapley Additive exPlanations (SHAP) values were applied to the XGBoost model, enabling the identification of the most influential predictors in each city. While structural variables remained important across all models, socioeconomic and locational features exhibited varying effects depending on the city. These findings underscore the potential of combining rich data sources with interpretable machine learning techniques for urban housing market analysis. Este estudio analiza la predicción de precios de la vivienda en seis ciudades principales de Andalucía mediante una combinación de modelos tradicionales y de aprendizaje automático. Se recopilaron anuncios inmobiliarios en línea para construir un conjunto de datos detallado que incorpora variables estructurales, socioeconómicas y de localización. Se estimó un modelo hedónico tradicional mediante Mínimos Cuadrados Ordinarios (MCO) y se comparó su rendimiento con el de Random Forest, K-Nearest Neighbours y XGBoost. Los resultados muestran que los modelos lineales tienden a tener un desempeño inferior, lo que destaca la relevancia de los enfoques no lineales para capturar la compleja dinámica del mercado inmobiliario. Para mejorar la interpretabilidad, se aplicaron valores SHapley Additive exPlanations (SHAP) al modelo XGBoost, lo que permitió identificar los predictores más influyentes en cada ciudad. Si bien las variables estructurales siguieron siendo importantes en todos los modelos, las características socioeconómicas y de localización mostraron efectos variables según la ciudad. Estos hallazgos subrayan el potencial de combinar fuentes de datos con técnicas de aprendizaje automático interpretables para el análisis del mercado de la vivienda urbana. Facultad de Informática |
| description |
This study explores housing price prediction in six major cities of Andalusia using a combination of traditional and machine learning models. Online property listings were compiled to build a detailed dataset incorporating structural, socioeconomic, and locational variables. A traditional hedonic model was estimated using Ordinary Least Squares (OLS), and its performance was compared with that of Random Forest, K-Nearest Neighbours, and XGBoost. Results show that linear models tend to underperform, highlighting the relevance of non-linear approaches in capturing the complex dynamics of the housing market. To enhance interpretability, SHapley Additive exPlanations (SHAP) values were applied to the XGBoost model, enabling the identification of the most influential predictors in each city. While structural variables remained important across all models, socioeconomic and locational features exhibited varying effects depending on the city. These findings underscore the potential of combining rich data sources with interpretable machine learning techniques for urban housing market analysis. |
| publishDate |
2026 |
| dc.date.none.fl_str_mv |
2026-04 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Articulo http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
| format |
article |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/193819 |
| url |
http://sedici.unlp.edu.ar/handle/10915/193819 |
| dc.language.none.fl_str_mv |
eng |
| language |
eng |
| dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://journal.info.unlp.edu.ar/JCST/article/view/4338 |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
| reponame_str |
SEDICI (UNLP) |
| collection |
SEDICI (UNLP) |
| instname_str |
Universidad Nacional de La Plata |
| instacron_str |
UNLP |
| institution |
UNLP |
| repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
| repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
| _version_ |
1864469148759752704 |
| score |
13.1485815 |