Novel NLP-based stock market price prediction and risk analysis framework
- Autores
- Zain-ul-Abideen; Raja Hashim Ali; Ali Zeeshan Ijaz; Talha Ali Khan
- Año de publicación
- 2024
- Idioma
- inglés
- Tipo de recurso
- artículo
- Estado
- versión publicada
- Descripción
- The prediction of stock market prices represents a significant challenge due to its volatile nature, influenced by unpredictable economic factors, company performance, and market sentiment. The assurance of these forecasts or the associated risk with these price estimations plays a pivotal role in the decision-making process. Existing models have either focused on stock price prediction or risk analysis but rarely integrate both, leaving a gap in providing a comprehensive tool for investors. In the current work, we present a novel framework for investment analysis designed to create ease for investors and provide a confidence measure along with the stock price to depict the risk involved in investing in stocks of a particular company. The model uses a stock price dataset depicting the original scores as numerals and textual data extracted from Reddit news articles as input. The stock price is predicted by LSTMs on individual stock prices, while the confidence is represented by a risk value calculated using XGBoost and LSTM output. We performed sentiment analysis and subjectivity analysis to extract features for further investigation in the study. The results show that an accuracy of 94% for stock trend prediction can be achieved using PCA as the feature extractor with tuned parameters for XGBoost and around 76% accuracy for stock price prediction with a tuned LSTM. Our study demonstrates the effective integration of risk analysis with stock price forecasting, illustrating that deep learning techniques are suitable for melding risk assessment with the prediction of stock prices.
La predicción de los precios del mercado de valores representa un desafío importante debido a su naturaleza volátil, influenciada por factores económicos impredecibles, el desempeño de las empresas y el sentimiento del mercado. La seguridad de estas previsiones o el riesgo asociado a estas estimaciones de precios juega un papel fundamental en el proceso de toma de decisiones. Los modelos existentes se han centrado en la predicción del precio de las acciones o en el análisis de riesgos, pero rara vez integran ambos, lo que deja una brecha a la hora de proporcionar una herramienta integral para los inversores. En el trabajo actual, presentamos un marco novedoso para el análisis de inversiones diseñado para facilitar a los inversores y proporcionar una medida de confianza junto con el precio de las acciones para representar el riesgo que implica invertir en acciones de una empresa en particular. El modelo utiliza un conjunto de datos de precios de acciones que representa las puntuaciones originales como números y datos textuales extraídos de artículos de noticias de Reddit como entrada. Los LSTM predicen el precio de las acciones sobre los precios de las acciones individuales, mientras que la confianza está representada por un valor de riesgo calculado utilizando la salida de XGBoost y LSTM. Realizamos análisis de sentimiento y análisis de subjetividad para extraer características para una mayor investigación en el estudio. Los resultados muestran que se puede lograr una precisión del 94% para la predicción de la tendencia de las acciones utilizando PCA como extractor de características con parámetros ajustados para XGBoost y alrededor del 76% de precisión para la predicción del precio de las acciones con un LSTM ajustado. Nuestro estudio demuestra la integración efectiva del análisis de riesgos con la previsión de precios de las acciones, lo que ilustra que las técnicas de aprendizaje profundo son adecuadas para fusionar la evaluación de riesgos con la predicción de los precios de las acciones.
Facultad de Informática - Materia
-
Ciencias Informáticas
Long Short-Term Memory (LSTM) network
Reddit
natural language processing
deep learning
stock price analysis
Red de memoria larga a corto plazo (LSTM)
procesamiento del lenguaje natural
aprendizaje profundo
análisis del precio de las acciones - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/173717
Ver los metadatos del registro completo
id |
SEDICI_c1d6b3162d7d98a66ffc9f62d71bb3f4 |
---|---|
oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/173717 |
network_acronym_str |
SEDICI |
repository_id_str |
1329 |
network_name_str |
SEDICI (UNLP) |
spelling |
Novel NLP-based stock market price prediction and risk analysis frameworkUn novedoso framework basado en PLN para análisis de riesgos y predicción de precios bursátilesZain-ul-AbideenRaja Hashim AliAli Zeeshan IjazTalha Ali KhanCiencias InformáticasLong Short-Term Memory (LSTM) networkRedditnatural language processingdeep learningstock price analysisRed de memoria larga a corto plazo (LSTM)procesamiento del lenguaje naturalaprendizaje profundoanálisis del precio de las accionesThe prediction of stock market prices represents a significant challenge due to its volatile nature, influenced by unpredictable economic factors, company performance, and market sentiment. The assurance of these forecasts or the associated risk with these price estimations plays a pivotal role in the decision-making process. Existing models have either focused on stock price prediction or risk analysis but rarely integrate both, leaving a gap in providing a comprehensive tool for investors. In the current work, we present a novel framework for investment analysis designed to create ease for investors and provide a confidence measure along with the stock price to depict the risk involved in investing in stocks of a particular company. The model uses a stock price dataset depicting the original scores as numerals and textual data extracted from Reddit news articles as input. The stock price is predicted by LSTMs on individual stock prices, while the confidence is represented by a risk value calculated using XGBoost and LSTM output. We performed sentiment analysis and subjectivity analysis to extract features for further investigation in the study. The results show that an accuracy of 94% for stock trend prediction can be achieved using PCA as the feature extractor with tuned parameters for XGBoost and around 76% accuracy for stock price prediction with a tuned LSTM. Our study demonstrates the effective integration of risk analysis with stock price forecasting, illustrating that deep learning techniques are suitable for melding risk assessment with the prediction of stock prices.La predicción de los precios del mercado de valores representa un desafío importante debido a su naturaleza volátil, influenciada por factores económicos impredecibles, el desempeño de las empresas y el sentimiento del mercado. La seguridad de estas previsiones o el riesgo asociado a estas estimaciones de precios juega un papel fundamental en el proceso de toma de decisiones. Los modelos existentes se han centrado en la predicción del precio de las acciones o en el análisis de riesgos, pero rara vez integran ambos, lo que deja una brecha a la hora de proporcionar una herramienta integral para los inversores. En el trabajo actual, presentamos un marco novedoso para el análisis de inversiones diseñado para facilitar a los inversores y proporcionar una medida de confianza junto con el precio de las acciones para representar el riesgo que implica invertir en acciones de una empresa en particular. El modelo utiliza un conjunto de datos de precios de acciones que representa las puntuaciones originales como números y datos textuales extraídos de artículos de noticias de Reddit como entrada. Los LSTM predicen el precio de las acciones sobre los precios de las acciones individuales, mientras que la confianza está representada por un valor de riesgo calculado utilizando la salida de XGBoost y LSTM. Realizamos análisis de sentimiento y análisis de subjetividad para extraer características para una mayor investigación en el estudio. Los resultados muestran que se puede lograr una precisión del 94% para la predicción de la tendencia de las acciones utilizando PCA como extractor de características con parámetros ajustados para XGBoost y alrededor del 76% de precisión para la predicción del precio de las acciones con un LSTM ajustado. Nuestro estudio demuestra la integración efectiva del análisis de riesgos con la previsión de precios de las acciones, lo que ilustra que las técnicas de aprendizaje profundo son adecuadas para fusionar la evaluación de riesgos con la predicción de los precios de las acciones.Facultad de Informática2024-10info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdf74-87http://sedici.unlp.edu.ar/handle/10915/173717enginfo:eu-repo/semantics/altIdentifier/issn/1666-6038info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.24e07info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:46:39Zoai:sedici.unlp.edu.ar:10915/173717Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:46:39.335SEDICI (UNLP) - Universidad Nacional de La Platafalse |
dc.title.none.fl_str_mv |
Novel NLP-based stock market price prediction and risk analysis framework Un novedoso framework basado en PLN para análisis de riesgos y predicción de precios bursátiles |
title |
Novel NLP-based stock market price prediction and risk analysis framework |
spellingShingle |
Novel NLP-based stock market price prediction and risk analysis framework Zain-ul-Abideen Ciencias Informáticas Long Short-Term Memory (LSTM) network natural language processing deep learning stock price analysis Red de memoria larga a corto plazo (LSTM) procesamiento del lenguaje natural aprendizaje profundo análisis del precio de las acciones |
title_short |
Novel NLP-based stock market price prediction and risk analysis framework |
title_full |
Novel NLP-based stock market price prediction and risk analysis framework |
title_fullStr |
Novel NLP-based stock market price prediction and risk analysis framework |
title_full_unstemmed |
Novel NLP-based stock market price prediction and risk analysis framework |
title_sort |
Novel NLP-based stock market price prediction and risk analysis framework |
dc.creator.none.fl_str_mv |
Zain-ul-Abideen Raja Hashim Ali Ali Zeeshan Ijaz Talha Ali Khan |
author |
Zain-ul-Abideen |
author_facet |
Zain-ul-Abideen Raja Hashim Ali Ali Zeeshan Ijaz Talha Ali Khan |
author_role |
author |
author2 |
Raja Hashim Ali Ali Zeeshan Ijaz Talha Ali Khan |
author2_role |
author author author |
dc.subject.none.fl_str_mv |
Ciencias Informáticas Long Short-Term Memory (LSTM) network natural language processing deep learning stock price analysis Red de memoria larga a corto plazo (LSTM) procesamiento del lenguaje natural aprendizaje profundo análisis del precio de las acciones |
topic |
Ciencias Informáticas Long Short-Term Memory (LSTM) network natural language processing deep learning stock price analysis Red de memoria larga a corto plazo (LSTM) procesamiento del lenguaje natural aprendizaje profundo análisis del precio de las acciones |
dc.description.none.fl_txt_mv |
The prediction of stock market prices represents a significant challenge due to its volatile nature, influenced by unpredictable economic factors, company performance, and market sentiment. The assurance of these forecasts or the associated risk with these price estimations plays a pivotal role in the decision-making process. Existing models have either focused on stock price prediction or risk analysis but rarely integrate both, leaving a gap in providing a comprehensive tool for investors. In the current work, we present a novel framework for investment analysis designed to create ease for investors and provide a confidence measure along with the stock price to depict the risk involved in investing in stocks of a particular company. The model uses a stock price dataset depicting the original scores as numerals and textual data extracted from Reddit news articles as input. The stock price is predicted by LSTMs on individual stock prices, while the confidence is represented by a risk value calculated using XGBoost and LSTM output. We performed sentiment analysis and subjectivity analysis to extract features for further investigation in the study. The results show that an accuracy of 94% for stock trend prediction can be achieved using PCA as the feature extractor with tuned parameters for XGBoost and around 76% accuracy for stock price prediction with a tuned LSTM. Our study demonstrates the effective integration of risk analysis with stock price forecasting, illustrating that deep learning techniques are suitable for melding risk assessment with the prediction of stock prices. La predicción de los precios del mercado de valores representa un desafío importante debido a su naturaleza volátil, influenciada por factores económicos impredecibles, el desempeño de las empresas y el sentimiento del mercado. La seguridad de estas previsiones o el riesgo asociado a estas estimaciones de precios juega un papel fundamental en el proceso de toma de decisiones. Los modelos existentes se han centrado en la predicción del precio de las acciones o en el análisis de riesgos, pero rara vez integran ambos, lo que deja una brecha a la hora de proporcionar una herramienta integral para los inversores. En el trabajo actual, presentamos un marco novedoso para el análisis de inversiones diseñado para facilitar a los inversores y proporcionar una medida de confianza junto con el precio de las acciones para representar el riesgo que implica invertir en acciones de una empresa en particular. El modelo utiliza un conjunto de datos de precios de acciones que representa las puntuaciones originales como números y datos textuales extraídos de artículos de noticias de Reddit como entrada. Los LSTM predicen el precio de las acciones sobre los precios de las acciones individuales, mientras que la confianza está representada por un valor de riesgo calculado utilizando la salida de XGBoost y LSTM. Realizamos análisis de sentimiento y análisis de subjetividad para extraer características para una mayor investigación en el estudio. Los resultados muestran que se puede lograr una precisión del 94% para la predicción de la tendencia de las acciones utilizando PCA como extractor de características con parámetros ajustados para XGBoost y alrededor del 76% de precisión para la predicción del precio de las acciones con un LSTM ajustado. Nuestro estudio demuestra la integración efectiva del análisis de riesgos con la previsión de precios de las acciones, lo que ilustra que las técnicas de aprendizaje profundo son adecuadas para fusionar la evaluación de riesgos con la predicción de los precios de las acciones. Facultad de Informática |
description |
The prediction of stock market prices represents a significant challenge due to its volatile nature, influenced by unpredictable economic factors, company performance, and market sentiment. The assurance of these forecasts or the associated risk with these price estimations plays a pivotal role in the decision-making process. Existing models have either focused on stock price prediction or risk analysis but rarely integrate both, leaving a gap in providing a comprehensive tool for investors. In the current work, we present a novel framework for investment analysis designed to create ease for investors and provide a confidence measure along with the stock price to depict the risk involved in investing in stocks of a particular company. The model uses a stock price dataset depicting the original scores as numerals and textual data extracted from Reddit news articles as input. The stock price is predicted by LSTMs on individual stock prices, while the confidence is represented by a risk value calculated using XGBoost and LSTM output. We performed sentiment analysis and subjectivity analysis to extract features for further investigation in the study. The results show that an accuracy of 94% for stock trend prediction can be achieved using PCA as the feature extractor with tuned parameters for XGBoost and around 76% accuracy for stock price prediction with a tuned LSTM. Our study demonstrates the effective integration of risk analysis with stock price forecasting, illustrating that deep learning techniques are suitable for melding risk assessment with the prediction of stock prices. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-10 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Articulo http://purl.org/coar/resource_type/c_6501 info:ar-repo/semantics/articulo |
format |
article |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/173717 |
url |
http://sedici.unlp.edu.ar/handle/10915/173717 |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/issn/1666-6038 info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.24e07 |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
dc.format.none.fl_str_mv |
application/pdf 74-87 |
dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
reponame_str |
SEDICI (UNLP) |
collection |
SEDICI (UNLP) |
instname_str |
Universidad Nacional de La Plata |
instacron_str |
UNLP |
institution |
UNLP |
repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
_version_ |
1844616331550261248 |
score |
13.069144 |