Automatic Text Summarization: A Review of Approaches, Challenges, and Future Directions

Autores
Zayed, Sara; Ezzat, Mostafa; Hefny, Hesham A.
Año de publicación
2025
Idioma
inglés
Tipo de recurso
artículo
Estado
versión publicada
Descripción
Automatic text summarization (ATS) is a vital area in natural language processing focused on condensing lengthy documents into concise, meaningful summaries. Manual summarization remains time-consuming and costly, motivating extensive research into extractive, abstractive, and hybrid methods. This review provides a comprehensive survey of ATS, covering traditional techniques alongside recent breakthroughs fueled by machine learning, deep learning, and transformerbased architectures, including large language models (LLMs) such as GPT-4, Claude, Falcon, and MPT. We introduce a novel multi-dimensional taxonomy that integrates classical methods, emerging paradigms, domain-specific and multimodal approaches, and instruction-tuned LLMs. Our survey analyzes the strengths and limitations of each approach and discusses evaluation methodologies, incorporating both established metrics like ROUGE and BLEU and newer ones. We further address key challenges including factual consistency, prompt sensitivity, explainability, ethical considerations, and computational efficiency. By bridging traditional summarization techniques with cutting-edge LLMbased models, this paper highlights current limitations, emerging opportunities, and future directions aimed at developing robust, reliable, and scalable summarization systems for diverse realworld applications.
El resumen automático de texto (ATS) es un área vital del procesamiento del lenguaje natural, centrada en condensar documentos extensos en resúmenes concisos y significativos. El resumen manual sigue siendo lento y costoso, lo que motiva una amplia investigación sobre métodos extractivos, abstractos e híbridos. Esta revisión ofrece un estudio exhaustivo de los ATS, que abarca las técnicas tradicionales junto con los avances recientes impulsados por el aprendizaje automático, el aprendizaje profundo y las arquitecturas basadas en transformadores, incluyendo grandes modelos de lenguaje (LLM) como GPT-4, Claude, Falcon y MPT. Presentamos una novedosa taxonomía multidimensional que integra métodos clásicos, paradigmas emergentes, enfoques multimodales y específicos de cada dominio, y LLM optimizados para instrucciones. Nuestro estudio analiza las fortalezas y limitaciones de cada enfoque y analiza las metodologías de evaluación, incorporando tanto métricas consolidadas como ROUGE y BLEU como otras más recientes. Además, abordamos desafíos clave como la coherencia fáctica, la sensibilidad inmediata, la explicabilidad, las consideraciones éticas y la eficiencia computacional. Al combinar las técnicas de resumen tradicionales con modelos de vanguardia basados en LLM, este documento destaca las limitaciones actuales, las oportunidades emergentes y las direcciones futuras destinadas a desarrollar sistemas de resumen sólidos, confiables y escalables para diversas aplicaciones del mundo real.
Facultad de Informática
Materia
Ciencias Informáticas
Automatic Text Summarization
Text Summarization
Taxonomy
Transformers
LLMs
resumen automático de texto
resumen de texto
taxonomía
transformadores
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/186932

id SEDICI_5033ad60ab40603dd97f586a548e5874
oai_identifier_str oai:sedici.unlp.edu.ar:10915/186932
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Automatic Text Summarization: A Review of Approaches, Challenges, and Future DirectionsResumen automático de textos: una revisión de enfoques, desafíos y direcciones futurasZayed, SaraEzzat, MostafaHefny, Hesham A.Ciencias InformáticasAutomatic Text SummarizationText SummarizationTaxonomyTransformersLLMsresumen automático de textoresumen de textotaxonomíatransformadoresAutomatic text summarization (ATS) is a vital area in natural language processing focused on condensing lengthy documents into concise, meaningful summaries. Manual summarization remains time-consuming and costly, motivating extensive research into extractive, abstractive, and hybrid methods. This review provides a comprehensive survey of ATS, covering traditional techniques alongside recent breakthroughs fueled by machine learning, deep learning, and transformerbased architectures, including large language models (LLMs) such as GPT-4, Claude, Falcon, and MPT. We introduce a novel multi-dimensional taxonomy that integrates classical methods, emerging paradigms, domain-specific and multimodal approaches, and instruction-tuned LLMs. Our survey analyzes the strengths and limitations of each approach and discusses evaluation methodologies, incorporating both established metrics like ROUGE and BLEU and newer ones. We further address key challenges including factual consistency, prompt sensitivity, explainability, ethical considerations, and computational efficiency. By bridging traditional summarization techniques with cutting-edge LLMbased models, this paper highlights current limitations, emerging opportunities, and future directions aimed at developing robust, reliable, and scalable summarization systems for diverse realworld applications.El resumen automático de texto (ATS) es un área vital del procesamiento del lenguaje natural, centrada en condensar documentos extensos en resúmenes concisos y significativos. El resumen manual sigue siendo lento y costoso, lo que motiva una amplia investigación sobre métodos extractivos, abstractos e híbridos. Esta revisión ofrece un estudio exhaustivo de los ATS, que abarca las técnicas tradicionales junto con los avances recientes impulsados por el aprendizaje automático, el aprendizaje profundo y las arquitecturas basadas en transformadores, incluyendo grandes modelos de lenguaje (LLM) como GPT-4, Claude, Falcon y MPT. Presentamos una novedosa taxonomía multidimensional que integra métodos clásicos, paradigmas emergentes, enfoques multimodales y específicos de cada dominio, y LLM optimizados para instrucciones. Nuestro estudio analiza las fortalezas y limitaciones de cada enfoque y analiza las metodologías de evaluación, incorporando tanto métricas consolidadas como ROUGE y BLEU como otras más recientes. Además, abordamos desafíos clave como la coherencia fáctica, la sensibilidad inmediata, la explicabilidad, las consideraciones éticas y la eficiencia computacional. Al combinar las técnicas de resumen tradicionales con modelos de vanguardia basados en LLM, este documento destaca las limitaciones actuales, las oportunidades emergentes y las direcciones futuras destinadas a desarrollar sistemas de resumen sólidos, confiables y escalables para diversas aplicaciones del mundo real.Facultad de Informática2025-10info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionArticulohttp://purl.org/coar/resource_type/c_6501info:ar-repo/semantics/articuloapplication/pdf87-106http://sedici.unlp.edu.ar/handle/10915/186932enginfo:eu-repo/semantics/altIdentifier/issn/1666-6038info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.25.e08info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-11-12T11:15:39Zoai:sedici.unlp.edu.ar:10915/186932Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-11-12 11:15:39.281SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Automatic Text Summarization: A Review of Approaches, Challenges, and Future Directions
Resumen automático de textos: una revisión de enfoques, desafíos y direcciones futuras
title Automatic Text Summarization: A Review of Approaches, Challenges, and Future Directions
spellingShingle Automatic Text Summarization: A Review of Approaches, Challenges, and Future Directions
Zayed, Sara
Ciencias Informáticas
Automatic Text Summarization
Text Summarization
Taxonomy
Transformers
LLMs
resumen automático de texto
resumen de texto
taxonomía
transformadores
title_short Automatic Text Summarization: A Review of Approaches, Challenges, and Future Directions
title_full Automatic Text Summarization: A Review of Approaches, Challenges, and Future Directions
title_fullStr Automatic Text Summarization: A Review of Approaches, Challenges, and Future Directions
title_full_unstemmed Automatic Text Summarization: A Review of Approaches, Challenges, and Future Directions
title_sort Automatic Text Summarization: A Review of Approaches, Challenges, and Future Directions
dc.creator.none.fl_str_mv Zayed, Sara
Ezzat, Mostafa
Hefny, Hesham A.
author Zayed, Sara
author_facet Zayed, Sara
Ezzat, Mostafa
Hefny, Hesham A.
author_role author
author2 Ezzat, Mostafa
Hefny, Hesham A.
author2_role author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Automatic Text Summarization
Text Summarization
Taxonomy
Transformers
LLMs
resumen automático de texto
resumen de texto
taxonomía
transformadores
topic Ciencias Informáticas
Automatic Text Summarization
Text Summarization
Taxonomy
Transformers
LLMs
resumen automático de texto
resumen de texto
taxonomía
transformadores
dc.description.none.fl_txt_mv Automatic text summarization (ATS) is a vital area in natural language processing focused on condensing lengthy documents into concise, meaningful summaries. Manual summarization remains time-consuming and costly, motivating extensive research into extractive, abstractive, and hybrid methods. This review provides a comprehensive survey of ATS, covering traditional techniques alongside recent breakthroughs fueled by machine learning, deep learning, and transformerbased architectures, including large language models (LLMs) such as GPT-4, Claude, Falcon, and MPT. We introduce a novel multi-dimensional taxonomy that integrates classical methods, emerging paradigms, domain-specific and multimodal approaches, and instruction-tuned LLMs. Our survey analyzes the strengths and limitations of each approach and discusses evaluation methodologies, incorporating both established metrics like ROUGE and BLEU and newer ones. We further address key challenges including factual consistency, prompt sensitivity, explainability, ethical considerations, and computational efficiency. By bridging traditional summarization techniques with cutting-edge LLMbased models, this paper highlights current limitations, emerging opportunities, and future directions aimed at developing robust, reliable, and scalable summarization systems for diverse realworld applications.
El resumen automático de texto (ATS) es un área vital del procesamiento del lenguaje natural, centrada en condensar documentos extensos en resúmenes concisos y significativos. El resumen manual sigue siendo lento y costoso, lo que motiva una amplia investigación sobre métodos extractivos, abstractos e híbridos. Esta revisión ofrece un estudio exhaustivo de los ATS, que abarca las técnicas tradicionales junto con los avances recientes impulsados por el aprendizaje automático, el aprendizaje profundo y las arquitecturas basadas en transformadores, incluyendo grandes modelos de lenguaje (LLM) como GPT-4, Claude, Falcon y MPT. Presentamos una novedosa taxonomía multidimensional que integra métodos clásicos, paradigmas emergentes, enfoques multimodales y específicos de cada dominio, y LLM optimizados para instrucciones. Nuestro estudio analiza las fortalezas y limitaciones de cada enfoque y analiza las metodologías de evaluación, incorporando tanto métricas consolidadas como ROUGE y BLEU como otras más recientes. Además, abordamos desafíos clave como la coherencia fáctica, la sensibilidad inmediata, la explicabilidad, las consideraciones éticas y la eficiencia computacional. Al combinar las técnicas de resumen tradicionales con modelos de vanguardia basados en LLM, este documento destaca las limitaciones actuales, las oportunidades emergentes y las direcciones futuras destinadas a desarrollar sistemas de resumen sólidos, confiables y escalables para diversas aplicaciones del mundo real.
Facultad de Informática
description Automatic text summarization (ATS) is a vital area in natural language processing focused on condensing lengthy documents into concise, meaningful summaries. Manual summarization remains time-consuming and costly, motivating extensive research into extractive, abstractive, and hybrid methods. This review provides a comprehensive survey of ATS, covering traditional techniques alongside recent breakthroughs fueled by machine learning, deep learning, and transformerbased architectures, including large language models (LLMs) such as GPT-4, Claude, Falcon, and MPT. We introduce a novel multi-dimensional taxonomy that integrates classical methods, emerging paradigms, domain-specific and multimodal approaches, and instruction-tuned LLMs. Our survey analyzes the strengths and limitations of each approach and discusses evaluation methodologies, incorporating both established metrics like ROUGE and BLEU and newer ones. We further address key challenges including factual consistency, prompt sensitivity, explainability, ethical considerations, and computational efficiency. By bridging traditional summarization techniques with cutting-edge LLMbased models, this paper highlights current limitations, emerging opportunities, and future directions aimed at developing robust, reliable, and scalable summarization systems for diverse realworld applications.
publishDate 2025
dc.date.none.fl_str_mv 2025-10
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Articulo
http://purl.org/coar/resource_type/c_6501
info:ar-repo/semantics/articulo
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/186932
url http://sedici.unlp.edu.ar/handle/10915/186932
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/issn/1666-6038
info:eu-repo/semantics/altIdentifier/doi/10.24215/16666038.25.e08
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
87-106
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1848605864218329088
score 12.976206