Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico

Autores
Fernández, Juan M.; Petrocelli, David Marcelo; Matuk, Rosana; Lanson, Daniel; Zamudio, Eduardo; Cagnina, Leticia Cecilia; Gil Costa, Graciela Verónica; Errecalde, Marcelo Luis
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
El lenguaje es una característica distintiva de la humanidad, y la conversación es su ámbito fundamental. La interacción conversacional entre máquinas y humanos ha sido una meta en la informática desde hace más de 70 años. Estas capacidades se investigan en el marco de la Inteligencia Artificial Generativa (IAG), que permite a las máquinas generar contenido nuevo y coherente en función de datos de entrenamiento. Las redes neuronales generativas adversarias y la arquitectura de transformers, que revolucionaron el campo, se destacan en la creación de contenido coherente y relevante. Modelos como GPT-4, LLaMA y DeepSeek-V3 han establecido nuevos estándares, demostrando la capacidad de los modelos de lenguaje a gran escala (LLM) para adaptarse a diversas tareas. Los LLM, al ser pre-entrenados con grandes volúmenes de datos, adquieren habilidades generales que pueden ajustarse a nuevas tareas específicas mediante técnicas de fine-tuning. Entre las técnicas de fine-tuning más relevantes, el método clásico ajusta todos los parámetros del modelo, siendo efectivo pero computacionalmente costoso. Las estrategias basadas en adapter tuning, compacter, BitFit así como LoRA y sus variantes ofrecen alternativas eficientes y modulares. A su vez, enfoques recientes como Mixture of Experts (MoE) se constituyen como alternativas para mejorar la eficiencia, activando solo una parte del modelo en cada inferencia. En este trabajo se describen las acciones emprendidas relacionadas con el fine-tuning y adaptación de modelos de lenguaje abiertos en el marco de la presentación a la categoría “Proyectos de Cálculo Intensivo (PCI)” de la Iniciativa de Proyectos Acelerados de Cálculo (IPAC), por medio de la utilización de la supercomputadora Clementina XXI, a partir de la colaboración interinstitucional entre el LICDIA-UNLu, el LIDIC-UNSL y el IIDII-UNaM.
Red de Universidades con Carreras en Informática
Materia
Ciencias Informáticas
Inteligencia Artificial Generativa
Modelos de lenguaje
Fine-tuning
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/183892

id SEDICI_1e5bc36a3732bf902372445562e62e60
oai_identifier_str oai:sedici.unlp.edu.ar:10915/183892
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específicoFernández, Juan M.Petrocelli, David MarceloMatuk, RosanaLanson, DanielZamudio, EduardoCagnina, Leticia CeciliaGil Costa, Graciela VerónicaErrecalde, Marcelo LuisCiencias InformáticasInteligencia Artificial GenerativaModelos de lenguajeFine-tuningEl lenguaje es una característica distintiva de la humanidad, y la conversación es su ámbito fundamental. La interacción conversacional entre máquinas y humanos ha sido una meta en la informática desde hace más de 70 años. Estas capacidades se investigan en el marco de la Inteligencia Artificial Generativa (IAG), que permite a las máquinas generar contenido nuevo y coherente en función de datos de entrenamiento. Las redes neuronales generativas adversarias y la arquitectura de transformers, que revolucionaron el campo, se destacan en la creación de contenido coherente y relevante. Modelos como GPT-4, LLaMA y DeepSeek-V3 han establecido nuevos estándares, demostrando la capacidad de los modelos de lenguaje a gran escala (LLM) para adaptarse a diversas tareas. Los LLM, al ser pre-entrenados con grandes volúmenes de datos, adquieren habilidades generales que pueden ajustarse a nuevas tareas específicas mediante técnicas de fine-tuning. Entre las técnicas de fine-tuning más relevantes, el método clásico ajusta todos los parámetros del modelo, siendo efectivo pero computacionalmente costoso. Las estrategias basadas en adapter tuning, compacter, BitFit así como LoRA y sus variantes ofrecen alternativas eficientes y modulares. A su vez, enfoques recientes como Mixture of Experts (MoE) se constituyen como alternativas para mejorar la eficiencia, activando solo una parte del modelo en cada inferencia. En este trabajo se describen las acciones emprendidas relacionadas con el fine-tuning y adaptación de modelos de lenguaje abiertos en el marco de la presentación a la categoría “Proyectos de Cálculo Intensivo (PCI)” de la Iniciativa de Proyectos Acelerados de Cálculo (IPAC), por medio de la utilización de la supercomputadora Clementina XXI, a partir de la colaboración interinstitucional entre el LICDIA-UNLu, el LIDIC-UNSL y el IIDII-UNaM.Red de Universidades con Carreras en Informática2025-04info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf72-76http://sedici.unlp.edu.ar/handle/10915/183892spainfo:eu-repo/semantics/altIdentifier/isbn/978-987-575-267-2info:eu-repo/semantics/reference/url/https://sedici.unlp.edu.ar/handle/10915/182261info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-03-31T12:38:59Zoai:sedici.unlp.edu.ar:10915/183892Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-03-31 12:38:59.691SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico
title Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico
spellingShingle Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico
Fernández, Juan M.
Ciencias Informáticas
Inteligencia Artificial Generativa
Modelos de lenguaje
Fine-tuning
title_short Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico
title_full Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico
title_fullStr Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico
title_full_unstemmed Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico
title_sort Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico
dc.creator.none.fl_str_mv Fernández, Juan M.
Petrocelli, David Marcelo
Matuk, Rosana
Lanson, Daniel
Zamudio, Eduardo
Cagnina, Leticia Cecilia
Gil Costa, Graciela Verónica
Errecalde, Marcelo Luis
author Fernández, Juan M.
author_facet Fernández, Juan M.
Petrocelli, David Marcelo
Matuk, Rosana
Lanson, Daniel
Zamudio, Eduardo
Cagnina, Leticia Cecilia
Gil Costa, Graciela Verónica
Errecalde, Marcelo Luis
author_role author
author2 Petrocelli, David Marcelo
Matuk, Rosana
Lanson, Daniel
Zamudio, Eduardo
Cagnina, Leticia Cecilia
Gil Costa, Graciela Verónica
Errecalde, Marcelo Luis
author2_role author
author
author
author
author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
Inteligencia Artificial Generativa
Modelos de lenguaje
Fine-tuning
topic Ciencias Informáticas
Inteligencia Artificial Generativa
Modelos de lenguaje
Fine-tuning
dc.description.none.fl_txt_mv El lenguaje es una característica distintiva de la humanidad, y la conversación es su ámbito fundamental. La interacción conversacional entre máquinas y humanos ha sido una meta en la informática desde hace más de 70 años. Estas capacidades se investigan en el marco de la Inteligencia Artificial Generativa (IAG), que permite a las máquinas generar contenido nuevo y coherente en función de datos de entrenamiento. Las redes neuronales generativas adversarias y la arquitectura de transformers, que revolucionaron el campo, se destacan en la creación de contenido coherente y relevante. Modelos como GPT-4, LLaMA y DeepSeek-V3 han establecido nuevos estándares, demostrando la capacidad de los modelos de lenguaje a gran escala (LLM) para adaptarse a diversas tareas. Los LLM, al ser pre-entrenados con grandes volúmenes de datos, adquieren habilidades generales que pueden ajustarse a nuevas tareas específicas mediante técnicas de fine-tuning. Entre las técnicas de fine-tuning más relevantes, el método clásico ajusta todos los parámetros del modelo, siendo efectivo pero computacionalmente costoso. Las estrategias basadas en adapter tuning, compacter, BitFit así como LoRA y sus variantes ofrecen alternativas eficientes y modulares. A su vez, enfoques recientes como Mixture of Experts (MoE) se constituyen como alternativas para mejorar la eficiencia, activando solo una parte del modelo en cada inferencia. En este trabajo se describen las acciones emprendidas relacionadas con el fine-tuning y adaptación de modelos de lenguaje abiertos en el marco de la presentación a la categoría “Proyectos de Cálculo Intensivo (PCI)” de la Iniciativa de Proyectos Acelerados de Cálculo (IPAC), por medio de la utilización de la supercomputadora Clementina XXI, a partir de la colaboración interinstitucional entre el LICDIA-UNLu, el LIDIC-UNSL y el IIDII-UNaM.
Red de Universidades con Carreras en Informática
description El lenguaje es una característica distintiva de la humanidad, y la conversación es su ámbito fundamental. La interacción conversacional entre máquinas y humanos ha sido una meta en la informática desde hace más de 70 años. Estas capacidades se investigan en el marco de la Inteligencia Artificial Generativa (IAG), que permite a las máquinas generar contenido nuevo y coherente en función de datos de entrenamiento. Las redes neuronales generativas adversarias y la arquitectura de transformers, que revolucionaron el campo, se destacan en la creación de contenido coherente y relevante. Modelos como GPT-4, LLaMA y DeepSeek-V3 han establecido nuevos estándares, demostrando la capacidad de los modelos de lenguaje a gran escala (LLM) para adaptarse a diversas tareas. Los LLM, al ser pre-entrenados con grandes volúmenes de datos, adquieren habilidades generales que pueden ajustarse a nuevas tareas específicas mediante técnicas de fine-tuning. Entre las técnicas de fine-tuning más relevantes, el método clásico ajusta todos los parámetros del modelo, siendo efectivo pero computacionalmente costoso. Las estrategias basadas en adapter tuning, compacter, BitFit así como LoRA y sus variantes ofrecen alternativas eficientes y modulares. A su vez, enfoques recientes como Mixture of Experts (MoE) se constituyen como alternativas para mejorar la eficiencia, activando solo una parte del modelo en cada inferencia. En este trabajo se describen las acciones emprendidas relacionadas con el fine-tuning y adaptación de modelos de lenguaje abiertos en el marco de la presentación a la categoría “Proyectos de Cálculo Intensivo (PCI)” de la Iniciativa de Proyectos Acelerados de Cálculo (IPAC), por medio de la utilización de la supercomputadora Clementina XXI, a partir de la colaboración interinstitucional entre el LICDIA-UNLu, el LIDIC-UNSL y el IIDII-UNaM.
publishDate 2025
dc.date.none.fl_str_mv 2025-04
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/183892
url http://sedici.unlp.edu.ar/handle/10915/183892
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/isbn/978-987-575-267-2
info:eu-repo/semantics/reference/url/https://sedici.unlp.edu.ar/handle/10915/182261
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
72-76
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1861199732898004992
score 13.332987