Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico
- Autores
- Fernández, Juan M.; Petrocelli, David Marcelo; Matuk, Rosana; Lanson, Daniel; Zamudio, Eduardo; Cagnina, Leticia Cecilia; Gil Costa, Graciela Verónica; Errecalde, Marcelo Luis
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- El lenguaje es una característica distintiva de la humanidad, y la conversación es su ámbito fundamental. La interacción conversacional entre máquinas y humanos ha sido una meta en la informática desde hace más de 70 años. Estas capacidades se investigan en el marco de la Inteligencia Artificial Generativa (IAG), que permite a las máquinas generar contenido nuevo y coherente en función de datos de entrenamiento. Las redes neuronales generativas adversarias y la arquitectura de transformers, que revolucionaron el campo, se destacan en la creación de contenido coherente y relevante. Modelos como GPT-4, LLaMA y DeepSeek-V3 han establecido nuevos estándares, demostrando la capacidad de los modelos de lenguaje a gran escala (LLM) para adaptarse a diversas tareas. Los LLM, al ser pre-entrenados con grandes volúmenes de datos, adquieren habilidades generales que pueden ajustarse a nuevas tareas específicas mediante técnicas de fine-tuning. Entre las técnicas de fine-tuning más relevantes, el método clásico ajusta todos los parámetros del modelo, siendo efectivo pero computacionalmente costoso. Las estrategias basadas en adapter tuning, compacter, BitFit así como LoRA y sus variantes ofrecen alternativas eficientes y modulares. A su vez, enfoques recientes como Mixture of Experts (MoE) se constituyen como alternativas para mejorar la eficiencia, activando solo una parte del modelo en cada inferencia. En este trabajo se describen las acciones emprendidas relacionadas con el fine-tuning y adaptación de modelos de lenguaje abiertos en el marco de la presentación a la categoría “Proyectos de Cálculo Intensivo (PCI)” de la Iniciativa de Proyectos Acelerados de Cálculo (IPAC), por medio de la utilización de la supercomputadora Clementina XXI, a partir de la colaboración interinstitucional entre el LICDIA-UNLu, el LIDIC-UNSL y el IIDII-UNaM.
Red de Universidades con Carreras en Informática - Materia
-
Ciencias Informáticas
Inteligencia Artificial Generativa
Modelos de lenguaje
Fine-tuning - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
.jpg)
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/183892
Ver los metadatos del registro completo
| id |
SEDICI_1e5bc36a3732bf902372445562e62e60 |
|---|---|
| oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/183892 |
| network_acronym_str |
SEDICI |
| repository_id_str |
1329 |
| network_name_str |
SEDICI (UNLP) |
| spelling |
Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específicoFernández, Juan M.Petrocelli, David MarceloMatuk, RosanaLanson, DanielZamudio, EduardoCagnina, Leticia CeciliaGil Costa, Graciela VerónicaErrecalde, Marcelo LuisCiencias InformáticasInteligencia Artificial GenerativaModelos de lenguajeFine-tuningEl lenguaje es una característica distintiva de la humanidad, y la conversación es su ámbito fundamental. La interacción conversacional entre máquinas y humanos ha sido una meta en la informática desde hace más de 70 años. Estas capacidades se investigan en el marco de la Inteligencia Artificial Generativa (IAG), que permite a las máquinas generar contenido nuevo y coherente en función de datos de entrenamiento. Las redes neuronales generativas adversarias y la arquitectura de transformers, que revolucionaron el campo, se destacan en la creación de contenido coherente y relevante. Modelos como GPT-4, LLaMA y DeepSeek-V3 han establecido nuevos estándares, demostrando la capacidad de los modelos de lenguaje a gran escala (LLM) para adaptarse a diversas tareas. Los LLM, al ser pre-entrenados con grandes volúmenes de datos, adquieren habilidades generales que pueden ajustarse a nuevas tareas específicas mediante técnicas de fine-tuning. Entre las técnicas de fine-tuning más relevantes, el método clásico ajusta todos los parámetros del modelo, siendo efectivo pero computacionalmente costoso. Las estrategias basadas en adapter tuning, compacter, BitFit así como LoRA y sus variantes ofrecen alternativas eficientes y modulares. A su vez, enfoques recientes como Mixture of Experts (MoE) se constituyen como alternativas para mejorar la eficiencia, activando solo una parte del modelo en cada inferencia. En este trabajo se describen las acciones emprendidas relacionadas con el fine-tuning y adaptación de modelos de lenguaje abiertos en el marco de la presentación a la categoría “Proyectos de Cálculo Intensivo (PCI)” de la Iniciativa de Proyectos Acelerados de Cálculo (IPAC), por medio de la utilización de la supercomputadora Clementina XXI, a partir de la colaboración interinstitucional entre el LICDIA-UNLu, el LIDIC-UNSL y el IIDII-UNaM.Red de Universidades con Carreras en Informática2025-04info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf72-76http://sedici.unlp.edu.ar/handle/10915/183892spainfo:eu-repo/semantics/altIdentifier/isbn/978-987-575-267-2info:eu-repo/semantics/reference/url/https://sedici.unlp.edu.ar/handle/10915/182261info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-03-31T12:38:59Zoai:sedici.unlp.edu.ar:10915/183892Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-03-31 12:38:59.691SEDICI (UNLP) - Universidad Nacional de La Platafalse |
| dc.title.none.fl_str_mv |
Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico |
| title |
Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico |
| spellingShingle |
Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico Fernández, Juan M. Ciencias Informáticas Inteligencia Artificial Generativa Modelos de lenguaje Fine-tuning |
| title_short |
Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico |
| title_full |
Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico |
| title_fullStr |
Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico |
| title_full_unstemmed |
Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico |
| title_sort |
Fine-tuning y adaptación de modelos de lenguaje abiertos en infraestructura hpc para aplicaciones de dominio específico |
| dc.creator.none.fl_str_mv |
Fernández, Juan M. Petrocelli, David Marcelo Matuk, Rosana Lanson, Daniel Zamudio, Eduardo Cagnina, Leticia Cecilia Gil Costa, Graciela Verónica Errecalde, Marcelo Luis |
| author |
Fernández, Juan M. |
| author_facet |
Fernández, Juan M. Petrocelli, David Marcelo Matuk, Rosana Lanson, Daniel Zamudio, Eduardo Cagnina, Leticia Cecilia Gil Costa, Graciela Verónica Errecalde, Marcelo Luis |
| author_role |
author |
| author2 |
Petrocelli, David Marcelo Matuk, Rosana Lanson, Daniel Zamudio, Eduardo Cagnina, Leticia Cecilia Gil Costa, Graciela Verónica Errecalde, Marcelo Luis |
| author2_role |
author author author author author author author |
| dc.subject.none.fl_str_mv |
Ciencias Informáticas Inteligencia Artificial Generativa Modelos de lenguaje Fine-tuning |
| topic |
Ciencias Informáticas Inteligencia Artificial Generativa Modelos de lenguaje Fine-tuning |
| dc.description.none.fl_txt_mv |
El lenguaje es una característica distintiva de la humanidad, y la conversación es su ámbito fundamental. La interacción conversacional entre máquinas y humanos ha sido una meta en la informática desde hace más de 70 años. Estas capacidades se investigan en el marco de la Inteligencia Artificial Generativa (IAG), que permite a las máquinas generar contenido nuevo y coherente en función de datos de entrenamiento. Las redes neuronales generativas adversarias y la arquitectura de transformers, que revolucionaron el campo, se destacan en la creación de contenido coherente y relevante. Modelos como GPT-4, LLaMA y DeepSeek-V3 han establecido nuevos estándares, demostrando la capacidad de los modelos de lenguaje a gran escala (LLM) para adaptarse a diversas tareas. Los LLM, al ser pre-entrenados con grandes volúmenes de datos, adquieren habilidades generales que pueden ajustarse a nuevas tareas específicas mediante técnicas de fine-tuning. Entre las técnicas de fine-tuning más relevantes, el método clásico ajusta todos los parámetros del modelo, siendo efectivo pero computacionalmente costoso. Las estrategias basadas en adapter tuning, compacter, BitFit así como LoRA y sus variantes ofrecen alternativas eficientes y modulares. A su vez, enfoques recientes como Mixture of Experts (MoE) se constituyen como alternativas para mejorar la eficiencia, activando solo una parte del modelo en cada inferencia. En este trabajo se describen las acciones emprendidas relacionadas con el fine-tuning y adaptación de modelos de lenguaje abiertos en el marco de la presentación a la categoría “Proyectos de Cálculo Intensivo (PCI)” de la Iniciativa de Proyectos Acelerados de Cálculo (IPAC), por medio de la utilización de la supercomputadora Clementina XXI, a partir de la colaboración interinstitucional entre el LICDIA-UNLu, el LIDIC-UNSL y el IIDII-UNaM. Red de Universidades con Carreras en Informática |
| description |
El lenguaje es una característica distintiva de la humanidad, y la conversación es su ámbito fundamental. La interacción conversacional entre máquinas y humanos ha sido una meta en la informática desde hace más de 70 años. Estas capacidades se investigan en el marco de la Inteligencia Artificial Generativa (IAG), que permite a las máquinas generar contenido nuevo y coherente en función de datos de entrenamiento. Las redes neuronales generativas adversarias y la arquitectura de transformers, que revolucionaron el campo, se destacan en la creación de contenido coherente y relevante. Modelos como GPT-4, LLaMA y DeepSeek-V3 han establecido nuevos estándares, demostrando la capacidad de los modelos de lenguaje a gran escala (LLM) para adaptarse a diversas tareas. Los LLM, al ser pre-entrenados con grandes volúmenes de datos, adquieren habilidades generales que pueden ajustarse a nuevas tareas específicas mediante técnicas de fine-tuning. Entre las técnicas de fine-tuning más relevantes, el método clásico ajusta todos los parámetros del modelo, siendo efectivo pero computacionalmente costoso. Las estrategias basadas en adapter tuning, compacter, BitFit así como LoRA y sus variantes ofrecen alternativas eficientes y modulares. A su vez, enfoques recientes como Mixture of Experts (MoE) se constituyen como alternativas para mejorar la eficiencia, activando solo una parte del modelo en cada inferencia. En este trabajo se describen las acciones emprendidas relacionadas con el fine-tuning y adaptación de modelos de lenguaje abiertos en el marco de la presentación a la categoría “Proyectos de Cálculo Intensivo (PCI)” de la Iniciativa de Proyectos Acelerados de Cálculo (IPAC), por medio de la utilización de la supercomputadora Clementina XXI, a partir de la colaboración interinstitucional entre el LICDIA-UNLu, el LIDIC-UNSL y el IIDII-UNaM. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-04 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
| format |
conferenceObject |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/183892 |
| url |
http://sedici.unlp.edu.ar/handle/10915/183892 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/isbn/978-987-575-267-2 info:eu-repo/semantics/reference/url/https://sedici.unlp.edu.ar/handle/10915/182261 |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
| dc.format.none.fl_str_mv |
application/pdf 72-76 |
| dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
| reponame_str |
SEDICI (UNLP) |
| collection |
SEDICI (UNLP) |
| instname_str |
Universidad Nacional de La Plata |
| instacron_str |
UNLP |
| institution |
UNLP |
| repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
| repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
| _version_ |
1861199732898004992 |
| score |
13.332987 |