Extracción de entidades en sentencias judiciales usando LLaMA-2
- Autores
- Vargas, Francisco; González Coene, Alejandro; Escalante, Gastón; Lobón, Exequiel; Pulido, Manuel
- Año de publicación
- 2024
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- La extracción de información de accidentes viales disponible en sentencias judiciales es de relevancia para la cuantificación de costos de las aseguradoras. La extracción de entidades tales como porcentajes de incapacidad física y/o psicológica y montos involucrados es un proceso difícil aun para expertos por las sutiles argumentaciones en las sentencias. Se propone un procedimiento que se divide en dos pasos, la segmentación de la sentencia e identificación del segmento relevante y luego la extracción de las entidades. Se comparan dos metodologías, un método clásico basado en expresiones regulares. La segunda metodología está basada en la división del documento en bloques de n-tokens para luego vectorizarlos con modelos multilenguajes para búsquedas semánticas (text-embedding-ada-002/MiniLM-L12-v2 ). Posteriormente se aplican LLMs (LLaMA-2 7b, 70b y GPT4) con prompting al bloque relevante para la extracción. En el caso de LLaMA-2 se realiza un sintonizado fino (finetuning) con LoRA. LLaMA-2 7b aun con temperatura nula presenta un significativo número de alucinaciones en las extracciones que disminuye sustancialmente con el sintonizado. El rendimiento de la metodología basada en el vectorizado de los segmentos y el posterior uso de los LLMs supera ampliamente al método clásico. La exactitud del método clásico es 39,5 %, la de LLaMA-2 70b base 61,7 % y con sintonizado 79,4 %, mientras que para GPT-4 Turbo es 86,1 %.
Sociedad Argentina de Informática e Investigación Operativa - Materia
-
Ciencias Informáticas
Reconocimiento de entidades nombradas
Grandes modelos de lenguaje
Textos legales - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/4.0/
- Repositorio
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/177173
Ver los metadatos del registro completo
id |
SEDICI_eca92b5037fedf41748a952ba8300e40 |
---|---|
oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/177173 |
network_acronym_str |
SEDICI |
repository_id_str |
1329 |
network_name_str |
SEDICI (UNLP) |
spelling |
Extracción de entidades en sentencias judiciales usando LLaMA-2Vargas, FranciscoGonzález Coene, AlejandroEscalante, GastónLobón, ExequielPulido, ManuelCiencias InformáticasReconocimiento de entidades nombradasGrandes modelos de lenguajeTextos legalesLa extracción de información de accidentes viales disponible en sentencias judiciales es de relevancia para la cuantificación de costos de las aseguradoras. La extracción de entidades tales como porcentajes de incapacidad física y/o psicológica y montos involucrados es un proceso difícil aun para expertos por las sutiles argumentaciones en las sentencias. Se propone un procedimiento que se divide en dos pasos, la segmentación de la sentencia e identificación del segmento relevante y luego la extracción de las entidades. Se comparan dos metodologías, un método clásico basado en expresiones regulares. La segunda metodología está basada en la división del documento en bloques de n-tokens para luego vectorizarlos con modelos multilenguajes para búsquedas semánticas (text-embedding-ada-002/MiniLM-L12-v2 ). Posteriormente se aplican LLMs (LLaMA-2 7b, 70b y GPT4) con prompting al bloque relevante para la extracción. En el caso de LLaMA-2 se realiza un sintonizado fino (finetuning) con LoRA. LLaMA-2 7b aun con temperatura nula presenta un significativo número de alucinaciones en las extracciones que disminuye sustancialmente con el sintonizado. El rendimiento de la metodología basada en el vectorizado de los segmentos y el posterior uso de los LLMs supera ampliamente al método clásico. La exactitud del método clásico es 39,5 %, la de LLaMA-2 70b base 61,7 % y con sintonizado 79,4 %, mientras que para GPT-4 Turbo es 86,1 %.Sociedad Argentina de Informática e Investigación Operativa2024-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf42-55http://sedici.unlp.edu.ar/handle/10915/177173spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/17923info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-10-15T11:39:37Zoai:sedici.unlp.edu.ar:10915/177173Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-10-15 11:39:37.398SEDICI (UNLP) - Universidad Nacional de La Platafalse |
dc.title.none.fl_str_mv |
Extracción de entidades en sentencias judiciales usando LLaMA-2 |
title |
Extracción de entidades en sentencias judiciales usando LLaMA-2 |
spellingShingle |
Extracción de entidades en sentencias judiciales usando LLaMA-2 Vargas, Francisco Ciencias Informáticas Reconocimiento de entidades nombradas Grandes modelos de lenguaje Textos legales |
title_short |
Extracción de entidades en sentencias judiciales usando LLaMA-2 |
title_full |
Extracción de entidades en sentencias judiciales usando LLaMA-2 |
title_fullStr |
Extracción de entidades en sentencias judiciales usando LLaMA-2 |
title_full_unstemmed |
Extracción de entidades en sentencias judiciales usando LLaMA-2 |
title_sort |
Extracción de entidades en sentencias judiciales usando LLaMA-2 |
dc.creator.none.fl_str_mv |
Vargas, Francisco González Coene, Alejandro Escalante, Gastón Lobón, Exequiel Pulido, Manuel |
author |
Vargas, Francisco |
author_facet |
Vargas, Francisco González Coene, Alejandro Escalante, Gastón Lobón, Exequiel Pulido, Manuel |
author_role |
author |
author2 |
González Coene, Alejandro Escalante, Gastón Lobón, Exequiel Pulido, Manuel |
author2_role |
author author author author |
dc.subject.none.fl_str_mv |
Ciencias Informáticas Reconocimiento de entidades nombradas Grandes modelos de lenguaje Textos legales |
topic |
Ciencias Informáticas Reconocimiento de entidades nombradas Grandes modelos de lenguaje Textos legales |
dc.description.none.fl_txt_mv |
La extracción de información de accidentes viales disponible en sentencias judiciales es de relevancia para la cuantificación de costos de las aseguradoras. La extracción de entidades tales como porcentajes de incapacidad física y/o psicológica y montos involucrados es un proceso difícil aun para expertos por las sutiles argumentaciones en las sentencias. Se propone un procedimiento que se divide en dos pasos, la segmentación de la sentencia e identificación del segmento relevante y luego la extracción de las entidades. Se comparan dos metodologías, un método clásico basado en expresiones regulares. La segunda metodología está basada en la división del documento en bloques de n-tokens para luego vectorizarlos con modelos multilenguajes para búsquedas semánticas (text-embedding-ada-002/MiniLM-L12-v2 ). Posteriormente se aplican LLMs (LLaMA-2 7b, 70b y GPT4) con prompting al bloque relevante para la extracción. En el caso de LLaMA-2 se realiza un sintonizado fino (finetuning) con LoRA. LLaMA-2 7b aun con temperatura nula presenta un significativo número de alucinaciones en las extracciones que disminuye sustancialmente con el sintonizado. El rendimiento de la metodología basada en el vectorizado de los segmentos y el posterior uso de los LLMs supera ampliamente al método clásico. La exactitud del método clásico es 39,5 %, la de LLaMA-2 70b base 61,7 % y con sintonizado 79,4 %, mientras que para GPT-4 Turbo es 86,1 %. Sociedad Argentina de Informática e Investigación Operativa |
description |
La extracción de información de accidentes viales disponible en sentencias judiciales es de relevancia para la cuantificación de costos de las aseguradoras. La extracción de entidades tales como porcentajes de incapacidad física y/o psicológica y montos involucrados es un proceso difícil aun para expertos por las sutiles argumentaciones en las sentencias. Se propone un procedimiento que se divide en dos pasos, la segmentación de la sentencia e identificación del segmento relevante y luego la extracción de las entidades. Se comparan dos metodologías, un método clásico basado en expresiones regulares. La segunda metodología está basada en la división del documento en bloques de n-tokens para luego vectorizarlos con modelos multilenguajes para búsquedas semánticas (text-embedding-ada-002/MiniLM-L12-v2 ). Posteriormente se aplican LLMs (LLaMA-2 7b, 70b y GPT4) con prompting al bloque relevante para la extracción. En el caso de LLaMA-2 se realiza un sintonizado fino (finetuning) con LoRA. LLaMA-2 7b aun con temperatura nula presenta un significativo número de alucinaciones en las extracciones que disminuye sustancialmente con el sintonizado. El rendimiento de la metodología basada en el vectorizado de los segmentos y el posterior uso de los LLMs supera ampliamente al método clásico. La exactitud del método clásico es 39,5 %, la de LLaMA-2 70b base 61,7 % y con sintonizado 79,4 %, mientras que para GPT-4 Turbo es 86,1 %. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-08 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
format |
conferenceObject |
status_str |
publishedVersion |
dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/177173 |
url |
http://sedici.unlp.edu.ar/handle/10915/177173 |
dc.language.none.fl_str_mv |
spa |
language |
spa |
dc.relation.none.fl_str_mv |
info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/17923 info:eu-repo/semantics/altIdentifier/issn/2451-7496 |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0) |
dc.format.none.fl_str_mv |
application/pdf 42-55 |
dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
reponame_str |
SEDICI (UNLP) |
collection |
SEDICI (UNLP) |
instname_str |
Universidad Nacional de La Plata |
instacron_str |
UNLP |
institution |
UNLP |
repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
_version_ |
1846064410858094592 |
score |
13.22299 |