Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada

Autores
Bértoli, Rafael; Lira, Ariel Jorge
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
La detección de bots en servicios web es una necesidad presente desde la masificación de internet. Estos agentes recorren la información disponible en la web para diversos fines como ser desarrollo de motores de búsqueda, análisis SEO o, recientemente, para entrenamiento de modelos de inteligencia artificial. Los repositorios son particularmente interesantes para estos agentes, gracias a que ofrecen información de calidad, controlada y descrita por metadatos curados. Independientemente de su objetivo, el repositorio es continuamente cosechado por múltiples bots, lo que produce caídas ocasionales y alteraciones en los registros de uso utilizados para la generación de reportes estadísticos, que sirven para medir el impacto real de las obras preservadas y publicadas. En este trabajo se presenta la experiencia del repositorio SEDICI en el análisis y depuración de registros recolectados durante 13 años. La detección se realiza mediante el análisis del comportamiento de los bots, como uso excesivo, patrones de uso anómalos, escaneos y ataques. Luego, se utiliza un modelo de IA para marcar bots con comportamiento poco evidente no identificados como tales. Aplicadas estas estrategias, se logró eliminar más de 50 millones de registros de uso provenientes de bots atípicos que acceden de forma sistemática y recurrente al repositorio.
Dirección PREBI-SEDICI
Materia
Informática
Robots
aprendizaje automático
repositorios
estadísticas de uso
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/181804

id SEDICI_8fab3367d0ee89a8b18a3d9db2345254
oai_identifier_str oai:sedici.unlp.edu.ar:10915/181804
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicadaBértoli, RafaelLira, Ariel JorgeInformáticaRobotsaprendizaje automáticorepositoriosestadísticas de usoLa detección de bots en servicios web es una necesidad presente desde la masificación de internet. Estos agentes recorren la información disponible en la web para diversos fines como ser desarrollo de motores de búsqueda, análisis SEO o, recientemente, para entrenamiento de modelos de inteligencia artificial. Los repositorios son particularmente interesantes para estos agentes, gracias a que ofrecen información de calidad, controlada y descrita por metadatos curados. Independientemente de su objetivo, el repositorio es continuamente cosechado por múltiples bots, lo que produce caídas ocasionales y alteraciones en los registros de uso utilizados para la generación de reportes estadísticos, que sirven para medir el impacto real de las obras preservadas y publicadas. En este trabajo se presenta la experiencia del repositorio SEDICI en el análisis y depuración de registros recolectados durante 13 años. La detección se realiza mediante el análisis del comportamiento de los bots, como uso excesivo, patrones de uso anómalos, escaneos y ataques. Luego, se utiliza un modelo de IA para marcar bots con comportamiento poco evidente no identificados como tales. Aplicadas estas estrategias, se logró eliminar más de 50 millones de registros de uso provenientes de bots atípicos que acceden de forma sistemática y recurrente al repositorio.Dirección PREBI-SEDICI2025-10-09info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/181804spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/4.0/Creative Commons Attribution 4.0 International (CC BY 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-11-12T11:13:59Zoai:sedici.unlp.edu.ar:10915/181804Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-11-12 11:14:00.208SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada
title Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada
spellingShingle Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada
Bértoli, Rafael
Informática
Robots
aprendizaje automático
repositorios
estadísticas de uso
title_short Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada
title_full Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada
title_fullStr Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada
title_full_unstemmed Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada
title_sort Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada
dc.creator.none.fl_str_mv Bértoli, Rafael
Lira, Ariel Jorge
author Bértoli, Rafael
author_facet Bértoli, Rafael
Lira, Ariel Jorge
author_role author
author2 Lira, Ariel Jorge
author2_role author
dc.subject.none.fl_str_mv Informática
Robots
aprendizaje automático
repositorios
estadísticas de uso
topic Informática
Robots
aprendizaje automático
repositorios
estadísticas de uso
dc.description.none.fl_txt_mv La detección de bots en servicios web es una necesidad presente desde la masificación de internet. Estos agentes recorren la información disponible en la web para diversos fines como ser desarrollo de motores de búsqueda, análisis SEO o, recientemente, para entrenamiento de modelos de inteligencia artificial. Los repositorios son particularmente interesantes para estos agentes, gracias a que ofrecen información de calidad, controlada y descrita por metadatos curados. Independientemente de su objetivo, el repositorio es continuamente cosechado por múltiples bots, lo que produce caídas ocasionales y alteraciones en los registros de uso utilizados para la generación de reportes estadísticos, que sirven para medir el impacto real de las obras preservadas y publicadas. En este trabajo se presenta la experiencia del repositorio SEDICI en el análisis y depuración de registros recolectados durante 13 años. La detección se realiza mediante el análisis del comportamiento de los bots, como uso excesivo, patrones de uso anómalos, escaneos y ataques. Luego, se utiliza un modelo de IA para marcar bots con comportamiento poco evidente no identificados como tales. Aplicadas estas estrategias, se logró eliminar más de 50 millones de registros de uso provenientes de bots atípicos que acceden de forma sistemática y recurrente al repositorio.
Dirección PREBI-SEDICI
description La detección de bots en servicios web es una necesidad presente desde la masificación de internet. Estos agentes recorren la información disponible en la web para diversos fines como ser desarrollo de motores de búsqueda, análisis SEO o, recientemente, para entrenamiento de modelos de inteligencia artificial. Los repositorios son particularmente interesantes para estos agentes, gracias a que ofrecen información de calidad, controlada y descrita por metadatos curados. Independientemente de su objetivo, el repositorio es continuamente cosechado por múltiples bots, lo que produce caídas ocasionales y alteraciones en los registros de uso utilizados para la generación de reportes estadísticos, que sirven para medir el impacto real de las obras preservadas y publicadas. En este trabajo se presenta la experiencia del repositorio SEDICI en el análisis y depuración de registros recolectados durante 13 años. La detección se realiza mediante el análisis del comportamiento de los bots, como uso excesivo, patrones de uso anómalos, escaneos y ataques. Luego, se utiliza un modelo de IA para marcar bots con comportamiento poco evidente no identificados como tales. Aplicadas estas estrategias, se logró eliminar más de 50 millones de registros de uso provenientes de bots atípicos que acceden de forma sistemática y recurrente al repositorio.
publishDate 2025
dc.date.none.fl_str_mv 2025-10-09
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/181804
url http://sedici.unlp.edu.ar/handle/10915/181804
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by/4.0/
Creative Commons Attribution 4.0 International (CC BY 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
Creative Commons Attribution 4.0 International (CC BY 4.0)
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1848605849383075840
score 13.25334