Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada
- Autores
- Bértoli, Rafael; Lira, Ariel Jorge
- Año de publicación
- 2025
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- La detección de bots en servicios web es una necesidad presente desde la masificación de internet. Estos agentes recorren la información disponible en la web para diversos fines como ser desarrollo de motores de búsqueda, análisis SEO o, recientemente, para entrenamiento de modelos de inteligencia artificial. Los repositorios son particularmente interesantes para estos agentes, gracias a que ofrecen información de calidad, controlada y descrita por metadatos curados. Independientemente de su objetivo, el repositorio es continuamente cosechado por múltiples bots, lo que produce caídas ocasionales y alteraciones en los registros de uso utilizados para la generación de reportes estadísticos, que sirven para medir el impacto real de las obras preservadas y publicadas. En este trabajo se presenta la experiencia del repositorio SEDICI en el análisis y depuración de registros recolectados durante 13 años. La detección se realiza mediante el análisis del comportamiento de los bots, como uso excesivo, patrones de uso anómalos, escaneos y ataques. Luego, se utiliza un modelo de IA para marcar bots con comportamiento poco evidente no identificados como tales. Aplicadas estas estrategias, se logró eliminar más de 50 millones de registros de uso provenientes de bots atípicos que acceden de forma sistemática y recurrente al repositorio.
Dirección PREBI-SEDICI - Materia
-
Informática
Robots
aprendizaje automático
repositorios
estadísticas de uso - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by/4.0/
- Repositorio
.jpg)
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/181804
Ver los metadatos del registro completo
| id |
SEDICI_8fab3367d0ee89a8b18a3d9db2345254 |
|---|---|
| oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/181804 |
| network_acronym_str |
SEDICI |
| repository_id_str |
1329 |
| network_name_str |
SEDICI (UNLP) |
| spelling |
Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicadaBértoli, RafaelLira, Ariel JorgeInformáticaRobotsaprendizaje automáticorepositoriosestadísticas de usoLa detección de bots en servicios web es una necesidad presente desde la masificación de internet. Estos agentes recorren la información disponible en la web para diversos fines como ser desarrollo de motores de búsqueda, análisis SEO o, recientemente, para entrenamiento de modelos de inteligencia artificial. Los repositorios son particularmente interesantes para estos agentes, gracias a que ofrecen información de calidad, controlada y descrita por metadatos curados. Independientemente de su objetivo, el repositorio es continuamente cosechado por múltiples bots, lo que produce caídas ocasionales y alteraciones en los registros de uso utilizados para la generación de reportes estadísticos, que sirven para medir el impacto real de las obras preservadas y publicadas. En este trabajo se presenta la experiencia del repositorio SEDICI en el análisis y depuración de registros recolectados durante 13 años. La detección se realiza mediante el análisis del comportamiento de los bots, como uso excesivo, patrones de uso anómalos, escaneos y ataques. Luego, se utiliza un modelo de IA para marcar bots con comportamiento poco evidente no identificados como tales. Aplicadas estas estrategias, se logró eliminar más de 50 millones de registros de uso provenientes de bots atípicos que acceden de forma sistemática y recurrente al repositorio.Dirección PREBI-SEDICI2025-10-09info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/181804spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/4.0/Creative Commons Attribution 4.0 International (CC BY 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-11-12T11:13:59Zoai:sedici.unlp.edu.ar:10915/181804Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-11-12 11:14:00.208SEDICI (UNLP) - Universidad Nacional de La Platafalse |
| dc.title.none.fl_str_mv |
Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada |
| title |
Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada |
| spellingShingle |
Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada Bértoli, Rafael Informática Robots aprendizaje automático repositorios estadísticas de uso |
| title_short |
Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada |
| title_full |
Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada |
| title_fullStr |
Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada |
| title_full_unstemmed |
Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada |
| title_sort |
Impacto negativo de bots en estadísticas de uso de repositorios digitales: análisis de un caso y estrategia aplicada |
| dc.creator.none.fl_str_mv |
Bértoli, Rafael Lira, Ariel Jorge |
| author |
Bértoli, Rafael |
| author_facet |
Bértoli, Rafael Lira, Ariel Jorge |
| author_role |
author |
| author2 |
Lira, Ariel Jorge |
| author2_role |
author |
| dc.subject.none.fl_str_mv |
Informática Robots aprendizaje automático repositorios estadísticas de uso |
| topic |
Informática Robots aprendizaje automático repositorios estadísticas de uso |
| dc.description.none.fl_txt_mv |
La detección de bots en servicios web es una necesidad presente desde la masificación de internet. Estos agentes recorren la información disponible en la web para diversos fines como ser desarrollo de motores de búsqueda, análisis SEO o, recientemente, para entrenamiento de modelos de inteligencia artificial. Los repositorios son particularmente interesantes para estos agentes, gracias a que ofrecen información de calidad, controlada y descrita por metadatos curados. Independientemente de su objetivo, el repositorio es continuamente cosechado por múltiples bots, lo que produce caídas ocasionales y alteraciones en los registros de uso utilizados para la generación de reportes estadísticos, que sirven para medir el impacto real de las obras preservadas y publicadas. En este trabajo se presenta la experiencia del repositorio SEDICI en el análisis y depuración de registros recolectados durante 13 años. La detección se realiza mediante el análisis del comportamiento de los bots, como uso excesivo, patrones de uso anómalos, escaneos y ataques. Luego, se utiliza un modelo de IA para marcar bots con comportamiento poco evidente no identificados como tales. Aplicadas estas estrategias, se logró eliminar más de 50 millones de registros de uso provenientes de bots atípicos que acceden de forma sistemática y recurrente al repositorio. Dirección PREBI-SEDICI |
| description |
La detección de bots en servicios web es una necesidad presente desde la masificación de internet. Estos agentes recorren la información disponible en la web para diversos fines como ser desarrollo de motores de búsqueda, análisis SEO o, recientemente, para entrenamiento de modelos de inteligencia artificial. Los repositorios son particularmente interesantes para estos agentes, gracias a que ofrecen información de calidad, controlada y descrita por metadatos curados. Independientemente de su objetivo, el repositorio es continuamente cosechado por múltiples bots, lo que produce caídas ocasionales y alteraciones en los registros de uso utilizados para la generación de reportes estadísticos, que sirven para medir el impacto real de las obras preservadas y publicadas. En este trabajo se presenta la experiencia del repositorio SEDICI en el análisis y depuración de registros recolectados durante 13 años. La detección se realiza mediante el análisis del comportamiento de los bots, como uso excesivo, patrones de uso anómalos, escaneos y ataques. Luego, se utiliza un modelo de IA para marcar bots con comportamiento poco evidente no identificados como tales. Aplicadas estas estrategias, se logró eliminar más de 50 millones de registros de uso provenientes de bots atípicos que acceden de forma sistemática y recurrente al repositorio. |
| publishDate |
2025 |
| dc.date.none.fl_str_mv |
2025-10-09 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
| format |
conferenceObject |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/181804 |
| url |
http://sedici.unlp.edu.ar/handle/10915/181804 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by/4.0/ Creative Commons Attribution 4.0 International (CC BY 4.0) |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by/4.0/ Creative Commons Attribution 4.0 International (CC BY 4.0) |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
| reponame_str |
SEDICI (UNLP) |
| collection |
SEDICI (UNLP) |
| instname_str |
Universidad Nacional de La Plata |
| instacron_str |
UNLP |
| institution |
UNLP |
| repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
| repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
| _version_ |
1848605849383075840 |
| score |
13.25334 |