Detección de bots en reportes estadísticos

Autores
Catá, Juan Manuel; Lira, Ariel Jorge; De Giusti, Marisa Raquel
Año de publicación
2016
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Las estadísticas de un repositorio institucional son una herramienta básica que asiste el proceso de toma de decisiones y gestión del repositorio. Por este motivo, es importante que la información provista por estas estadísticas sea información precisa y confiable, en particular los registros de acceso y descarga. Los repositorios digitales concentran una gran cantidad de enlaces entrantes y muchos contenidos de calidad por lo que resultan de mucho interés para los bots que navegan la World Wide Web. Si bien la mayoría de los bots respetan las reglas básicas establecidas en los archivos robots.txt, muchos de ellos no lo hacen e incluso hay algunos que no se identifican como tales y se hacen pasar por agentes de usuario normales. A pesar de las medidas que se toman para evitar el acceso de bots maliciosos, un número importante de estos logra filtrarse y efectuar miles de accesos indeseados. Se genera, en consecuencia, gran cantidad de datos espurios que llevan a estadísticas poco fiables y que en última instancia entorpecen el proceso de gestión del repositorio Para solucionar el problema planteado, se comenzó desarrollar una mecanismo que, a partir del análisis, permita filtrar los accesos de bots normales y bloquear los accesos de bots maliciosos o con mal comportamiento. Las pruebas iniciales con la herramienta han permitido identificar un número elevado de accesos correspondientes a bots maliciosos que, al filtrarlos, permiten obtener resultados estadísticos mucho más veraces.
Statistics are an essential tool for institutional repositories which assists the decision making process and repository management. Therefore, the information they provide must be precise and reliable, specially those based on access and download logs. When a digital repository grows and brings together large amounts of incoming links and high quality content, it acquires of great significance for bots. Most bots follow the basic rules established in robots.txt files, nevertheless many do not do it, and some of them do not identify themselves as bot masquerading as normal users. Despite the measures taken to avoid access to malicious bots, a large amount of them manage to seep and make thousands of unwanted access. Therefore a large number of spurious data is generated which leads to unreliable statistics and hinders the repository management process. In order to solve this problem, a mechanism was developed to analyse, detect and filter access from malicious or misbehave bots. Initial tests with this tool allowed to identify a large number of access comming from malicious bots that, after being filtered, allows to get much more sound and reliable statistics results.
Ibero-American Science and Technology Education Consortium (ISTEC)
Materia
Bibliotecología
Ciencias Informáticas
Bots
Estadísticas
Repositorio institucional
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/150998

id SEDICI_fe9a77c75ced42af0cf63b23da180bef
oai_identifier_str oai:sedici.unlp.edu.ar:10915/150998
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Detección de bots en reportes estadísticosCatá, Juan ManuelLira, Ariel JorgeDe Giusti, Marisa RaquelBibliotecologíaCiencias InformáticasBotsEstadísticasRepositorio institucionalLas estadísticas de un repositorio institucional son una herramienta básica que asiste el proceso de toma de decisiones y gestión del repositorio. Por este motivo, es importante que la información provista por estas estadísticas sea información precisa y confiable, en particular los registros de acceso y descarga. Los repositorios digitales concentran una gran cantidad de enlaces entrantes y muchos contenidos de calidad por lo que resultan de mucho interés para los bots que navegan la World Wide Web. Si bien la mayoría de los bots respetan las reglas básicas establecidas en los archivos robots.txt, muchos de ellos no lo hacen e incluso hay algunos que no se identifican como tales y se hacen pasar por agentes de usuario normales. A pesar de las medidas que se toman para evitar el acceso de bots maliciosos, un número importante de estos logra filtrarse y efectuar miles de accesos indeseados. Se genera, en consecuencia, gran cantidad de datos espurios que llevan a estadísticas poco fiables y que en última instancia entorpecen el proceso de gestión del repositorio Para solucionar el problema planteado, se comenzó desarrollar una mecanismo que, a partir del análisis, permita filtrar los accesos de bots normales y bloquear los accesos de bots maliciosos o con mal comportamiento. Las pruebas iniciales con la herramienta han permitido identificar un número elevado de accesos correspondientes a bots maliciosos que, al filtrarlos, permiten obtener resultados estadísticos mucho más veraces.Statistics are an essential tool for institutional repositories which assists the decision making process and repository management. Therefore, the information they provide must be precise and reliable, specially those based on access and download logs. When a digital repository grows and brings together large amounts of incoming links and high quality content, it acquires of great significance for bots. Most bots follow the basic rules established in robots.txt files, nevertheless many do not do it, and some of them do not identify themselves as bot masquerading as normal users. Despite the measures taken to avoid access to malicious bots, a large amount of them manage to seep and make thousands of unwanted access. Therefore a large number of spurious data is generated which leads to unreliable statistics and hinders the repository management process. In order to solve this problem, a mechanism was developed to analyse, detect and filter access from malicious or misbehave bots. Initial tests with this tool allowed to identify a large number of access comming from malicious bots that, after being filtered, allows to get much more sound and reliable statistics results.Ibero-American Science and Technology Education Consortium (ISTEC)2016-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf71-77http://sedici.unlp.edu.ar/handle/10915/150998spainfo:eu-repo/semantics/reference/hdl/10915/128035info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-09-29T11:38:52Zoai:sedici.unlp.edu.ar:10915/150998Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-09-29 11:38:52.732SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Detección de bots en reportes estadísticos
title Detección de bots en reportes estadísticos
spellingShingle Detección de bots en reportes estadísticos
Catá, Juan Manuel
Bibliotecología
Ciencias Informáticas
Bots
Estadísticas
Repositorio institucional
title_short Detección de bots en reportes estadísticos
title_full Detección de bots en reportes estadísticos
title_fullStr Detección de bots en reportes estadísticos
title_full_unstemmed Detección de bots en reportes estadísticos
title_sort Detección de bots en reportes estadísticos
dc.creator.none.fl_str_mv Catá, Juan Manuel
Lira, Ariel Jorge
De Giusti, Marisa Raquel
author Catá, Juan Manuel
author_facet Catá, Juan Manuel
Lira, Ariel Jorge
De Giusti, Marisa Raquel
author_role author
author2 Lira, Ariel Jorge
De Giusti, Marisa Raquel
author2_role author
author
dc.subject.none.fl_str_mv Bibliotecología
Ciencias Informáticas
Bots
Estadísticas
Repositorio institucional
topic Bibliotecología
Ciencias Informáticas
Bots
Estadísticas
Repositorio institucional
dc.description.none.fl_txt_mv Las estadísticas de un repositorio institucional son una herramienta básica que asiste el proceso de toma de decisiones y gestión del repositorio. Por este motivo, es importante que la información provista por estas estadísticas sea información precisa y confiable, en particular los registros de acceso y descarga. Los repositorios digitales concentran una gran cantidad de enlaces entrantes y muchos contenidos de calidad por lo que resultan de mucho interés para los bots que navegan la World Wide Web. Si bien la mayoría de los bots respetan las reglas básicas establecidas en los archivos robots.txt, muchos de ellos no lo hacen e incluso hay algunos que no se identifican como tales y se hacen pasar por agentes de usuario normales. A pesar de las medidas que se toman para evitar el acceso de bots maliciosos, un número importante de estos logra filtrarse y efectuar miles de accesos indeseados. Se genera, en consecuencia, gran cantidad de datos espurios que llevan a estadísticas poco fiables y que en última instancia entorpecen el proceso de gestión del repositorio Para solucionar el problema planteado, se comenzó desarrollar una mecanismo que, a partir del análisis, permita filtrar los accesos de bots normales y bloquear los accesos de bots maliciosos o con mal comportamiento. Las pruebas iniciales con la herramienta han permitido identificar un número elevado de accesos correspondientes a bots maliciosos que, al filtrarlos, permiten obtener resultados estadísticos mucho más veraces.
Statistics are an essential tool for institutional repositories which assists the decision making process and repository management. Therefore, the information they provide must be precise and reliable, specially those based on access and download logs. When a digital repository grows and brings together large amounts of incoming links and high quality content, it acquires of great significance for bots. Most bots follow the basic rules established in robots.txt files, nevertheless many do not do it, and some of them do not identify themselves as bot masquerading as normal users. Despite the measures taken to avoid access to malicious bots, a large amount of them manage to seep and make thousands of unwanted access. Therefore a large number of spurious data is generated which leads to unreliable statistics and hinders the repository management process. In order to solve this problem, a mechanism was developed to analyse, detect and filter access from malicious or misbehave bots. Initial tests with this tool allowed to identify a large number of access comming from malicious bots that, after being filtered, allows to get much more sound and reliable statistics results.
Ibero-American Science and Technology Education Consortium (ISTEC)
description Las estadísticas de un repositorio institucional son una herramienta básica que asiste el proceso de toma de decisiones y gestión del repositorio. Por este motivo, es importante que la información provista por estas estadísticas sea información precisa y confiable, en particular los registros de acceso y descarga. Los repositorios digitales concentran una gran cantidad de enlaces entrantes y muchos contenidos de calidad por lo que resultan de mucho interés para los bots que navegan la World Wide Web. Si bien la mayoría de los bots respetan las reglas básicas establecidas en los archivos robots.txt, muchos de ellos no lo hacen e incluso hay algunos que no se identifican como tales y se hacen pasar por agentes de usuario normales. A pesar de las medidas que se toman para evitar el acceso de bots maliciosos, un número importante de estos logra filtrarse y efectuar miles de accesos indeseados. Se genera, en consecuencia, gran cantidad de datos espurios que llevan a estadísticas poco fiables y que en última instancia entorpecen el proceso de gestión del repositorio Para solucionar el problema planteado, se comenzó desarrollar una mecanismo que, a partir del análisis, permita filtrar los accesos de bots normales y bloquear los accesos de bots maliciosos o con mal comportamiento. Las pruebas iniciales con la herramienta han permitido identificar un número elevado de accesos correspondientes a bots maliciosos que, al filtrarlos, permiten obtener resultados estadísticos mucho más veraces.
publishDate 2016
dc.date.none.fl_str_mv 2016-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/150998
url http://sedici.unlp.edu.ar/handle/10915/150998
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/reference/hdl/10915/128035
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
71-77
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1844616263467270144
score 13.070432