Detección de bots en reportes estadísticos

Autores
Catá, Juan Manuel; Lira, Ariel Jorge; De Giusti, Marisa Raquel
Año de publicación
2016
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Las estadísticas de un repositorio institucional son una herramienta básica que asiste el proceso de toma de decisiones y gestión del repositorio. Por este motivo, es importante que la información provista por estas estadísticas sea información precisa y confiable, en particular los registros de acceso y descarga. Los repositorios digitales concentran una gran cantidad de enlaces entrantes y muchos contenidos de calidad por lo que resultan de mucho interés para los bots que navegan la World Wide Web. Si bien la mayoría de los bots respetan las reglas básicas establecidas en los archivos robots.txt, muchos de ellos no lo hacen e incluso hay algunos que no se identifican como tales y se hacen pasar por agentes de usuario normales. A pesar de las medidas que se toman para evitar el acceso de bots maliciosos, un número importante de estos logra filtrarse y efectuar miles de accesos indeseados. Se genera, en consecuencia, gran cantidad de datos espurios que llevan a estadísticas poco fiables y que en última instancia entorpecen el proceso de gestión del repositorio Para solucionar el problema planteado, se comenzó desarrollar una mecanismo que, a partir del análisis, permita filtrar los accesos de bots normales y bloquear los accesos de bots maliciosos o con mal comportamiento.
Statistics are an essential tool for institutional repositories which assists the decision making process and repository management. Therefore, the information they provide must be precise and reliable, specially those based on access and download logs. When a digital repository grows and brings together large amounts of incoming links and high quality content, it acquires of great significance for bots. Most bots follow the basic rules established in robots.txt files, nevertheless many do not do it, and some of them do not identify themselves as bot masquerading as normal users. Despite the measures taken to avoid access to malicious bots, a large amount of them manage to seep and make thousands of unwanted access. Therefore a large number of spurious data is generated which leads to unreliable statistics and hinders the repository management process. In order to solve this problem, a mechanism was developed to analyse, detect and filter access from malicious or misbehave bots. Initial tests with this tool allowed to identify a large number of access comming from malicious bots that, after being filtered, allows to get much more sound and reliable statistics results.
Materia
Ciencias de la Computación e Información
Estadísticas
repositorio institucional
accesos de bots
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-sa/4.0/
Repositorio
CIC Digital (CICBA)
Institución
Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
OAI Identificador
oai:digital.cic.gba.gob.ar:11746/4996

id CICBA_d1b7287a9d1979439a7fe3429fe2ed87
oai_identifier_str oai:digital.cic.gba.gob.ar:11746/4996
network_acronym_str CICBA
repository_id_str 9441
network_name_str CIC Digital (CICBA)
spelling Detección de bots en reportes estadísticosCatá, Juan ManuelLira, Ariel JorgeDe Giusti, Marisa RaquelCiencias de la Computación e InformaciónEstadísticasrepositorio institucionalaccesos de botsLas estadísticas de un repositorio institucional son una herramienta básica que asiste el proceso de toma de decisiones y gestión del repositorio. Por este motivo, es importante que la información provista por estas estadísticas sea información precisa y confiable, en particular los registros de acceso y descarga. Los repositorios digitales concentran una gran cantidad de enlaces entrantes y muchos contenidos de calidad por lo que resultan de mucho interés para los bots que navegan la World Wide Web. Si bien la mayoría de los bots respetan las reglas básicas establecidas en los archivos robots.txt, muchos de ellos no lo hacen e incluso hay algunos que no se identifican como tales y se hacen pasar por agentes de usuario normales. A pesar de las medidas que se toman para evitar el acceso de bots maliciosos, un número importante de estos logra filtrarse y efectuar miles de accesos indeseados. Se genera, en consecuencia, gran cantidad de datos espurios que llevan a estadísticas poco fiables y que en última instancia entorpecen el proceso de gestión del repositorio Para solucionar el problema planteado, se comenzó desarrollar una mecanismo que, a partir del análisis, permita filtrar los accesos de bots normales y bloquear los accesos de bots maliciosos o con mal comportamiento.Statistics are an essential tool for institutional repositories which assists the decision making process and repository management. Therefore, the information they provide must be precise and reliable, specially those based on access and download logs. When a digital repository grows and brings together large amounts of incoming links and high quality content, it acquires of great significance for bots. Most bots follow the basic rules established in robots.txt files, nevertheless many do not do it, and some of them do not identify themselves as bot masquerading as normal users. Despite the measures taken to avoid access to malicious bots, a large amount of them manage to seep and make thousands of unwanted access. Therefore a large number of spurious data is generated which leads to unreliable statistics and hinders the repository management process. In order to solve this problem, a mechanism was developed to analyse, detect and filter access from malicious or misbehave bots. Initial tests with this tool allowed to identify a large number of access comming from malicious bots that, after being filtered, allows to get much more sound and reliable statistics results.2016-10info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfapplication/pdfhttps://digital.cic.gba.gob.ar/handle/11746/4996spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-sa/4.0/reponame:CIC Digital (CICBA)instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Airesinstacron:CICBA2025-09-29T13:40:12Zoai:digital.cic.gba.gob.ar:11746/4996Institucionalhttp://digital.cic.gba.gob.arOrganismo científico-tecnológicoNo correspondehttp://digital.cic.gba.gob.ar/oai/snrdmarisa.degiusti@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:94412025-09-29 13:40:13.045CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Airesfalse
dc.title.none.fl_str_mv Detección de bots en reportes estadísticos
title Detección de bots en reportes estadísticos
spellingShingle Detección de bots en reportes estadísticos
Catá, Juan Manuel
Ciencias de la Computación e Información
Estadísticas
repositorio institucional
accesos de bots
title_short Detección de bots en reportes estadísticos
title_full Detección de bots en reportes estadísticos
title_fullStr Detección de bots en reportes estadísticos
title_full_unstemmed Detección de bots en reportes estadísticos
title_sort Detección de bots en reportes estadísticos
dc.creator.none.fl_str_mv Catá, Juan Manuel
Lira, Ariel Jorge
De Giusti, Marisa Raquel
author Catá, Juan Manuel
author_facet Catá, Juan Manuel
Lira, Ariel Jorge
De Giusti, Marisa Raquel
author_role author
author2 Lira, Ariel Jorge
De Giusti, Marisa Raquel
author2_role author
author
dc.subject.none.fl_str_mv Ciencias de la Computación e Información
Estadísticas
repositorio institucional
accesos de bots
topic Ciencias de la Computación e Información
Estadísticas
repositorio institucional
accesos de bots
dc.description.none.fl_txt_mv Las estadísticas de un repositorio institucional son una herramienta básica que asiste el proceso de toma de decisiones y gestión del repositorio. Por este motivo, es importante que la información provista por estas estadísticas sea información precisa y confiable, en particular los registros de acceso y descarga. Los repositorios digitales concentran una gran cantidad de enlaces entrantes y muchos contenidos de calidad por lo que resultan de mucho interés para los bots que navegan la World Wide Web. Si bien la mayoría de los bots respetan las reglas básicas establecidas en los archivos robots.txt, muchos de ellos no lo hacen e incluso hay algunos que no se identifican como tales y se hacen pasar por agentes de usuario normales. A pesar de las medidas que se toman para evitar el acceso de bots maliciosos, un número importante de estos logra filtrarse y efectuar miles de accesos indeseados. Se genera, en consecuencia, gran cantidad de datos espurios que llevan a estadísticas poco fiables y que en última instancia entorpecen el proceso de gestión del repositorio Para solucionar el problema planteado, se comenzó desarrollar una mecanismo que, a partir del análisis, permita filtrar los accesos de bots normales y bloquear los accesos de bots maliciosos o con mal comportamiento.
Statistics are an essential tool for institutional repositories which assists the decision making process and repository management. Therefore, the information they provide must be precise and reliable, specially those based on access and download logs. When a digital repository grows and brings together large amounts of incoming links and high quality content, it acquires of great significance for bots. Most bots follow the basic rules established in robots.txt files, nevertheless many do not do it, and some of them do not identify themselves as bot masquerading as normal users. Despite the measures taken to avoid access to malicious bots, a large amount of them manage to seep and make thousands of unwanted access. Therefore a large number of spurious data is generated which leads to unreliable statistics and hinders the repository management process. In order to solve this problem, a mechanism was developed to analyse, detect and filter access from malicious or misbehave bots. Initial tests with this tool allowed to identify a large number of access comming from malicious bots that, after being filtered, allows to get much more sound and reliable statistics results.
description Las estadísticas de un repositorio institucional son una herramienta básica que asiste el proceso de toma de decisiones y gestión del repositorio. Por este motivo, es importante que la información provista por estas estadísticas sea información precisa y confiable, en particular los registros de acceso y descarga. Los repositorios digitales concentran una gran cantidad de enlaces entrantes y muchos contenidos de calidad por lo que resultan de mucho interés para los bots que navegan la World Wide Web. Si bien la mayoría de los bots respetan las reglas básicas establecidas en los archivos robots.txt, muchos de ellos no lo hacen e incluso hay algunos que no se identifican como tales y se hacen pasar por agentes de usuario normales. A pesar de las medidas que se toman para evitar el acceso de bots maliciosos, un número importante de estos logra filtrarse y efectuar miles de accesos indeseados. Se genera, en consecuencia, gran cantidad de datos espurios que llevan a estadísticas poco fiables y que en última instancia entorpecen el proceso de gestión del repositorio Para solucionar el problema planteado, se comenzó desarrollar una mecanismo que, a partir del análisis, permita filtrar los accesos de bots normales y bloquear los accesos de bots maliciosos o con mal comportamiento.
publishDate 2016
dc.date.none.fl_str_mv 2016-10
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv https://digital.cic.gba.gob.ar/handle/11746/4996
url https://digital.cic.gba.gob.ar/handle/11746/4996
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-sa/4.0/
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.source.none.fl_str_mv reponame:CIC Digital (CICBA)
instname:Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
instacron:CICBA
reponame_str CIC Digital (CICBA)
collection CIC Digital (CICBA)
instname_str Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
instacron_str CICBA
institution CICBA
repository.name.fl_str_mv CIC Digital (CICBA) - Comisión de Investigaciones Científicas de la Provincia de Buenos Aires
repository.mail.fl_str_mv marisa.degiusti@sedici.unlp.edu.ar
_version_ 1844618608602251264
score 13.070432