Evaluación de la calidad de la Información extraída por wrappers, de un sitio web

Autores
Vargas, Alejandro; Sánchez Rivero, David; Valdéz, Ángel; Bernechea, Miguel; Castillo, Natalia; Colqui, Reinaldo
Año de publicación
2013
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
La complejidad creciente de la estructura y la cantidad de datos presentes en un sitio web determinado, torna necesaria la existencia de herramientas para la recuperación de información (RI), la cual se considera pertinente y adecuada, para su posterior análisis. En tal sentido los wrappers, programas para extracción de datos de la web, cumplen tal función, y pueden ser generados, mediante herramientas, en forma automática o desarrollados en forma artesanal (utilizando los lenguajes de programación python o perl, por ejemplo). Los wrappers son los encargados de transformar la información semi-estructurada (presente en un sitio web) en información estructurada, a través del lenguaje XML (eXtensible Markup Language). El carácter dinámico de los sitios web posiblemente degrade la calidad de la información extraída por los wrappers, programas que trabajan en base a ciertos criterios, como ser color, posición en la página, fuente, tags, entre otros; los cuales pueden cambiar por el dinamismo propio del sitio. Los resultados del presente trabajo, van a permitir establecer un criterio de evaluación y comparación de las calidad de los datos extraídos de un sitio web, a medida que este presenta cambio y/o modificaciones.
Eje: Bases de Datos y Minería de Datos
Red de Universidades con Carreras en Informática (RedUNCI)
Materia
Ciencias Informáticas
informática y tratamiento de datos
extracción de datos
datos semi-estructurados
calidad de datos
medidas de calidad
wrappers
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/27136

id SEDICI_6657a8a2d7fbedb41f52d25c9cc06dbb
oai_identifier_str oai:sedici.unlp.edu.ar:10915/27136
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Evaluación de la calidad de la Información extraída por wrappers, de un sitio webVargas, AlejandroSánchez Rivero, DavidValdéz, ÁngelBernechea, MiguelCastillo, NataliaColqui, ReinaldoCiencias Informáticasinformática y tratamiento de datosextracción de datosdatos semi-estructuradoscalidad de datosmedidas de calidadwrappersLa complejidad creciente de la estructura y la cantidad de datos presentes en un sitio web determinado, torna necesaria la existencia de herramientas para la recuperación de información (RI), la cual se considera pertinente y adecuada, para su posterior análisis. En tal sentido los wrappers, programas para extracción de datos de la web, cumplen tal función, y pueden ser generados, mediante herramientas, en forma automática o desarrollados en forma artesanal (utilizando los lenguajes de programación python o perl, por ejemplo). Los wrappers son los encargados de transformar la información semi-estructurada (presente en un sitio web) en información estructurada, a través del lenguaje XML (eXtensible Markup Language). El carácter dinámico de los sitios web posiblemente degrade la calidad de la información extraída por los wrappers, programas que trabajan en base a ciertos criterios, como ser color, posición en la página, fuente, tags, entre otros; los cuales pueden cambiar por el dinamismo propio del sitio. Los resultados del presente trabajo, van a permitir establecer un criterio de evaluación y comparación de las calidad de los datos extraídos de un sitio web, a medida que este presenta cambio y/o modificaciones.Eje: Bases de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI)2013-04info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf185-188http://sedici.unlp.edu.ar/handle/10915/27136spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/ar/Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-11-05T12:36:36Zoai:sedici.unlp.edu.ar:10915/27136Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-11-05 12:36:36.852SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Evaluación de la calidad de la Información extraída por wrappers, de un sitio web
title Evaluación de la calidad de la Información extraída por wrappers, de un sitio web
spellingShingle Evaluación de la calidad de la Información extraída por wrappers, de un sitio web
Vargas, Alejandro
Ciencias Informáticas
informática y tratamiento de datos
extracción de datos
datos semi-estructurados
calidad de datos
medidas de calidad
wrappers
title_short Evaluación de la calidad de la Información extraída por wrappers, de un sitio web
title_full Evaluación de la calidad de la Información extraída por wrappers, de un sitio web
title_fullStr Evaluación de la calidad de la Información extraída por wrappers, de un sitio web
title_full_unstemmed Evaluación de la calidad de la Información extraída por wrappers, de un sitio web
title_sort Evaluación de la calidad de la Información extraída por wrappers, de un sitio web
dc.creator.none.fl_str_mv Vargas, Alejandro
Sánchez Rivero, David
Valdéz, Ángel
Bernechea, Miguel
Castillo, Natalia
Colqui, Reinaldo
author Vargas, Alejandro
author_facet Vargas, Alejandro
Sánchez Rivero, David
Valdéz, Ángel
Bernechea, Miguel
Castillo, Natalia
Colqui, Reinaldo
author_role author
author2 Sánchez Rivero, David
Valdéz, Ángel
Bernechea, Miguel
Castillo, Natalia
Colqui, Reinaldo
author2_role author
author
author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
informática y tratamiento de datos
extracción de datos
datos semi-estructurados
calidad de datos
medidas de calidad
wrappers
topic Ciencias Informáticas
informática y tratamiento de datos
extracción de datos
datos semi-estructurados
calidad de datos
medidas de calidad
wrappers
dc.description.none.fl_txt_mv La complejidad creciente de la estructura y la cantidad de datos presentes en un sitio web determinado, torna necesaria la existencia de herramientas para la recuperación de información (RI), la cual se considera pertinente y adecuada, para su posterior análisis. En tal sentido los wrappers, programas para extracción de datos de la web, cumplen tal función, y pueden ser generados, mediante herramientas, en forma automática o desarrollados en forma artesanal (utilizando los lenguajes de programación python o perl, por ejemplo). Los wrappers son los encargados de transformar la información semi-estructurada (presente en un sitio web) en información estructurada, a través del lenguaje XML (eXtensible Markup Language). El carácter dinámico de los sitios web posiblemente degrade la calidad de la información extraída por los wrappers, programas que trabajan en base a ciertos criterios, como ser color, posición en la página, fuente, tags, entre otros; los cuales pueden cambiar por el dinamismo propio del sitio. Los resultados del presente trabajo, van a permitir establecer un criterio de evaluación y comparación de las calidad de los datos extraídos de un sitio web, a medida que este presenta cambio y/o modificaciones.
Eje: Bases de Datos y Minería de Datos
Red de Universidades con Carreras en Informática (RedUNCI)
description La complejidad creciente de la estructura y la cantidad de datos presentes en un sitio web determinado, torna necesaria la existencia de herramientas para la recuperación de información (RI), la cual se considera pertinente y adecuada, para su posterior análisis. En tal sentido los wrappers, programas para extracción de datos de la web, cumplen tal función, y pueden ser generados, mediante herramientas, en forma automática o desarrollados en forma artesanal (utilizando los lenguajes de programación python o perl, por ejemplo). Los wrappers son los encargados de transformar la información semi-estructurada (presente en un sitio web) en información estructurada, a través del lenguaje XML (eXtensible Markup Language). El carácter dinámico de los sitios web posiblemente degrade la calidad de la información extraída por los wrappers, programas que trabajan en base a ciertos criterios, como ser color, posición en la página, fuente, tags, entre otros; los cuales pueden cambiar por el dinamismo propio del sitio. Los resultados del presente trabajo, van a permitir establecer un criterio de evaluación y comparación de las calidad de los datos extraídos de un sitio web, a medida que este presenta cambio y/o modificaciones.
publishDate 2013
dc.date.none.fl_str_mv 2013-04
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Objeto de conferencia
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/27136
url http://sedici.unlp.edu.ar/handle/10915/27136
dc.language.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)
dc.format.none.fl_str_mv application/pdf
185-188
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1847978384233070592
score 13.087074