Evaluación de la calidad de la Información extraída por wrappers, de un sitio web
- Autores
- Vargas, Alejandro; Sánchez Rivero, David; Valdéz, Ángel; Bernechea, Miguel; Castillo, Natalia; Colqui, Reinaldo
- Año de publicación
- 2013
- Idioma
- español castellano
- Tipo de recurso
- documento de conferencia
- Estado
- versión publicada
- Descripción
- La complejidad creciente de la estructura y la cantidad de datos presentes en un sitio web determinado, torna necesaria la existencia de herramientas para la recuperación de información (RI), la cual se considera pertinente y adecuada, para su posterior análisis. En tal sentido los wrappers, programas para extracción de datos de la web, cumplen tal función, y pueden ser generados, mediante herramientas, en forma automática o desarrollados en forma artesanal (utilizando los lenguajes de programación python o perl, por ejemplo). Los wrappers son los encargados de transformar la información semi-estructurada (presente en un sitio web) en información estructurada, a través del lenguaje XML (eXtensible Markup Language). El carácter dinámico de los sitios web posiblemente degrade la calidad de la información extraída por los wrappers, programas que trabajan en base a ciertos criterios, como ser color, posición en la página, fuente, tags, entre otros; los cuales pueden cambiar por el dinamismo propio del sitio. Los resultados del presente trabajo, van a permitir establecer un criterio de evaluación y comparación de las calidad de los datos extraídos de un sitio web, a medida que este presenta cambio y/o modificaciones.
Eje: Bases de Datos y Minería de Datos
Red de Universidades con Carreras en Informática (RedUNCI) - Materia
-
Ciencias Informáticas
informática y tratamiento de datos
extracción de datos
datos semi-estructurados
calidad de datos
medidas de calidad
wrappers - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- http://creativecommons.org/licenses/by-nc-sa/2.5/ar/
- Repositorio
.jpg)
- Institución
- Universidad Nacional de La Plata
- OAI Identificador
- oai:sedici.unlp.edu.ar:10915/27136
Ver los metadatos del registro completo
| id |
SEDICI_6657a8a2d7fbedb41f52d25c9cc06dbb |
|---|---|
| oai_identifier_str |
oai:sedici.unlp.edu.ar:10915/27136 |
| network_acronym_str |
SEDICI |
| repository_id_str |
1329 |
| network_name_str |
SEDICI (UNLP) |
| spelling |
Evaluación de la calidad de la Información extraída por wrappers, de un sitio webVargas, AlejandroSánchez Rivero, DavidValdéz, ÁngelBernechea, MiguelCastillo, NataliaColqui, ReinaldoCiencias Informáticasinformática y tratamiento de datosextracción de datosdatos semi-estructuradoscalidad de datosmedidas de calidadwrappersLa complejidad creciente de la estructura y la cantidad de datos presentes en un sitio web determinado, torna necesaria la existencia de herramientas para la recuperación de información (RI), la cual se considera pertinente y adecuada, para su posterior análisis. En tal sentido los wrappers, programas para extracción de datos de la web, cumplen tal función, y pueden ser generados, mediante herramientas, en forma automática o desarrollados en forma artesanal (utilizando los lenguajes de programación python o perl, por ejemplo). Los wrappers son los encargados de transformar la información semi-estructurada (presente en un sitio web) en información estructurada, a través del lenguaje XML (eXtensible Markup Language). El carácter dinámico de los sitios web posiblemente degrade la calidad de la información extraída por los wrappers, programas que trabajan en base a ciertos criterios, como ser color, posición en la página, fuente, tags, entre otros; los cuales pueden cambiar por el dinamismo propio del sitio. Los resultados del presente trabajo, van a permitir establecer un criterio de evaluación y comparación de las calidad de los datos extraídos de un sitio web, a medida que este presenta cambio y/o modificaciones.Eje: Bases de Datos y Minería de DatosRed de Universidades con Carreras en Informática (RedUNCI)2013-04info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf185-188http://sedici.unlp.edu.ar/handle/10915/27136spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/ar/Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2025-11-05T12:36:36Zoai:sedici.unlp.edu.ar:10915/27136Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292025-11-05 12:36:36.852SEDICI (UNLP) - Universidad Nacional de La Platafalse |
| dc.title.none.fl_str_mv |
Evaluación de la calidad de la Información extraída por wrappers, de un sitio web |
| title |
Evaluación de la calidad de la Información extraída por wrappers, de un sitio web |
| spellingShingle |
Evaluación de la calidad de la Información extraída por wrappers, de un sitio web Vargas, Alejandro Ciencias Informáticas informática y tratamiento de datos extracción de datos datos semi-estructurados calidad de datos medidas de calidad wrappers |
| title_short |
Evaluación de la calidad de la Información extraída por wrappers, de un sitio web |
| title_full |
Evaluación de la calidad de la Información extraída por wrappers, de un sitio web |
| title_fullStr |
Evaluación de la calidad de la Información extraída por wrappers, de un sitio web |
| title_full_unstemmed |
Evaluación de la calidad de la Información extraída por wrappers, de un sitio web |
| title_sort |
Evaluación de la calidad de la Información extraída por wrappers, de un sitio web |
| dc.creator.none.fl_str_mv |
Vargas, Alejandro Sánchez Rivero, David Valdéz, Ángel Bernechea, Miguel Castillo, Natalia Colqui, Reinaldo |
| author |
Vargas, Alejandro |
| author_facet |
Vargas, Alejandro Sánchez Rivero, David Valdéz, Ángel Bernechea, Miguel Castillo, Natalia Colqui, Reinaldo |
| author_role |
author |
| author2 |
Sánchez Rivero, David Valdéz, Ángel Bernechea, Miguel Castillo, Natalia Colqui, Reinaldo |
| author2_role |
author author author author author |
| dc.subject.none.fl_str_mv |
Ciencias Informáticas informática y tratamiento de datos extracción de datos datos semi-estructurados calidad de datos medidas de calidad wrappers |
| topic |
Ciencias Informáticas informática y tratamiento de datos extracción de datos datos semi-estructurados calidad de datos medidas de calidad wrappers |
| dc.description.none.fl_txt_mv |
La complejidad creciente de la estructura y la cantidad de datos presentes en un sitio web determinado, torna necesaria la existencia de herramientas para la recuperación de información (RI), la cual se considera pertinente y adecuada, para su posterior análisis. En tal sentido los wrappers, programas para extracción de datos de la web, cumplen tal función, y pueden ser generados, mediante herramientas, en forma automática o desarrollados en forma artesanal (utilizando los lenguajes de programación python o perl, por ejemplo). Los wrappers son los encargados de transformar la información semi-estructurada (presente en un sitio web) en información estructurada, a través del lenguaje XML (eXtensible Markup Language). El carácter dinámico de los sitios web posiblemente degrade la calidad de la información extraída por los wrappers, programas que trabajan en base a ciertos criterios, como ser color, posición en la página, fuente, tags, entre otros; los cuales pueden cambiar por el dinamismo propio del sitio. Los resultados del presente trabajo, van a permitir establecer un criterio de evaluación y comparación de las calidad de los datos extraídos de un sitio web, a medida que este presenta cambio y/o modificaciones. Eje: Bases de Datos y Minería de Datos Red de Universidades con Carreras en Informática (RedUNCI) |
| description |
La complejidad creciente de la estructura y la cantidad de datos presentes en un sitio web determinado, torna necesaria la existencia de herramientas para la recuperación de información (RI), la cual se considera pertinente y adecuada, para su posterior análisis. En tal sentido los wrappers, programas para extracción de datos de la web, cumplen tal función, y pueden ser generados, mediante herramientas, en forma automática o desarrollados en forma artesanal (utilizando los lenguajes de programación python o perl, por ejemplo). Los wrappers son los encargados de transformar la información semi-estructurada (presente en un sitio web) en información estructurada, a través del lenguaje XML (eXtensible Markup Language). El carácter dinámico de los sitios web posiblemente degrade la calidad de la información extraída por los wrappers, programas que trabajan en base a ciertos criterios, como ser color, posición en la página, fuente, tags, entre otros; los cuales pueden cambiar por el dinamismo propio del sitio. Los resultados del presente trabajo, van a permitir establecer un criterio de evaluación y comparación de las calidad de los datos extraídos de un sitio web, a medida que este presenta cambio y/o modificaciones. |
| publishDate |
2013 |
| dc.date.none.fl_str_mv |
2013-04 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia |
| format |
conferenceObject |
| status_str |
publishedVersion |
| dc.identifier.none.fl_str_mv |
http://sedici.unlp.edu.ar/handle/10915/27136 |
| url |
http://sedici.unlp.edu.ar/handle/10915/27136 |
| dc.language.none.fl_str_mv |
spa |
| language |
spa |
| dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by-nc-sa/2.5/ar/ Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5) |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/ar/ Creative Commons Attribution-NonCommercial-ShareAlike 2.5 Argentina (CC BY-NC-SA 2.5) |
| dc.format.none.fl_str_mv |
application/pdf 185-188 |
| dc.source.none.fl_str_mv |
reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP |
| reponame_str |
SEDICI (UNLP) |
| collection |
SEDICI (UNLP) |
| instname_str |
Universidad Nacional de La Plata |
| instacron_str |
UNLP |
| institution |
UNLP |
| repository.name.fl_str_mv |
SEDICI (UNLP) - Universidad Nacional de La Plata |
| repository.mail.fl_str_mv |
alira@sedici.unlp.edu.ar |
| _version_ |
1847978384233070592 |
| score |
13.087074 |