Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a la organización de un repositorio semántico en SeDiCI: preliminares

Autores: De Giusti, Marisa Raquel; Sobrado, Ariel; Vosou, Agustín; Villarreal, Gonzalo Luján
Año de publicación: 2009
Idioma: español castellano
Tipo de recurso: documento de conferencia
Estado: versión publicada
Descripción: Se presenta una plataforma de recolección destinada a relacionar y unificar información disponible en distintos lugares de la Web-que siguen diferentes convenciones-para crear un repositorio temático que puedan navegar los usuarios. La plataforma será usada en el Servicio de Difusión de la Creación Intelectual (SeDiCI) y utiliza de manera combinada ontologías y tesauros para brindar información mejor clasificada. Actualmente, la información está diseminada en recursos de la Web y los motores de búsqueda tradicionales le devuelven al usuario listas rankeadas sin proveer ninguna relación semántica entre documentos. Los usuarios pasan gran cantidad de tiempo para vincular unos documentos con otros y saber cuáles atacan el dominio completo del problema; recién al localizar las semejanzas y las diferencias entre fragmentos de información éstas se trasladan a su trabajo y sirven para la creación de nuevo conocimiento. La plataforma propuesta separa los módulos de funcionamiento de los diferentes dominios de interés (temas) para permitir su utilización en distintas áreas de conocimiento. El desarrollo incluye dos agentes que recorren las URLs almacenadas en una base de datos (uno responsable de poblar una ontología y otro de obtener URLs relacionadas), un módulo capaz de reconocer las páginas marcadas, interpretar las etiquetas y proveer las reglas para extraer la información y guardarla en un fichero RDF; tras esta etapa se aplica una homogeneización y la información así transformada se clasifica en función de una ontología de dominio. La plataforma vuelve más eficientes los procesos de extracción automática y búsqueda de información en fuentes heterogéneas que representan los mismos conceptos siguiendo distintas convenciones.
Presentation of a web collection platform designed to relate and unify information available on different standard web sources with a view to creating a user-browseable thematic repository. The platform will be used at the Servicio de Difusión de la Creación Intelectual (SeDiCI) [Intellectual Creation Diffusion Service] combined with ontologies and thesaurus to provide improved data sorting. Data is currently spread on web resources and traditional search engines return ranked lists with no semantic relation among documents. Users have to spend a great deal of time relating documents and trying to figure out which ones fully address the issue domain. It is only after locating similarities and differences that information fragments are applied to the user's work, enabling knowledge creation. The proposed platform sorts out the different theme domain functioning modules to allow their use in various knowledge areas. Development includes two agents that searches data base stored URLs, one is capable of identifying bookmarked pages, interpreting labels and providing rules for extracting information and storing it in a RDF data file; on the other hand, the other agent is in charge of getting related URLs from the given one. After this stage, homogenization is applied and transformed information is sorted out according to domain ontologies. The platform allows for more efficient automatic extraction processes and information search among heterogeneous sources that represent the same concepts using different standards.
Dirección PREBI-SEDICI
Materia: Informática
Bibliotecología
SeDiCI; repositorio semántico; ontologías y tesauros
tecnología de la información
Nivel de accesibilidad: acceso abierto
Condiciones de uso: http://creativecommons.org/licenses/by/3.0/
Repositorio
Institución: Universidad Nacional de La Plata
OAI Identificador: oai:sedici.unlp.edu.ar:10915/5555

Acceder

id	SEDICI_a77d03066de0e901796449606deffb28
oai_identifier_str	oai:sedici.unlp.edu.ar:10915/5555
network_acronym_str	SEDICI
repository_id_str	1329
network_name_str	SEDICI (UNLP)
spelling	Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a la organización de un repositorio semántico en SeDiCI: preliminaresDe Giusti, Marisa RaquelSobrado, ArielVosou, AgustínVillarreal, Gonzalo LujánInformáticaBibliotecologíaSeDiCI; repositorio semántico; ontologías y tesaurostecnología de la informaciónSe presenta una plataforma de recolección destinada a relacionar y unificar información disponible en distintos lugares de la Web-que siguen diferentes convenciones-para crear un repositorio temático que puedan navegar los usuarios. La plataforma será usada en el Servicio de Difusión de la Creación Intelectual (SeDiCI) y utiliza de manera combinada ontologías y tesauros para brindar información mejor clasificada. Actualmente, la información está diseminada en recursos de la Web y los motores de búsqueda tradicionales le devuelven al usuario listas rankeadas sin proveer ninguna relación semántica entre documentos. Los usuarios pasan gran cantidad de tiempo para vincular unos documentos con otros y saber cuáles atacan el dominio completo del problema; recién al localizar las semejanzas y las diferencias entre fragmentos de información éstas se trasladan a su trabajo y sirven para la creación de nuevo conocimiento. La plataforma propuesta separa los módulos de funcionamiento de los diferentes dominios de interés (temas) para permitir su utilización en distintas áreas de conocimiento. El desarrollo incluye dos agentes que recorren las URLs almacenadas en una base de datos (uno responsable de poblar una ontología y otro de obtener URLs relacionadas), un módulo capaz de reconocer las páginas marcadas, interpretar las etiquetas y proveer las reglas para extraer la información y guardarla en un fichero RDF; tras esta etapa se aplica una homogeneización y la información así transformada se clasifica en función de una ontología de dominio. La plataforma vuelve más eficientes los procesos de extracción automática y búsqueda de información en fuentes heterogéneas que representan los mismos conceptos siguiendo distintas convenciones.Presentation of a web collection platform designed to relate and unify information available on different standard web sources with a view to creating a user-browseable thematic repository. The platform will be used at the Servicio de Difusión de la Creación Intelectual (SeDiCI) [Intellectual Creation Diffusion Service] combined with ontologies and thesaurus to provide improved data sorting. Data is currently spread on web resources and traditional search engines return ranked lists with no semantic relation among documents. Users have to spend a great deal of time relating documents and trying to figure out which ones fully address the issue domain. It is only after locating similarities and differences that information fragments are applied to the user's work, enabling knowledge creation. The proposed platform sorts out the different theme domain functioning modules to allow their use in various knowledge areas. Development includes two agents that searches data base stored URLs, one is capable of identifying bookmarked pages, interpreting labels and providing rules for extracting information and storing it in a RDF data file; on the other hand, the other agent is in charge of getting related URLs from the given one. After this stage, homogenization is applied and transformed information is sorted out according to domain ontologies. The platform allows for more efficient automatic extraction processes and information search among heterogeneous sources that represent the same concepts using different standards.Dirección PREBI-SEDICI2009info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionObjeto de conferenciahttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdfhttp://sedici.unlp.edu.ar/handle/10915/5555spainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/3.0/Creative Commons Attribution 3.0 Unported (CC BY 3.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-05-27T10:44:26Zoai:sedici.unlp.edu.ar:10915/5555Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-05-27 10:44:26.68SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv	Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a la organización de un repositorio semántico en SeDiCI: preliminares
title	Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a la organización de un repositorio semántico en SeDiCI: preliminares
spellingShingle	Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a la organización de un repositorio semántico en SeDiCI: preliminares De Giusti, Marisa Raquel Informática Bibliotecología SeDiCI; repositorio semántico; ontologías y tesauros tecnología de la información
title_short	Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a la organización de un repositorio semántico en SeDiCI: preliminares
title_full	Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a la organización de un repositorio semántico en SeDiCI: preliminares
title_fullStr	Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a la organización de un repositorio semántico en SeDiCI: preliminares
title_full_unstemmed	Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a la organización de un repositorio semántico en SeDiCI: preliminares
title_sort	Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a la organización de un repositorio semántico en SeDiCI: preliminares
dc.creator.none.fl_str_mv	De Giusti, Marisa Raquel Sobrado, Ariel Vosou, Agustín Villarreal, Gonzalo Luján
author	De Giusti, Marisa Raquel
author_facet	De Giusti, Marisa Raquel Sobrado, Ariel Vosou, Agustín Villarreal, Gonzalo Luján
author_role	author
author2	Sobrado, Ariel Vosou, Agustín Villarreal, Gonzalo Luján
author2_role	author author author
dc.subject.none.fl_str_mv	Informática Bibliotecología SeDiCI; repositorio semántico; ontologías y tesauros tecnología de la información
topic	Informática Bibliotecología SeDiCI; repositorio semántico; ontologías y tesauros tecnología de la información
dc.description.none.fl_txt_mv	Se presenta una plataforma de recolección destinada a relacionar y unificar información disponible en distintos lugares de la Web-que siguen diferentes convenciones-para crear un repositorio temático que puedan navegar los usuarios. La plataforma será usada en el Servicio de Difusión de la Creación Intelectual (SeDiCI) y utiliza de manera combinada ontologías y tesauros para brindar información mejor clasificada. Actualmente, la información está diseminada en recursos de la Web y los motores de búsqueda tradicionales le devuelven al usuario listas rankeadas sin proveer ninguna relación semántica entre documentos. Los usuarios pasan gran cantidad de tiempo para vincular unos documentos con otros y saber cuáles atacan el dominio completo del problema; recién al localizar las semejanzas y las diferencias entre fragmentos de información éstas se trasladan a su trabajo y sirven para la creación de nuevo conocimiento. La plataforma propuesta separa los módulos de funcionamiento de los diferentes dominios de interés (temas) para permitir su utilización en distintas áreas de conocimiento. El desarrollo incluye dos agentes que recorren las URLs almacenadas en una base de datos (uno responsable de poblar una ontología y otro de obtener URLs relacionadas), un módulo capaz de reconocer las páginas marcadas, interpretar las etiquetas y proveer las reglas para extraer la información y guardarla en un fichero RDF; tras esta etapa se aplica una homogeneización y la información así transformada se clasifica en función de una ontología de dominio. La plataforma vuelve más eficientes los procesos de extracción automática y búsqueda de información en fuentes heterogéneas que representan los mismos conceptos siguiendo distintas convenciones. Presentation of a web collection platform designed to relate and unify information available on different standard web sources with a view to creating a user-browseable thematic repository. The platform will be used at the Servicio de Difusión de la Creación Intelectual (SeDiCI) [Intellectual Creation Diffusion Service] combined with ontologies and thesaurus to provide improved data sorting. Data is currently spread on web resources and traditional search engines return ranked lists with no semantic relation among documents. Users have to spend a great deal of time relating documents and trying to figure out which ones fully address the issue domain. It is only after locating similarities and differences that information fragments are applied to the user's work, enabling knowledge creation. The proposed platform sorts out the different theme domain functioning modules to allow their use in various knowledge areas. Development includes two agents that searches data base stored URLs, one is capable of identifying bookmarked pages, interpreting labels and providing rules for extracting information and storing it in a RDF data file; on the other hand, the other agent is in charge of getting related URLs from the given one. After this stage, homogenization is applied and transformed information is sorted out according to domain ontologies. The platform allows for more efficient automatic extraction processes and information search among heterogeneous sources that represent the same concepts using different standards. Dirección PREBI-SEDICI
description	Se presenta una plataforma de recolección destinada a relacionar y unificar información disponible en distintos lugares de la Web-que siguen diferentes convenciones-para crear un repositorio temático que puedan navegar los usuarios. La plataforma será usada en el Servicio de Difusión de la Creación Intelectual (SeDiCI) y utiliza de manera combinada ontologías y tesauros para brindar información mejor clasificada. Actualmente, la información está diseminada en recursos de la Web y los motores de búsqueda tradicionales le devuelven al usuario listas rankeadas sin proveer ninguna relación semántica entre documentos. Los usuarios pasan gran cantidad de tiempo para vincular unos documentos con otros y saber cuáles atacan el dominio completo del problema; recién al localizar las semejanzas y las diferencias entre fragmentos de información éstas se trasladan a su trabajo y sirven para la creación de nuevo conocimiento. La plataforma propuesta separa los módulos de funcionamiento de los diferentes dominios de interés (temas) para permitir su utilización en distintas áreas de conocimiento. El desarrollo incluye dos agentes que recorren las URLs almacenadas en una base de datos (uno responsable de poblar una ontología y otro de obtener URLs relacionadas), un módulo capaz de reconocer las páginas marcadas, interpretar las etiquetas y proveer las reglas para extraer la información y guardarla en un fichero RDF; tras esta etapa se aplica una homogeneización y la información así transformada se clasifica en función de una ontología de dominio. La plataforma vuelve más eficientes los procesos de extracción automática y búsqueda de información en fuentes heterogéneas que representan los mismos conceptos siguiendo distintas convenciones.
publishDate	2009
dc.date.none.fl_str_mv	2009
dc.type.none.fl_str_mv	info:eu-repo/semantics/conferenceObject info:eu-repo/semantics/publishedVersion Objeto de conferencia http://purl.org/coar/resource_type/c_5794 info:ar-repo/semantics/documentoDeConferencia
format	conferenceObject
status_str	publishedVersion
dc.identifier.none.fl_str_mv	http://sedici.unlp.edu.ar/handle/10915/5555
url	http://sedici.unlp.edu.ar/handle/10915/5555
dc.language.none.fl_str_mv	spa
language	spa
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by/3.0/ Creative Commons Attribution 3.0 Unported (CC BY 3.0)
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by/3.0/ Creative Commons Attribution 3.0 Unported (CC BY 3.0)
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:SEDICI (UNLP) instname:Universidad Nacional de La Plata instacron:UNLP
reponame_str	SEDICI (UNLP)
collection	SEDICI (UNLP)
instname_str	Universidad Nacional de La Plata
instacron_str	UNLP
institution	UNLP
repository.name.fl_str_mv	SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv	alira@sedici.unlp.edu.ar
_version_	1866371160916099072
score	13.040872

Plataforma de recolección en fuentes heterogéneas de la web y su aplicación a la organización de un repositorio semántico en SeDiCI: preliminares

Publicaciones similares