News Style Corpus v2

Autores
Przybiła, Piotr; Soto, Axel Juan
Año de publicación
2022
Idioma
inglés
Tipo de recurso
conjunto de datos
Estado
Descripción
El corpus utilizado en esta investigación contiene 95.900 documentos de 199 fuentes. News Style Corpus v2 se basa en un corpus anterior (https://github.com/piotrmp/fakestyle), utilizando el trabajo de PolitiFact (https://www.politifact.com/punditfact/article/2017/apr/20/politifacts-guide-fake-news-websites-and-what-they/) y Pew Research Center (https://www.journalism.org/2014/10/21/political-polarization-media-habits/) para evaluaciones de credibilidad en función de su origen. Esta versión refina la anterior mediante la extracción de texto sin formato a través de la biblioteca unfluff (https://github.com/ageitgey/node-unfluff) y la eliminación de documentos con contenido insuficiente.
Fil: Przybiła, Piotr. Polish Academy of Sciences; Argentina
Fil: Soto, Axel Juan. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina
Nivel de accesibilidad
acceso abierto
Condiciones de uso
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio
CONICET Digital (CONICET)
Institución
Consejo Nacional de Investigaciones Científicas y Técnicas
OAI Identificador
oai:ri.conicet.gov.ar:11336/162377

id CONICETDig_ab35efa05cb153374718695bcdd4c9f6
oai_identifier_str oai:ri.conicet.gov.ar:11336/162377
network_acronym_str CONICETDig
repository_id_str 3498
network_name_str CONICET Digital (CONICET)
spelling News Style Corpus v2Przybiła, PiotrSoto, Axel Juanhttps://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1El corpus utilizado en esta investigación contiene 95.900 documentos de 199 fuentes. News Style Corpus v2 se basa en un corpus anterior (https://github.com/piotrmp/fakestyle), utilizando el trabajo de PolitiFact (https://www.politifact.com/punditfact/article/2017/apr/20/politifacts-guide-fake-news-websites-and-what-they/) y Pew Research Center (https://www.journalism.org/2014/10/21/political-polarization-media-habits/) para evaluaciones de credibilidad en función de su origen. Esta versión refina la anterior mediante la extracción de texto sin formato a través de la biblioteca unfluff (https://github.com/ageitgey/node-unfluff) y la eliminación de documentos con contenido insuficiente.Fil: Przybiła, Piotr. Polish Academy of Sciences; ArgentinaFil: Soto, Axel Juan. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina2022info:ar-repo/semantics/conjuntoDeDatosv1.0info:eu-repo/semantics/dataSettext/plainhttp://hdl.handle.net/11336/162377Przybiła, Piotr; Soto, Axel Juan; (2022): News Style Corpus v2. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/162377CONICET DigitalCONICETenginfo:eu-repo/grantAgreement/POLISH NATIONAL AGENCY FOR ACADEMIC EXCHANGE/PPN/PPO/2018/1/00006info:eu-repo/grantAgreement/Google Limited Liability Company (google Llc)/PPN/PPO/2018/1/00006info:eu-repo/grantAgreement/Ministerio de Ciencia, Tecnología e Innovación Productiva/PPN/PPO/2018/1/00006info:eu-repo/grantAgreement/POZNAN SUPERCOMPUTING AND NETWORKING CENTER/PPN/PPO/2018/1/00006info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T09:40:06Zoai:ri.conicet.gov.ar:11336/162377instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 09:40:07.094CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse
dc.title.none.fl_str_mv News Style Corpus v2
title News Style Corpus v2
spellingShingle News Style Corpus v2
Przybiła, Piotr
title_short News Style Corpus v2
title_full News Style Corpus v2
title_fullStr News Style Corpus v2
title_full_unstemmed News Style Corpus v2
title_sort News Style Corpus v2
dc.creator.none.fl_str_mv Przybiła, Piotr
Soto, Axel Juan
author Przybiła, Piotr
author_facet Przybiła, Piotr
Soto, Axel Juan
author_role author
author2 Soto, Axel Juan
author2_role author
purl_subject.fl_str_mv https://purl.org/becyt/ford/1.2
https://purl.org/becyt/ford/1
dc.description.none.fl_txt_mv El corpus utilizado en esta investigación contiene 95.900 documentos de 199 fuentes. News Style Corpus v2 se basa en un corpus anterior (https://github.com/piotrmp/fakestyle), utilizando el trabajo de PolitiFact (https://www.politifact.com/punditfact/article/2017/apr/20/politifacts-guide-fake-news-websites-and-what-they/) y Pew Research Center (https://www.journalism.org/2014/10/21/political-polarization-media-habits/) para evaluaciones de credibilidad en función de su origen. Esta versión refina la anterior mediante la extracción de texto sin formato a través de la biblioteca unfluff (https://github.com/ageitgey/node-unfluff) y la eliminación de documentos con contenido insuficiente.
Fil: Przybiła, Piotr. Polish Academy of Sciences; Argentina
Fil: Soto, Axel Juan. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina
description El corpus utilizado en esta investigación contiene 95.900 documentos de 199 fuentes. News Style Corpus v2 se basa en un corpus anterior (https://github.com/piotrmp/fakestyle), utilizando el trabajo de PolitiFact (https://www.politifact.com/punditfact/article/2017/apr/20/politifacts-guide-fake-news-websites-and-what-they/) y Pew Research Center (https://www.journalism.org/2014/10/21/political-polarization-media-habits/) para evaluaciones de credibilidad en función de su origen. Esta versión refina la anterior mediante la extracción de texto sin formato a través de la biblioteca unfluff (https://github.com/ageitgey/node-unfluff) y la eliminación de documentos con contenido insuficiente.
publishDate 2022
dc.date.none.fl_str_mv 2022
dc.type.none.fl_str_mv info:ar-repo/semantics/conjuntoDeDatos
v1.0
info:eu-repo/semantics/dataSet
format dataSet
dc.identifier.none.fl_str_mv http://hdl.handle.net/11336/162377
Przybiła, Piotr; Soto, Axel Juan; (2022): News Style Corpus v2. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/162377
CONICET Digital
CONICET
url http://hdl.handle.net/11336/162377
identifier_str_mv Przybiła, Piotr; Soto, Axel Juan; (2022): News Style Corpus v2. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/162377
CONICET Digital
CONICET
dc.language.none.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv info:eu-repo/grantAgreement/POLISH NATIONAL AGENCY FOR ACADEMIC EXCHANGE/PPN/PPO/2018/1/00006
info:eu-repo/grantAgreement/Google Limited Liability Company (google Llc)/PPN/PPO/2018/1/00006
info:eu-repo/grantAgreement/Ministerio de Ciencia, Tecnología e Innovación Productiva/PPN/PPO/2018/1/00006
info:eu-repo/grantAgreement/POZNAN SUPERCOMPUTING AND NETWORKING CENTER/PPN/PPO/2018/1/00006
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
dc.format.none.fl_str_mv text/plain
dc.source.none.fl_str_mv reponame:CONICET Digital (CONICET)
instname:Consejo Nacional de Investigaciones Científicas y Técnicas
reponame_str CONICET Digital (CONICET)
collection CONICET Digital (CONICET)
instname_str Consejo Nacional de Investigaciones Científicas y Técnicas
repository.name.fl_str_mv CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
repository.mail.fl_str_mv dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar
_version_ 1844613268836974592
score 13.070432