News Style Corpus v2
- Autores
- Przybiła, Piotr; Soto, Axel Juan
- Año de publicación
- 2022
- Idioma
- inglés
- Tipo de recurso
- conjunto de datos
- Estado
- Descripción
- El corpus utilizado en esta investigación contiene 95.900 documentos de 199 fuentes. News Style Corpus v2 se basa en un corpus anterior (https://github.com/piotrmp/fakestyle), utilizando el trabajo de PolitiFact (https://www.politifact.com/punditfact/article/2017/apr/20/politifacts-guide-fake-news-websites-and-what-they/) y Pew Research Center (https://www.journalism.org/2014/10/21/political-polarization-media-habits/) para evaluaciones de credibilidad en función de su origen. Esta versión refina la anterior mediante la extracción de texto sin formato a través de la biblioteca unfluff (https://github.com/ageitgey/node-unfluff) y la eliminación de documentos con contenido insuficiente.
Fil: Przybiła, Piotr. Polish Academy of Sciences; Argentina
Fil: Soto, Axel Juan. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina - Nivel de accesibilidad
- acceso abierto
- Condiciones de uso
- https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
- Repositorio
- Institución
- Consejo Nacional de Investigaciones Científicas y Técnicas
- OAI Identificador
- oai:ri.conicet.gov.ar:11336/162377
Ver los metadatos del registro completo
id |
CONICETDig_ab35efa05cb153374718695bcdd4c9f6 |
---|---|
oai_identifier_str |
oai:ri.conicet.gov.ar:11336/162377 |
network_acronym_str |
CONICETDig |
repository_id_str |
3498 |
network_name_str |
CONICET Digital (CONICET) |
spelling |
News Style Corpus v2Przybiła, PiotrSoto, Axel Juanhttps://purl.org/becyt/ford/1.2https://purl.org/becyt/ford/1El corpus utilizado en esta investigación contiene 95.900 documentos de 199 fuentes. News Style Corpus v2 se basa en un corpus anterior (https://github.com/piotrmp/fakestyle), utilizando el trabajo de PolitiFact (https://www.politifact.com/punditfact/article/2017/apr/20/politifacts-guide-fake-news-websites-and-what-they/) y Pew Research Center (https://www.journalism.org/2014/10/21/political-polarization-media-habits/) para evaluaciones de credibilidad en función de su origen. Esta versión refina la anterior mediante la extracción de texto sin formato a través de la biblioteca unfluff (https://github.com/ageitgey/node-unfluff) y la eliminación de documentos con contenido insuficiente.Fil: Przybiła, Piotr. Polish Academy of Sciences; ArgentinaFil: Soto, Axel Juan. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina2022info:ar-repo/semantics/conjuntoDeDatosv1.0info:eu-repo/semantics/dataSettext/plainhttp://hdl.handle.net/11336/162377Przybiła, Piotr; Soto, Axel Juan; (2022): News Style Corpus v2. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/162377CONICET DigitalCONICETenginfo:eu-repo/grantAgreement/POLISH NATIONAL AGENCY FOR ACADEMIC EXCHANGE/PPN/PPO/2018/1/00006info:eu-repo/grantAgreement/Google Limited Liability Company (google Llc)/PPN/PPO/2018/1/00006info:eu-repo/grantAgreement/Ministerio de Ciencia, Tecnología e Innovación Productiva/PPN/PPO/2018/1/00006info:eu-repo/grantAgreement/POZNAN SUPERCOMPUTING AND NETWORKING CENTER/PPN/PPO/2018/1/00006info:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/2.5/ar/reponame:CONICET Digital (CONICET)instname:Consejo Nacional de Investigaciones Científicas y Técnicas2025-09-29T09:40:06Zoai:ri.conicet.gov.ar:11336/162377instacron:CONICETInstitucionalhttp://ri.conicet.gov.ar/Organismo científico-tecnológicoNo correspondehttp://ri.conicet.gov.ar/oai/requestdasensio@conicet.gov.ar; lcarlino@conicet.gov.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:34982025-09-29 09:40:07.094CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicasfalse |
dc.title.none.fl_str_mv |
News Style Corpus v2 |
title |
News Style Corpus v2 |
spellingShingle |
News Style Corpus v2 Przybiła, Piotr |
title_short |
News Style Corpus v2 |
title_full |
News Style Corpus v2 |
title_fullStr |
News Style Corpus v2 |
title_full_unstemmed |
News Style Corpus v2 |
title_sort |
News Style Corpus v2 |
dc.creator.none.fl_str_mv |
Przybiła, Piotr Soto, Axel Juan |
author |
Przybiła, Piotr |
author_facet |
Przybiła, Piotr Soto, Axel Juan |
author_role |
author |
author2 |
Soto, Axel Juan |
author2_role |
author |
purl_subject.fl_str_mv |
https://purl.org/becyt/ford/1.2 https://purl.org/becyt/ford/1 |
dc.description.none.fl_txt_mv |
El corpus utilizado en esta investigación contiene 95.900 documentos de 199 fuentes. News Style Corpus v2 se basa en un corpus anterior (https://github.com/piotrmp/fakestyle), utilizando el trabajo de PolitiFact (https://www.politifact.com/punditfact/article/2017/apr/20/politifacts-guide-fake-news-websites-and-what-they/) y Pew Research Center (https://www.journalism.org/2014/10/21/political-polarization-media-habits/) para evaluaciones de credibilidad en función de su origen. Esta versión refina la anterior mediante la extracción de texto sin formato a través de la biblioteca unfluff (https://github.com/ageitgey/node-unfluff) y la eliminación de documentos con contenido insuficiente. Fil: Przybiła, Piotr. Polish Academy of Sciences; Argentina Fil: Soto, Axel Juan. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación; Argentina. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - Bahía Blanca. Instituto de Ciencias e Ingeniería de la Computación. Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación. Instituto de Ciencias e Ingeniería de la Computación; Argentina |
description |
El corpus utilizado en esta investigación contiene 95.900 documentos de 199 fuentes. News Style Corpus v2 se basa en un corpus anterior (https://github.com/piotrmp/fakestyle), utilizando el trabajo de PolitiFact (https://www.politifact.com/punditfact/article/2017/apr/20/politifacts-guide-fake-news-websites-and-what-they/) y Pew Research Center (https://www.journalism.org/2014/10/21/political-polarization-media-habits/) para evaluaciones de credibilidad en función de su origen. Esta versión refina la anterior mediante la extracción de texto sin formato a través de la biblioteca unfluff (https://github.com/ageitgey/node-unfluff) y la eliminación de documentos con contenido insuficiente. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022 |
dc.type.none.fl_str_mv |
info:ar-repo/semantics/conjuntoDeDatos v1.0 info:eu-repo/semantics/dataSet |
format |
dataSet |
dc.identifier.none.fl_str_mv |
http://hdl.handle.net/11336/162377 Przybiła, Piotr; Soto, Axel Juan; (2022): News Style Corpus v2. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/162377 CONICET Digital CONICET |
url |
http://hdl.handle.net/11336/162377 |
identifier_str_mv |
Przybiła, Piotr; Soto, Axel Juan; (2022): News Style Corpus v2. Consejo Nacional de Investigaciones Científicas y Técnicas. (dataset). http://hdl.handle.net/11336/162377 CONICET Digital CONICET |
dc.language.none.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
info:eu-repo/grantAgreement/POLISH NATIONAL AGENCY FOR ACADEMIC EXCHANGE/PPN/PPO/2018/1/00006 info:eu-repo/grantAgreement/Google Limited Liability Company (google Llc)/PPN/PPO/2018/1/00006 info:eu-repo/grantAgreement/Ministerio de Ciencia, Tecnología e Innovación Productiva/PPN/PPO/2018/1/00006 info:eu-repo/grantAgreement/POZNAN SUPERCOMPUTING AND NETWORKING CENTER/PPN/PPO/2018/1/00006 |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess https://creativecommons.org/licenses/by-nc-sa/2.5/ar/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
https://creativecommons.org/licenses/by-nc-sa/2.5/ar/ |
dc.format.none.fl_str_mv |
text/plain |
dc.source.none.fl_str_mv |
reponame:CONICET Digital (CONICET) instname:Consejo Nacional de Investigaciones Científicas y Técnicas |
reponame_str |
CONICET Digital (CONICET) |
collection |
CONICET Digital (CONICET) |
instname_str |
Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.name.fl_str_mv |
CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas |
repository.mail.fl_str_mv |
dasensio@conicet.gov.ar; lcarlino@conicet.gov.ar |
_version_ |
1844613268836974592 |
score |
13.070432 |