Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo

Autores
Valentini, Francisco; Sosa, Juan Cruz; Fernández Slezak, Diego; Altszyler, Edgar
Año de publicación
2025
Idioma
español castellano
Tipo de recurso
documento de conferencia
Estado
versión publicada
Descripción
Investigaciones recientes han demostrado que los word embeddings estáticos pueden codificar información sobre la frecuencia de las palabras. Sin embargo, poco se ha estudiado sobre este fenómeno y sus efectos en tareas posteriores. En este trabajo estudiamos sistemáticamente la asociación entre frecuencia y similitud semántica en varios word embeddings estáticos . Descubrimos que los embeddings Skip-gram, GloVe y FastText tienden a producir una mayor similitud semántica entre palabras de alta frecuencia que entre otras combinaciones de frecuencias. Demostramos que la asociación entre frecuencia y similitud también aparece cuando las palabras se mezclan aleatoriamente. Esto demuestra que los patrones encontrados no se deben a asociaciones semánticas reales presentes en los textos, sino que son un artefacto producido por los embeddings. Por último, ofrecemos un ejemplo de cómo la frecuencia de las palabras puede influir mucho en la medición del sesgo de género con métricas basadas en embeddings. En particular, llevamos a cabo un experimento controlado que demuestra que los sesgos pueden incluso cambiar de signo o invertir su orden manipulando las frecuencias de las palabras.
Recent research has shown that static word embeddings can encode words’ frequencies. However, little has been studied about this behavior. In the present work, we study how frequency and semantic similarity relate to one another in static word embeddings, and we assess the impact of this relationship on embedding-based bias metrics. We find that Skip-gram, GloVe and FastText embeddings tend to produce higher similarity between high-frequency words than between other frequency combinations. We show that the association between frequency and similarity also appears when words are randomly shuffled, and holds for different hyperparameter settings. This proves that the patterns we find are neither due to real semantic associations nor to specific parameters choices, and are an artifact produced by the word embeddings. To illustrate how frequencies can affect the measurement of biases related to gender, ethnicity, and affluence, we carry out a controlled experiment that shows that biases can even change sign or reverse their order when word frequencies change.
Sociedad Argentina de Informática e Investigación Operativa
Materia
Ciencias Informáticas
natural language processing
word embedding
bias
procesamiento de lenguaje
sesgo
Nivel de accesibilidad
acceso abierto
Condiciones de uso
http://creativecommons.org/licenses/by-nc-sa/4.0/
Repositorio
SEDICI (UNLP)
Institución
Universidad Nacional de La Plata
OAI Identificador
oai:sedici.unlp.edu.ar:10915/190637

id SEDICI_952f81ab58a87ef2da25e0ca23c26af7
oai_identifier_str oai:sedici.unlp.edu.ar:10915/190637
network_acronym_str SEDICI
repository_id_str 1329
network_name_str SEDICI (UNLP)
spelling Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgoInvestigating the Frequency Distortion of Word Embeddings and its Impact on Bias MetricsValentini, FranciscoSosa, Juan CruzFernández Slezak, DiegoAltszyler, EdgarCiencias Informáticasnatural language processingword embeddingbiasprocesamiento de lenguajesesgoInvestigaciones recientes han demostrado que los word embeddings estáticos pueden codificar información sobre la frecuencia de las palabras. Sin embargo, poco se ha estudiado sobre este fenómeno y sus efectos en tareas posteriores. En este trabajo estudiamos sistemáticamente la asociación entre frecuencia y similitud semántica en varios word embeddings estáticos . Descubrimos que los embeddings Skip-gram, GloVe y FastText tienden a producir una mayor similitud semántica entre palabras de alta frecuencia que entre otras combinaciones de frecuencias. Demostramos que la asociación entre frecuencia y similitud también aparece cuando las palabras se mezclan aleatoriamente. Esto demuestra que los patrones encontrados no se deben a asociaciones semánticas reales presentes en los textos, sino que son un artefacto producido por los embeddings. Por último, ofrecemos un ejemplo de cómo la frecuencia de las palabras puede influir mucho en la medición del sesgo de género con métricas basadas en embeddings. En particular, llevamos a cabo un experimento controlado que demuestra que los sesgos pueden incluso cambiar de signo o invertir su orden manipulando las frecuencias de las palabras.Recent research has shown that static word embeddings can encode words’ frequencies. However, little has been studied about this behavior. In the present work, we study how frequency and semantic similarity relate to one another in static word embeddings, and we assess the impact of this relationship on embedding-based bias metrics. We find that Skip-gram, GloVe and FastText embeddings tend to produce higher similarity between high-frequency words than between other frequency combinations. We show that the association between frequency and similarity also appears when words are randomly shuffled, and holds for different hyperparameter settings. This proves that the patterns we find are neither due to real semantic associations nor to specific parameters choices, and are an artifact produced by the word embeddings. To illustrate how frequencies can affect the measurement of biases related to gender, ethnicity, and affluence, we carry out a controlled experiment that shows that biases can even change sign or reverse their order when word frequencies change.Sociedad Argentina de Informática e Investigación Operativa2025-08info:eu-repo/semantics/conferenceObjectinfo:eu-repo/semantics/publishedVersionResumenhttp://purl.org/coar/resource_type/c_5794info:ar-repo/semantics/documentoDeConferenciaapplication/pdf85-86http://sedici.unlp.edu.ar/handle/10915/190637spainfo:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19756info:eu-repo/semantics/altIdentifier/issn/2451-7496info:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)reponame:SEDICI (UNLP)instname:Universidad Nacional de La Platainstacron:UNLP2026-02-26T11:39:42Zoai:sedici.unlp.edu.ar:10915/190637Institucionalhttp://sedici.unlp.edu.ar/Universidad públicaNo correspondehttp://sedici.unlp.edu.ar/oai/snrdalira@sedici.unlp.edu.arArgentinaNo correspondeNo correspondeNo correspondeopendoar:13292026-02-26 11:39:42.632SEDICI (UNLP) - Universidad Nacional de La Platafalse
dc.title.none.fl_str_mv Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo
Investigating the Frequency Distortion of Word Embeddings and its Impact on Bias Metrics
title Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo
spellingShingle Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo
Valentini, Francisco
Ciencias Informáticas
natural language processing
word embedding
bias
procesamiento de lenguaje
sesgo
title_short Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo
title_full Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo
title_fullStr Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo
title_full_unstemmed Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo
title_sort Investigando la distorsión de frecuencia en Word Embeddings y su impacto en métricas de sesgo
dc.creator.none.fl_str_mv Valentini, Francisco
Sosa, Juan Cruz
Fernández Slezak, Diego
Altszyler, Edgar
author Valentini, Francisco
author_facet Valentini, Francisco
Sosa, Juan Cruz
Fernández Slezak, Diego
Altszyler, Edgar
author_role author
author2 Sosa, Juan Cruz
Fernández Slezak, Diego
Altszyler, Edgar
author2_role author
author
author
dc.subject.none.fl_str_mv Ciencias Informáticas
natural language processing
word embedding
bias
procesamiento de lenguaje
sesgo
topic Ciencias Informáticas
natural language processing
word embedding
bias
procesamiento de lenguaje
sesgo
dc.description.none.fl_txt_mv Investigaciones recientes han demostrado que los word embeddings estáticos pueden codificar información sobre la frecuencia de las palabras. Sin embargo, poco se ha estudiado sobre este fenómeno y sus efectos en tareas posteriores. En este trabajo estudiamos sistemáticamente la asociación entre frecuencia y similitud semántica en varios word embeddings estáticos . Descubrimos que los embeddings Skip-gram, GloVe y FastText tienden a producir una mayor similitud semántica entre palabras de alta frecuencia que entre otras combinaciones de frecuencias. Demostramos que la asociación entre frecuencia y similitud también aparece cuando las palabras se mezclan aleatoriamente. Esto demuestra que los patrones encontrados no se deben a asociaciones semánticas reales presentes en los textos, sino que son un artefacto producido por los embeddings. Por último, ofrecemos un ejemplo de cómo la frecuencia de las palabras puede influir mucho en la medición del sesgo de género con métricas basadas en embeddings. En particular, llevamos a cabo un experimento controlado que demuestra que los sesgos pueden incluso cambiar de signo o invertir su orden manipulando las frecuencias de las palabras.
Recent research has shown that static word embeddings can encode words’ frequencies. However, little has been studied about this behavior. In the present work, we study how frequency and semantic similarity relate to one another in static word embeddings, and we assess the impact of this relationship on embedding-based bias metrics. We find that Skip-gram, GloVe and FastText embeddings tend to produce higher similarity between high-frequency words than between other frequency combinations. We show that the association between frequency and similarity also appears when words are randomly shuffled, and holds for different hyperparameter settings. This proves that the patterns we find are neither due to real semantic associations nor to specific parameters choices, and are an artifact produced by the word embeddings. To illustrate how frequencies can affect the measurement of biases related to gender, ethnicity, and affluence, we carry out a controlled experiment that shows that biases can even change sign or reverse their order when word frequencies change.
Sociedad Argentina de Informática e Investigación Operativa
description Investigaciones recientes han demostrado que los word embeddings estáticos pueden codificar información sobre la frecuencia de las palabras. Sin embargo, poco se ha estudiado sobre este fenómeno y sus efectos en tareas posteriores. En este trabajo estudiamos sistemáticamente la asociación entre frecuencia y similitud semántica en varios word embeddings estáticos . Descubrimos que los embeddings Skip-gram, GloVe y FastText tienden a producir una mayor similitud semántica entre palabras de alta frecuencia que entre otras combinaciones de frecuencias. Demostramos que la asociación entre frecuencia y similitud también aparece cuando las palabras se mezclan aleatoriamente. Esto demuestra que los patrones encontrados no se deben a asociaciones semánticas reales presentes en los textos, sino que son un artefacto producido por los embeddings. Por último, ofrecemos un ejemplo de cómo la frecuencia de las palabras puede influir mucho en la medición del sesgo de género con métricas basadas en embeddings. En particular, llevamos a cabo un experimento controlado que demuestra que los sesgos pueden incluso cambiar de signo o invertir su orden manipulando las frecuencias de las palabras.
publishDate 2025
dc.date.none.fl_str_mv 2025-08
dc.type.none.fl_str_mv info:eu-repo/semantics/conferenceObject
info:eu-repo/semantics/publishedVersion
Resumen
http://purl.org/coar/resource_type/c_5794
info:ar-repo/semantics/documentoDeConferencia
format conferenceObject
status_str publishedVersion
dc.identifier.none.fl_str_mv http://sedici.unlp.edu.ar/handle/10915/190637
url http://sedici.unlp.edu.ar/handle/10915/190637
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv info:eu-repo/semantics/altIdentifier/url/https://revistas.unlp.edu.ar/JAIIO/article/view/19756
info:eu-repo/semantics/altIdentifier/issn/2451-7496
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.format.none.fl_str_mv application/pdf
85-86
dc.source.none.fl_str_mv reponame:SEDICI (UNLP)
instname:Universidad Nacional de La Plata
instacron:UNLP
reponame_str SEDICI (UNLP)
collection SEDICI (UNLP)
instname_str Universidad Nacional de La Plata
instacron_str UNLP
institution UNLP
repository.name.fl_str_mv SEDICI (UNLP) - Universidad Nacional de La Plata
repository.mail.fl_str_mv alira@sedici.unlp.edu.ar
_version_ 1858282591300354048
score 12.665996