Medindo a Diversidade

João Ricardo Mendes
6 min readApr 23, 2024

Os sistemas de pesquisa, classificação e recomendação podem ajudar a encontrar documentos úteis em grandes conjuntos de dados. No entanto, estes conjuntos de dados refletem os preconceitos da sociedade em que foram criados e os sistemas correm o risco de consolidar esses preconceitos. Por exemplo, se alguém que não seja branco pesquisar “fotos de CEO” e vir uma página de homens brancos , poderá sentir que apenas homens brancos podem ser CEO, perpetuando ainda mais a falta de representação nos níveis executivos das empresas.

Usando a quantificação cuidadosa descrita em um artigo recente, Métricas de Diversidade e Inclusão na Seleção de Subconjuntos , podemos quantificar vieses e forçar esses sistemas a retornar uma gama mais ampla de resultados.

A matemática de tudo isso é um pouco mais fácil de acompanhar com formas abstratas. Vamos dar uma olhada em alguns deles:

Suponha que queiramos retornar cerca de 30% de caixas verdes para refletir a distribuição de algum universo maior de formas. Experimente clicar nas formas abaixo para selecionar algumas delas. Você consegue encontrar um subconjunto melhor para retornar?

Green Target: 30%Actual: 30%Difference: 0%

Mostrar melhor

Outra métrica de diversidade com a qual nos preocupamos é a porcentagem de pontos… quão próximo de 35% de pontos você consegue chegar?

Dot Target: 35%Actual: 63%Difference: 28%

Mostrar melhor

Se pudermos retornar apenas um único subconjunto, como devemos considerar múltiplas métricas de diversidade? Às vezes não é possível reduzir a diferença de cada métrica a zero. Uma abordagem natural: encontrar a seleção com a menor diferença média em todas as métricas para chegar o mais próximo possível de todos os alvos.

Noutras circunstâncias, como escolher um painel de oradores, evitar representar mal qualquer categoria pode ser mais importante. Isso pode ser feito encontrando o subconjunto com a menor diferença máxima . Tente minimizar ambos abaixo:

Green Target: 30%Actual: 13%Difference: 18%

Dot Target: 35%Actual: 63%Difference: 28%

Small Target: 60%Actual: 38%Difference: 22%

Diferença Média: 22,50%

média (18%, 28%, 22%)

Mostrar melhor

Diferença máxima: 28%

máximo(18%, 28%, 22%)

Mostrar melhor

Observe que minimizar a média resulta em um subconjunto diferente de minimizar o máximo; de que outra forma o uso de um em vez do outro poderia alterar os resultados?

Medidas de classificação

Podemos obter mais detalhes mostrando como a diferença média e a diferença máxima classificam muitos conjuntos. Abaixo, existem 20 conjuntos de 10 formas classificadas pelas duas medidas. Tente ajustar o controle deslizante de destino à esquerda para ver como as classificações mudam; a porcentagem de verde, pontos e pequenas formas de cada conjunto é mostrada nos pequenos histogramas.

Mean Difference28.3315.0011.6725.0011.6718.3315.0018.3311.6725.0028.3328.338.3321.6711.6721.6721.678.335.0015.00Max Difference4020203025304025153040351025254530201530605040703010208090Green Target: 30%40%Difference: 10503040607080102090Dot Target: 35%40%Difference: 5907050604080301020Small Target: 50%60%Difference: 10The selected set is…40% green, 10% more than target40% dot, 5% more than target60% small, 10% more than targetMean Difference: 8.33%Max Difference: 10.00%

Nos extremos, a escolha da medida pode ter um grande impacto: se quisermos tentar obter todos os resultados verdes, podemos mudar a meta verde para 100%. Com essa meta, a diferença mínima basicamente classifica os conjuntos pela quantidade de itens verdes e usa as demais metas como desempate. Em contraste, a classificação pela diferença média equilibra mais o alvo verde com os pontos e os alvos pequenos.

Isso pode ser útil se você quiser garantir que todos os conjuntos tenham uma quantidade mínima de itens verdes, mas também quer levar em consideração outros fatores.

Além disso, é importante notar que a diferença máxima entre os alvos escolhidos também pode ter um impacto significativo nos resultados. Por exemplo, se a diferença máxima for definida como 5%, isso pode limitar severamente as pontuações dos conjuntos com muitos itens verdes. No entanto, se essa diferença for aumentada para 10%, esses conjuntos podem ter mais oportunidades de alcançar uma pontuação mais alta. Portanto, é importante equilibrar cuidadosamente a diferença média e máxima ao classificar os conjuntos.

Uma maneira de fazer isso é através do uso de uma função de contraste. Essa função permite que você ajuste o peso entre a diferença média e máxima, garantindo que ambos sejam considerados igualmente importantes na classificação dos conjuntos. Além disso, essa função também pode ser útil para lidar com casos em que um conjunto tem vários itens verdes próximos à linha de corte, enquanto outro conjunto tem apenas alguns poucos itens verdes acima da linha de corte.

Além das diferenças médias e máximas, existem outras maneiras de combinar métricas de diversidade, como cruzar duas métricas para levar em conta a interseccionalidade . O valor absoluto da diferença entre as porcentagens alvo e reais também pode ser quantificado de outras maneiras — você pode querer penalizar mais o undershooting do que o overshooting, por exemplo. É importante ter em mente o que exatamente você está tentando maximizar e o conjunto de dados em que está operando.

Qual medida é a melhor?

No vácuo, todos esses métodos de classificação são defensáveis. Escolher um requer conhecimento do conjunto de dados e do contexto social mais amplo.

Por exemplo, os médicos à esquerda têm mais variação no atributo da cor da camisa, mas são menos diversificados por gênero do que os médicos à direita. Com as metas de cor da camisa e gênero que escolhemos, os dois subconjuntos têm as mesmas diferenças médias e máximas. No entanto, na maioria das aplicações, é mais importante ter uma amostra representativa de características socialmente relevantes, como gênero, em vez de algo menos saliente, como a cor da roupa.

Blue Target: 50%Actual: 50%Difference: 0%

Apenas selecionar uma amostra diversificada também não é suficiente. As métricas de diversidade e inclusão na seleção de subconjuntos introduzem uma forma de medir a “inclusão” — quão bem o pesquisador se sente representado nos resultados?

Abaixo temos a diversidade de gênero, sem inclusão de mulheres, no domínio da imagem de “trabalhador da construção civil”. Indivíduos com apresentação masculina são mostrados em situações realistas e modernas de trabalhadores da construção civil, enquanto indivíduos com apresentação feminina e outras apresentações de gênero são retratados como nostalgia histórica, brinquedos, clipart ou passivos.

Estoque de imagens de “trabalhador da construção civil”

O contexto da consulta e do pesquisador também influenciam a qualidade dos resultados da pesquisa. Uma pesquisa por “roupas de trabalho” que mostre uma paleta mista de cores para roupas masculinas e apenas roupas femininas rosa pode fazer o pesquisador sentir que as mulheres precisam parecer estereotipadamente femininas em um ambiente profissional. Mas o mesmo conjunto de roupas femininas pode ser apropriado para uma pesquisa por “roupas de trabalho femininas rosa” ou se o pesquisador já tiver expressado preferência pelo rosa.

Vimos como uma pequena mudança de médio para máximo fez uma enorme diferença nas formas abstratas retornadas — e como as coisas podem ficar ainda mais complexas quando características socialmente salientes são incorporadas. Padrões e pequenas decisões podem codificar nossas prioridades e valores; pensar intencionalmente sobre como a diversidade e a inclusão estão a ser medidas e quais as características que são enfatizadas é um passo no sentido da concepção de sistemas mais equitativos.

O artigo Diversity and Inclusion Metrics tem um Colab com uma descrição detalhada das métricas, visualizações adicionais e uma implementação de referência em Python.

As dificuldades de medir a justiça em geral foram bem estudadas; a seleção de subconjuntos ainda é uma área ativa de pesquisa. A Justiça de Exposição nas Classificações propõe um algoritmo de classificação que incorpora restrições de justiça. Para criar uma classificação mais justa nos resultados dos mecanismos de pesquisa, mede o preconceito de diversidade nos resultados reais da pesquisa.

Inferir as preferências do usuário também é complicado; você pode verificar maneiras de projetar o feedback do usuário e controlar as consultas no Guia People + AI .

--

--

João Ricardo Mendes

Hurb.com CEO and Founder. Be curious. Read widely. Try new things. What people call intelligence just boils down to curiosity.