Medindo Justiça, imparcialidade e equidade em textos
Como garantir que um modelo funcione igualmente bem para diferentes grupos de pessoas? Acontece que, em muitas situações, isso é mais difícil do que você imagina.
O problema é que existem diferentes maneiras de medir a precisão de um modelo e muitas vezes é matematicamente impossível que todas elas sejam iguais entre os grupos.
Ilustraremos como isso acontece criando um modelo médico (falso) para rastrear doenças nessas pessoas.
Verdade fundamental
Cerca de metade dessas pessoas realmente tem a doença, em vermelho ; metade deles não, em cinza .
Previsões de modelo
Num mundo perfeito, apenas pessoas doentes teriam resultados positivos para a doença e apenas pessoas saudáveis teriam resultados negativos.
Erros de modelo
Mas os modelos e testes não são perfeitos.
O modelo pode cometer um erro e marcar uma pessoa doente como saudável, destacada em vermelho .
Ou o contrário: marcar uma pessoa sã como doente, destacada em cinza .
Nunca perca a doença…
Se houver um teste de acompanhamento simples, poderíamos fazer com que o modelo chamasse agressivamente os casos próximos, para que raramente não detectasse a doença.
Podemos quantificar isso medindo a porcentagem de pessoas doentes, em vermelho , com teste positivo, em vermelho e destacadas em vermelho .
…Ou evitar chamadas excessivas?
Por outro lado, se não houver teste secundário, ou se o tratamento utilizar um medicamento com oferta limitada, poderemos nos preocupar mais com a percentagem de pessoas com teste positivo destacadas em vermelho , que estão realmente doentes, em vermelho e destacadas em vermelho.
Essas questões e compensações na otimização do modelo não são novas, mas são trazidas à tona quando temos a capacidade de ajustar exatamente a agressividade com que a doença é diagnosticada.
Tente ajustar o quão agressivo o modelo é no diagnóstico da doença.
Análise de Subgrupo
As coisas ficam ainda mais complicadas quando verificamos se o modelo trata os diferentes grupos de maneira justa. ¹
Independentemente do que decidirmos em termos de compensações entre essas métricas, provavelmente gostaríamos que elas fossem aproximadamente iguais entre diferentes grupos de pessoas.
Se estivermos tentando alocar recursos de maneira uniforme, seria ruim fazer com que o modelo perdesse mais casos em crianças do que em adultos! ²
Taxas básicas
Se você olhar com atenção, verá que a doença é mais prevalente em crianças. Ou seja, a “taxa básica” da doença é diferente entre os grupos.
O fato de as taxas básicas serem diferentes torna a situação surpreendentemente complicada. Por um lado, embora o teste detecte a mesma percentagem de adultos e crianças doentes, um adulto com resultado positivo tem menos probabilidade de ter a doença do que uma criança com resultado positivo.
Métricas desequilibradas
Por que existe uma disparidade no diagnóstico entre crianças e adultos? Há uma proporção maior de adultos saudáveis, portanto, erros no teste farão com que mais adultos saudáveis sejam marcados como “positivos” do que crianças saudáveis (e da mesma forma com negativos errados).
Para corrigir isso, poderíamos fazer com que o modelo levasse em consideração a idade.
Isso nos permite alinhar uma métrica. Mas agora os adultos que têm a doença têm menos probabilidade de serem diagnosticados!
Não importa como você mova os controles deslizantes, você não conseguirá tornar as duas métricas justas ao mesmo tempo. Acontece que isso é inevitável sempre que as taxas básicas são diferentes e o teste não é perfeito.
Existem várias maneiras de definir justiça matematicamente. Geralmente não é possível satisfazer todos eles. ³
Conclusão
Felizmente, a noção de justiça que você escolher satisfazer dependerá do contexto do seu modelo; portanto, embora não seja possível satisfazer todas as definições de justiça, você pode se concentrar nas noções de justiça que fazem sentido para o seu caso de uso.
Mesmo que a justiça em todas as dimensões não seja possível, não devemos parar de verificar se há preconceitos. O explorável Hidden Bias descreve diferentes maneiras pelas quais o preconceito humano pode alimentar um modelo de ML.
Mais leitura
Em alguns contextos, estabelecer limiares diferentes para populações diferentes pode não ser aceitável. Você pode tornar a IA mais justa do que um juiz? explora um algoritmo que pode enviar pessoas para a prisão.
Existem muitas métricas diferentes que você pode usar para determinar se um algoritmo é justo. Atacar a discriminação com aprendizado de máquina mais inteligente mostra como vários deles funcionam. Usando indicadores de justiça em conjunto com a ferramenta What-If e outras ferramentas de justiça , você pode testar seu próprio modelo em relação às métricas de justiça comumente usadas .