Estudo revela algoritmo de IA tendencioso contra skin

Após relatos em 2018 de que os principais algoritmos de análise facial eram menos precisos em pessoas com tons de pele mais escuros, empresas como Google e Meta usaram medições de tons de pele para testar a eficácia de seu software de IA. Uma nova pesquisa da Sony sugere que esses testes ignoram um aspecto importante da diversidade da cor da pele humana.

Os pesquisadores da Sony dizem que os métodos de medição da cor da pele comumente usados atualmente usam apenas uma escala móvel do mais claro para o mais escuro ou do branco para o preto para representar a cor da pele, ignorando assim o impacto dos tons amarelos e vermelhos na gama de cores da pele humana. Eles descobriram que sistemas generativos de inteligência artificial, algoritmos de captura de imagens e ferramentas de análise de fotos tinham dificuldades principalmente com a pele mais amarelada. A mesma fraqueza pode aplicar-se a uma variedade de tecnologias cuja precisão foi comprovadamente afetada pelo tom de pele, como software de inteligência artificial para reconhecimento facial, rastreamento corporal e detecção de deepfake, ou dispositivos como monitores de frequência cardíaca e detectores de movimento.

Alice Xiang, principal cientista pesquisadora e chefe global de ética em IA da Sony, disse: "Se os produtos forem avaliados apenas desta forma muito singular, há muitos preconceitos que passam despercebidos e não mitigados. Nossa esperança é que o trabalho que estamos fazendo aqui possa ajudar a substituir algumas das escalas de tons de pele existentes que realmente se concentram apenas em cores claras versus cores escuras."

Mas nem todos estão convencidos de que as opções existentes sejam insuficientes para classificar os sistemas de IA. Ellis Monk, sociólogo da Universidade de Harvard, disse que a paleta de 10 cores de pele que ele lançou com o Google no ano passado oferece opções do claro ao escuro, mas não é unidimensional. “Tenho que admitir que estou um pouco confuso com a sugestão de que tons e matizes foram ignorados em pesquisas anteriores sobre isso”, disse Monk. “O esforço de pesquisa foi dedicado a decidir quais tons de pele priorizar na escala e em quais pontos. Ele escolheu os 10 tons de pele em sua escala com base em sua própria pesquisa sobre colorismo e após consultar outros especialistas e pessoas de comunidades sub-representadas.”

X. Eyeé, CEO da empresa de consultoria de ética em IA Malo Santo e fundador da equipe de pesquisa de cor da pele do Google, disse que a Escala Munch nunca teve a intenção de ser uma solução final e considerou o trabalho da Sony um avanço importante. Mas Eyeé também alerta que o posicionamento da câmera pode afetar os valores de cores CIELAB nas imagens, um dos vários problemas que tornam o padrão um ponto de referência potencialmente não confiável. “Antes que possamos aplicar medições de tons de pele a algoritmos de IA do mundo real, como filtros de câmeras e videoconferências, mais trabalho precisa ser feito para garantir a consistência das medições”, disse Eyeé.

O debate sobre escalas não é apenas acadêmico. Encontrar uma medida apropriada daquilo que os investigadores de IA chamam de "justiça" é uma prioridade máxima para a indústria tecnológica, à medida que legisladores de países como a União Europeia e os Estados Unidos discutem a exigência de que as empresas auditem os seus sistemas de IA e sinalizem riscos e falhas. Pesquisadores da Sony disseram que métodos de avaliação fracos poderiam minar alguns dos benefícios práticos da regulamentação.

Em relação à cor da pele, Xiang disse que os esforços para desenvolver mais melhorias são justificados: "Precisamos continuar tentando fazer progressos. Diferentes medidas podem ser úteis dependendo da situação. Estou satisfeito que haja um interesse crescente nesta área depois de ter sido ignorada por tanto tempo".

O porta-voz do Google, Brian Gabriel, disse que a empresa acolheu bem o novo estudo e o estava revisando.

A cor da pele humana vem da interação da luz com proteínas, células sanguíneas e pigmentos como a melanina. A maneira padrão de testar se um algoritmo é influenciado pelo tom de pele é examinar seu desempenho em diferentes tons de pele, com seis opções do mais claro ao mais escuro, conhecidas como escala de Fitzpatrick. Esta escala foi originalmente desenvolvida por dermatologistas para avaliar a resposta da pele aos raios UV. No ano passado, pesquisadores de inteligência artificial no mundo da tecnologia elogiaram o lançamento da Escala Munch pelo Google, dizendo que era mais inclusivo.

CIELAB, o padrão internacional de cores para edição e fabricação de fotos, oferece uma maneira mais fiel de representar o amplo espectro da pele, afirmaram pesquisadores da Sony em um estudo apresentado esta semana na Conferência Internacional sobre Visão Computacional, em Paris. Quando aplicaram os padrões CIELAB para analisar fotos de pessoas diferentes, descobriram que a sua pele diferia não apenas na tonalidade (a profundidade da cor), mas também na tonalidade (ou seja, na gradação da cor).

A incapacidade da escala de tons de pele de capturar corretamente os tons vermelhos e amarelos da pele humana parece ter ajudado alguns preconceitos a passarem despercebidos no algoritmo de imagem. Os investigadores da Sony testaram sistemas de inteligência artificial de código aberto, incluindo um captador de imagens desenvolvido pelo Twitter e um par de algoritmos de geração de imagens, e descobriram que os algoritmos favoreciam a pele vermelha, o que significa que um grande número de pessoas com pele amarelada estava sub-representada nas imagens finais produzidas pelos algoritmos. Isto tem o potencial de prejudicar diversas populações, incluindo o Leste Asiático, o Sul da Ásia, a América Latina e o Médio Oriente.

Os investigadores da Sony criaram uma nova forma de representar o tom de pele para capturar a diversidade anteriormente ignorada. Seu sistema usa duas coordenadas em vez de um número para descrever os tons de pele nas imagens. Ele especifica onde os tons de pele vão do claro ao escuro e do amarelo ao vermelho, o que a indústria cosmética às vezes chama de tons quentes a frios.

O novo método funciona isolando todos os pixels em uma imagem que mostra a pele, convertendo o valor de cor RGB de cada pixel em um código CIELAB e, em seguida, calculando o matiz e matiz médio da população de pixels da pele. Um exemplo do estudo mostrou aparentes fotos de perfil do ex-astro da NFL Terrell Owens e da falecida atriz Eva Garbo com o mesmo tom de pele, mas tons diferentes, com a imagem de Owens parecendo mais avermelhada e a imagem de Garbo mais amarelada.

Escalas de cores que não capturam corretamente os tons vermelhos e amarelos da pele humana ajudam a que os preconceitos nos algoritmos de imagem passem despercebidos.

Quando a equipe da Sony aplicou sua abordagem on-line aos sistemas de dados e inteligência artificial, descobriu problemas significativos. Os pesquisadores descobriram que o CelebAMask-HQ, um conjunto de dados popular de rostos de celebridades usado para treinar o reconhecimento facial e outros programas de visão computacional, tinha 82% das imagens tendenciosas para tons de pele vermelhos, enquanto outro conjunto de dados desenvolvido pela NVIDIA, FFHQ, tinha 66% de tendência para o vermelho. Dois modelos geradores de IA treinados em FFHQ reproduziram esse viés: cerca de quatro em cada cinco imagens geradas por cada um deles eram tendenciosas para tons vermelhos.

O problema não para aí. Quando foi solicitado aos programas de IA ArcFace, FaceNet e Dlib que identificassem se dois retratos correspondiam à mesma pessoa, eles tiveram melhor desempenho em pele vermelha, de acordo com a pesquisa da Sony. Davis King, desenvolvedor do Dlib, disse que não ficou surpreso com o preconceito porque o modelo foi treinado principalmente em fotos de celebridades americanas.

As ferramentas Cloud AI oferecidas pelo Microsoft Azure e Amazon Web Services para detectar sorrisos também funcionam melhor em tons mais vermelhos. Sarah Bird, que lidera a engenharia de inteligência artificial na Microsoft, disse que a empresa tem aumentado os seus investimentos em justiça e transparência. O porta-voz da Amazon, Patrick Neighorn, disse: “Acolhemos com satisfação a colaboração com a comunidade de pesquisa e estamos revisando cuidadosamente este estudo”. A NVIDIA se recusou a comentar.

Como uma pessoa de pele amarela, Xiang está muito preocupado em revelar as limitações dos métodos atuais de teste de inteligência artificial. A Sony usará o novo sistema para analisar seus próprios modelos de visão computacional centrados no ser humano à medida que forem analisados, disse ela, recusando-se a especificar quais. “Todos nós temos diferentes tons de pele. Isso não deve ser usado para nos discriminar”, disse ela.

Há outra vantagem potencial na abordagem da Sony. Medições como a Monkscale do Google exigem que os humanos classifiquem onde a pele de um indivíduo específico se enquadra no espectro. Os desenvolvedores de IA dizem que é uma tarefa variável, já que as percepções das pessoas podem ser influenciadas pela sua localização ou pelas percepções da sua própria raça e identidade.

A abordagem da Sony é totalmente automatizada e não requer julgamento humano. Mas Monk, de Harvard, questiona se isso é melhor. Métodos de medição objetivos como os da Sony podem acabar simplificando ou ignorando outras complexidades da diversidade humana. “Se o nosso objetivo é eliminar o preconceito, e o preconceito é um fenómeno social, então não tenho a certeza de que devamos retirar da análise a forma como os humanos veem socialmente a cor da pele”, disse ele.