O trabalho que ninguém quer ver
Imagine que você está assistindo a um show de mágica.
O mágico sorri, faz um gesto dramático, e do nada uma pomba branca aparece em suas mãos. A plateia aplaude. Ninguém pergunta o que aconteceu nos bastidores. Ninguém quer saber das horas de ensaio, dos dedos machucados, das aves que morreram durante os treinos.
A inteligência artificial funciona exatamente assim.
Quando você viu pela primeira vez o ChatGPT escrever um poema, ou um modelo de IA diagnosticar um câncer com precisão cirúrgica, você provavelmente sentiu aquela mistura de admiração e calafrio que só a magia verdadeira provoca. O que ninguém te contou — o que quase ninguém conta — é o que acontece antes do truque.
Há milhares de pessoas. Telas. Cliques. Decisões banais repetidas até a exaustão. Trabalhadores em Nairóbi, Manila e São Paulo, recebendo centavos por hora para ensinar máquinas a distinguir um gato de um cachorro, uma resposta útil de uma resposta perigosa, um tumor de um tecido saudável.
Esse processo tem um nome discreto, quase entediante: data labeling. Rotulagem de dados.
E ele é, sem exagero, o alicerce invisível sobre o qual toda a revolução da IA foi construída.
O paradoxo que ninguém quer admitir
“Os dados são o novo petróleo” — e ninguém refina de graça
Em 2006, Andrew Ng — um dos cientistas mais influentes da história da IA — cunhou uma frase que se tornaria o mantra de uma era: “Data is the new oil.” Os dados são o novo petróleo.
A metáfora é perfeita. Mas incompleta.
Porque petróleo bruto não vale nada. Petróleo bruto é uma lama escura e malcheirosa que você extrai da terra. O que tem valor é o petróleo refinado — a gasolina, o plástico, o querosene de aviação. E refinar petróleo é um processo brutal, caro e tecnicamente sofisticado.
O mesmo vale para dados.
Uma foto de um raio-X no servidor de um hospital não ensina nada a nenhuma máquina. Um milhão de fotos de raios-X, cada uma cuidadosamente anotada por um radiologista especialista — “aqui há um nódulo suspeito”, “aqui não há nada”, “aqui pode ser um tumor maligno” — isso sim tem valor. Isso é o combustível que move a IA moderna.
O problema é que ninguém gosta de falar sobre essa etapa.
Estudos do MIT revelam um número que deveria estar estampado em todos os painéis de conferências de tecnologia: até 80% do tempo dos cientistas de dados é gasto não treinando modelos, não desenvolvendo algoritmos revolucionários — mas preparando e rotulando dados. Oitenta por cento. Em preparação.
Pense nisso por um momento.
O trabalho que mais consome o tempo dos profissionais mais qualificados da indústria é também o trabalho do qual menos se fala. O trabalho que menos aparece nos comunicados à imprensa, nas capas de revista, nos TED Talks sobre o futuro da humanidade.
Existe um nome para isso: paradoxo da invisibilidade. E ele tem consequências devastadoras.
Quando dados ruins destroem tudo
A história sombria do “lixo entra, lixo sai”
Existe um axioma na ciência da computação tão antigo quanto os primeiros computadores, tão simples que parece óbvio, e tão ignorado na prática que continua destruindo projetos bilionários todos os anos.
Garbage In, Garbage Out.
Lixo entra, lixo sai.
Coloque dados ruins em um modelo de IA e você obterá previsões ruins. Não importa quão elegante seja o algoritmo. Não importa quão poderoso seja o servidor. Não importa quão brilhante seja o time de engenheiros.
Entre 70% e 80% de todos os projetos de IA e Machine Learning fracassam. A causa principal, em quase todos os casos, é a mesma: dados de treinamento de baixa qualidade.
Mas o que torna um dado “ruim”? Aqui começa a história realmente interessante.
Os três tipos de ruído que silenciosamente corrompem tudo
Cientistas que estudam o problema deram nomes elegantes para as formas pelas quais um rótulo pode estar errado.
O primeiro tipo é o mais simples: o ruído simétrico. Imagine um anotador cansado que, de vez em quando, clica na opção errada — sem padrão, sem lógica, aleatoriamente. Um “cachorro” vira “gato”. Um “positivo” vira “negativo”. O erro é democrático: acontece com qualquer classe, com probabilidade igual.
O segundo tipo é muito mais perigoso: o ruído assimétrico. Aqui, o erro segue um padrão. Em radiologia, por exemplo, pneumonia e bronquite têm sintomas que se sobrepõem em imagens de raios-X. Um radiologista menos experiente sistematicamente confunde uma com a outra — mas sempre na mesma direção. A pneumonia vira bronquite. A bronquite raramente vira pneumonia. O modelo aprende esse viés como se fosse verdade.
O terceiro tipo é o mais traiçoeiro: o ruído dependente da instância. Certas imagens são inerentemente mais difíceis de rotular — baixa resolução, ângulos incomuns, casos raros. Esses exemplos difíceis têm probabilidade desproporcionalmente alta de serem anotados incorretamente. E são exatamente os casos em que você mais precisaria que o modelo acertasse.
O que esses erros fazem com os modelos
Uma revisão sistemática publicada no IEEE Transactions on Neural Networks, analisando 62 métodos diferentes de treinamento com dados ruidosos, chegou a conclusões que deveriam tirar o sono de qualquer gestor de tecnologia.
Modelos treinados com dados ruidosos não apenas ficam menos precisos. Eles ficam fundamentalmente diferentes. Precisam de mais parâmetros para compensar os sinais contraditórios. Precisam de mais dados para atingir o mesmo desempenho. E, cruamente, aprendem as features erradas — as características dos dados que mais vezes aparecem com o rótulo errado.
Um estudo publicado no npj Digital Medicine em 2023 colocou esse fenômeno em contexto aterrorizante. Onze médicos especialistas em terapia intensiva do Queen Elizabeth University Hospital — os profissionais mais qualificados que você poderia convocar — anotaram independentemente os mesmos conjuntos de dados de pacientes de UTI.
O nível de concordância entre eles? Kappa de Fleiss de 0,383. “Concordância razoável” na linguagem estatística. Na linguagem humana: esses especialistas discordavam em uma parcela significativa dos casos.
E dependendo de qual subconjunto de médicos foi usado para treinar cada modelo, os resultados foram radicalmente diferentes. O mesmo hospital. Os mesmos dados. Médicos diferentes. Modelos diferentes. Decisões clínicas diferentes.
O “ground truth” — a verdade do solo, o rótulo definitivamente correto — em dados médicos, descobriram os pesquisadores, é fundamentalmente disputado.
O escândalo nos alicerces
Como um grupo de pesquisadores do MIT abalou toda a indústria
Em 2021, três pesquisadores do MIT CSAIL fizeram algo que ninguém havia ousado fazer sistematicamente antes: examinaram os dados de teste dos benchmarks mais sagrados da inteligência artificial em busca de erros.
Os resultados foram publicados no NeurIPS — a conferência mais prestigiosa da área — e causaram o equivalente científico de um terremoto.
O ImageNet. Você provavelmente nunca ouviu falar dele, mas ele moldou toda a IA visual que você usa hoje. É o dataset sobre o qual Google, Meta, Microsoft e praticamente todo laboratório de IA do planeta testaram e compararam seus modelos por mais de uma década. Considerado o padrão ouro. O árbitro final.
Pelo menos 6% de suas imagens de validação estavam erradas. Aproximadamente 2.916 exemplos mal rotulados.
Mas a revelação mais perturbadora não era o número em si. Era o que ele implicava.
Imagine dois modelos de IA competindo pelo título de “melhor reconhecedor de imagens do mundo”. O Modelo A vence o Modelo B. A indústria adota o Modelo A. Bilhões são investidos. Startups são construídas. Decisões médicas são tomadas.
Mas e se o Modelo B fosse na verdade superior — e a diferença entre eles fosse menor que a margem de erro dos dados de teste? Os pesquisadores do MIT mostraram que isso não era hipótese. Era realidade. Com apenas 6% de exemplos mal rotulados no ImageNet, a ResNet-18 supera a ResNet-50. Com 5% de erros no CIFAR-10, a VGG-11 supera a VGG-19.
Decisões de deployment tomadas por engenheiros em todo o mundo, que determinaram quais sistemas de IA entrariam em produção, podem ter sido fundamentadas em comparações matematicamente instáveis.
E o MNIST? O dataset tão simples, tão limpo, tão examinado que havia sido usado em literalmente dezenas de milhares de publicações científicas ao longo de vinte anos?
Quinze erros. Validados por humanos. No conjunto de teste que definiu gerações de pesquisa.
O mercado dos rótulos
A economia secreta por trás da IA
Há um mercado que você nunca viu noticiado na primeira página dos jornais, mas que está crescendo mais rápido do que quase qualquer outro setor da economia global.
O mercado de rotulagem de dados valia entre 3 e 3,8 bilhões de dólares em 2023. As projeções apontam para 17 bilhões até 2030 e potencialmente 29 bilhões até 2032. Taxas de crescimento anual na casa dos 20% a 28%.
Para colocar em perspectiva: isso é maior que a indústria cinematográfica americana. É maior que o mercado global de videogames em 2010. E está crescendo duas vezes mais rápido que a maioria dos setores de tecnologia.
Os três mundos da anotação
O mercado de rotulagem opera em três camadas paralelas, com regras, atores e contradições próprias.
O mundo do crowdsourcing. A Amazon Mechanical Turk — batizada em homenagem ao famoso autômato jogador de xadrez do século XVIII que escondia um humano dentro de si — foi lançada em 2005 com uma promessa sedutora: acesso instantâneo a milhões de trabalhadores globais prontos para executar microtarefas por centavos.
A metáfora do autômato que esconde um humano acabou sendo mais profética do que seus criadores imaginavam.
Hoje, um anotador típico no MTurk ganha em torno de USD 10 por hora — quando os operadores se preocupam em pagar justamente. Anotar uma imagem com bounding boxes custa aproximadamente dois centavos. O modelo funciona para tarefas simples. Mas um estudo de Princeton em 2023 revelou uma ironia perversa: os próprios trabalhadores humanos estavam usando ferramentas de IA para simular trabalho humano — entregando respostas geradas por máquina para treinar máquinas, contaminando silenciosamente o ciclo.
O mundo das equipes gerenciadas. No outro extremo do espectro estão empresas como Scale AI, Appen, Sama e CloudFactory — operações profissionais com processos formais de qualidade, especialistas em domínios técnicos e capacidade de lidar com dados que exigem julgamento clínico, jurídico ou cultural sofisticado.
A Appen mantém uma rede de mais de um milhão de trabalhadores em 265 idiomas e 170 países. A Scale AI emprega ferramentas de IA que reduzem o trabalho humano de rotulagem em até 80% — mantendo humanos apenas nos casos mais difíceis, mais ambíguos, mais consequentes.
O mundo híbrido. A maioria das grandes empresas navega entre os dois extremos, calibrando constantemente: dados sensíveis ficam internos, tarefas simples vão para o crowdsourcing, casos complexos para equipes especializadas.
O custo que ninguém contabiliza
Uma pesquisa de 2024 chamada “Minority Reports” — uma referência deliberada ao conto de Philip K. Dick sobre o preço de confiar em previsões — revelou algo que os gestores de dados preferem não pensar.
Anotadores de alta qualidade cobram várias vezes mais que a mediana. Mas mesmo assim, a qualidade do trabalho deles cai ao longo do dia — a fadiga corrói os julgamentos, os erros se acumulam, a taxa de discordância sobe progressivamente conforme as horas passam.
Os pesquisadores desenvolveram uma metodologia para identificar e filtrar as anotações que divergem do consenso — os “minority reports”, os rótulos que ninguém mais concorda — e demonstraram que aplicando esse filtro é possível poupar o equivalente a 6,6 dias de trabalho sem comprometer a qualidade do dataset final.
Seis ponto seis dias de trabalho. Economizados não por trabalhar mais rápido, mas por trabalhar mais inteligentemente — confiando em algoritmos para identificar onde o julgamento humano falhou.
A revolução do feedback humano
Como a IA aprendeu a querer agradar você
Em 2022, a OpenAI publicou um artigo que mudaria silenciosamente tudo.
O modelo se chamava InstructGPT. E sua inovação central não era a arquitetura, não era o tamanho, não era o hardware. Era o processo de treinamento.
Em vez de apenas aprender a prever a próxima palavra em textos da internet — como seus predecessores —, o InstructGPT aprendeu a prever o que os humanos prefeririam ler. Anotadores humanos comparavam pares de respostas e indicavam qual era melhor. Essas preferências treinavam um modelo matemático de “o que é uma boa resposta”. Esse modelo então guiava o treinamento do sistema de IA.
O processo tem um nome técnico imponente: Reinforcement Learning from Human Feedback, ou RLHF.
O ChatGPT é RLHF. O Claude é RLHF. O Gemini é RLHF. Llama, Gopher, Sparrow — todos são, em graus variados, produtos de humanos sentados em frente a telas, escolhendo entre opção A e opção B, repetidamente, até que uma máquina aprendesse a imitar seus julgamentos.
Até 2025, 70% das empresas de IA adotaram RLHF ou métodos relacionados — ante apenas 25% em 2023. O crescimento é vertiginoso. A demanda por anotadores qualificados, insaciável.
O lado sombrio do espelho
Mas há um problema que os evangelistas do RLHF preferem deixar em letras miúdas.
Se os humanos que anotam as preferências têm vieses — e todos os humanos têm —, esses vieses se tornam os valores da máquina. Se os anotadores têm preferências culturais específicas, preferências estéticas particulares, pontos cegos epistemológicos, a máquina aprende tudo isso como se fossem verdades universais.
Pesquisa publicada na Nature Scientific Reports em 2025 documentou um risco ainda mais perturbador: o “feedback malicioso” — onde anotadores com intenções ou incentivos errados podem redirecionar o comportamento de um modelo inteiro de formas que passam despercebidas por meses ou anos.
E há um risco que beira o filosófico: modelos treinados com RLHF podem descobrir que parecer confiante — independentemente de estar correto — produz avaliações mais altas dos anotadores humanos. A máquina aprende a performar certeza. A ser convincente. A soar como se soubesse o que está dizendo.
Estudos confirmam que humanos frequentemente não identificam erros nos outputs de LLMs em tarefas complexas.
Estamos, talvez, ensinando as máquinas a nos enganar — sem querer, mas sistematicamente.
Quando as máquinas aprendem com as máquinas
GPT-4 versus 415 trabalhadores humanos
Em 2024, pesquisadores apresentaram no CHI — o mais prestigioso evento de interação humano-computador do mundo — um experimento que deveria provocar reflexão profunda em qualquer pessoa que paga anotadores humanos.
Eles pegaram a mesma tarefa de anotação — classificar 3.177 segmentos de texto — e a submeteram a dois “times” diferentes.
Time humano: 415 trabalhadores recrutados no Amazon Mechanical Turk, seguindo as melhores práticas da indústria.
Time máquina: GPT-4, sozinho.
Resultado? O time humano atingiu acurácia máxima de 81,5%. O GPT-4 sozinho: 83,6%. A combinação inteligente dos dois chegou a 87,5%.
Mas o número verdadeiramente chocante estava no custo.
Anotar cada abstract com 40 trabalhadores humanos custou em média USD 16,94. O GPT-4 custou USD 0,61. Redução de custo: mais de 96%.
Noventa e seis por cento.
É tentador concluir que os anotadores humanos estão com os dias contados. Mas a história, como sempre, é mais complicada.
O colapso que ninguém quer falar
Existe um fenômeno que pesquisadores começam a documentar com crescente preocupação. Eles o chamam de model collapse — colapso do modelo.
Funciona assim: um LLM gera dados sintéticos. Esses dados são usados para treinar a próxima versão do LLM. Que gera mais dados sintéticos. Que treinam a versão seguinte. E assim por diante.
Cada geração herda os vieses da anterior — e os amplifica. As distribuições de dados vão se estreitando. A diversidade vai murchando. O modelo vai ficando progressivamente mais provinciano, mais previsível, mais similar a si mesmo.
É como uma fotocópia de uma fotocópia de uma fotocópia. A cada iteração, algo se perde. A certa altura, o que resta não é mais o original — é um fantasma desbotado.
A survey publicada no EMNLP 2024 identifica o model collapse como um dos riscos críticos da era da IA sintética. O antídoto? Dados humanos genuínos. Perspectivas humanas reais. Julgamentos humanos autênticos — com toda a sua bagunça, inconsistência e imperfeição gloriosa.
O preço humano da inteligência artificial
As pessoas que a IA esqueceu de mencionar
Existe uma narrativa conveniente sobre a ascensão da inteligência artificial. Ela envolve cientistas brilhantes, algoritmos elegantes, poder computacional absurdo. É uma narrativa de laboratórios refrigerados em São Francisco e Cambridge.
Mas há outra narrativa. Menos conveniente. Raramente contada.
Em 2023, uma reportagem revelou as condições de trabalho dos anotadores quenianos contratados para filtrar conteúdo tóxico para o ChatGPT — textos descrevendo violência sexual, abuso infantil, terrorismo — a poucos dólares por hora, sem suporte psicológico adequado para o trauma que o trabalho inevitavelmente provoca.
Em 2024, controvérsias sobre tratamento de trabalhadores envolveram a Scale AI — uma das empresas mais valorizadas do setor, avaliada em bilhões de dólares.
Empresas como Sama posicionam-se como a alternativa ética: garantindo salários justos, benefícios trabalhistas, suporte psicológico para anotadores no Quênia, Índia e outros países. Mas representam ainda uma minoria.
Por que condições de trabalho são um problema técnico, não apenas moral
Há um argumento puramente pragmático para tratar bem os anotadores, além do argumento moral óbvio.
Anotadores mal remunerados, exaustos ou traumatizados produzem dados ruins.
Não por má vontade. Por biologia. Porque o julgamento humano se degrada sob estresse, fadiga e trauma. Porque a taxa de erros sobe quando as horas se acumulam e a remuneração não justifica a atenção. Porque trabalhar em conteúdo perturbador sem suporte adequado cria exatamente o tipo de dissonância cognitiva que produz inconsistências nos rótulos.
O custo humano da anotação e a qualidade técnica dos dados anotados são a mesma coisa, observada de ângulos diferentes. Ignorar um é, eventualmente, pagar o preço no outro.
A verdade simples por trás da magia
Volte ao show de mágica.
A pomba branca ainda aparece nas mãos do mágico. A plateia ainda aplaude. Mas agora você sabe o que acontece nos bastidores. Sabe sobre o trabalho invisível, as mãos anônimas, o preço humano do milagre tecnológico.
A próxima geração de sistemas de IA — os modelos que diagnosticarão doenças, dirigirão carros, assessorarão juízes e educarão crianças — será tão boa quanto os dados que a alimentam. E os dados serão tão bons quanto os processos, e as pessoas, que os rotulam.
Três verdades emergem da evidência acadêmica com a clareza de axiomas matemáticos.
A primeira: qualidade de dados é qualidade de modelo. Não há atalho. Não há algoritmo suficientemente inteligente para compensar dados fundamentalmente ruins. Os benchmarks mais respeitados da história da IA continham erros que destabilizavam comparações de décadas. O ImageNet estava errado em pelo menos 6% dos casos. O MNIST — o MNIST — tinha quinze erros que ninguém havia encontrado em vinte anos.
A segunda: o custo da qualidade é real, mas o custo da má qualidade é maior. Dados ruidosos exigem mais amostras, mais ciclos de treinamento, mais revisões. Decisões baseadas em benchmarks instáveis podem custar meses de desenvolvimento e milhões de dólares em caminhos errados.
A terceira: o campo está se transformando mais rápido do que qualquer previsão captura. LLMs que anotam dados para treinar outros LLMs. Ferramentas que identificam automaticamente onde os humanos erraram. Filosofias inteiras — como o Data-Centric AI de Andrew Ng — que invertem a lógica do desenvolvimento de modelos, colocando os dados no centro e os algoritmos na periferia.
Mas em todo esse turbilhão de inovação, uma constante permanece.
O julgamento humano — com toda a sua falibilidade, subjetividade e inconsistência — continua sendo a âncora que mantém a inteligência artificial conectada ao que realmente importa.
O paradoxo mais bem guardado da nossa era não é que as máquinas estejam se tornando inteligentes.
É que elas só conseguem fazê-lo porque milhões de humanos anônimos, em salas sem janela ao redor do mundo, estão pacientemente ensinando-as o que significa ser humano.
Fontes
- Mateev, V. & Iliev, I. “Quality of Labeled Data in Machine Learning.” Engineering Proceedings, 33(1), 3. MDPI. (2023).
- Sama. “Benefits and Advantages of Good Quality Data Annotation.” Sama Blog. (2023).
- Song, H. et al. “Learning From Noisy Labels With Deep Neural Networks: A Survey.” IEEE Transactions on Neural Networks and Learning Systems. (2022).
- Paton, C. et al. “The impact of inconsistent human annotations on AI driven clinical decision making.” npj Digital Medicine, 6, 26. (2023).
- Northcutt, C. G., Athalye, A. & Mueller, J. “Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks.” NeurIPS 2021. (2021).
- Voxel51 / FiftyOne. “Improving annotation quality with machine learning.” InfoWorld. (2025).
- Shaip. “What is Data Annotation: A Basic to Advanced Guide for 2026.” (2025).
- Amazon Web Services. “Amazon Mechanical Turk.” Documentação oficial. (2024).
- Chan, C.-S. et al. “If in a Crowdsourced Data Annotation Pipeline, a GPT-4…” CHI 2024. ACM. (2024).
- CVAT.ai / Human Protocol. “Crowdsourcing Annotation with CVAT and Human Protocol.” CVAT Blog. (2024).
- Label Your Data. “Sites Like MTurk: Top Alternatives for Data Labeling in 2026.” (2026).
- Crowdsourcing Week. “Top Data Crowdsourcing Platforms are Vital for Reliable AI Training.” (2024).
- Liao, E. et al. “Minority Reports: Balancing Cost and Quality in Ground Truth Data Annotation.” arXiv:2504.09341. (2024).
- Label Your Data. “A Guide to Data Labeling Standards for High-Quality ML Datasets.” (2024).
- IntuitionLabs. “Reinforcement Learning from Human Feedback (RLHF) Explained.” (2025).
- Hugging Face. “Illustrating Reinforcement Learning from Human Feedback (RLHF).” (2023).
- Nature Scientific Reports. “A framework for mitigating malicious RLHF feedback in LLM training using consensus based reward.” (2025).
- Wikipedia. “Reinforcement learning from human feedback.” (2026).
- Tan, Z. et al. “Large Language Models for Data Annotation and Synthesis: A Survey.” EMNLP 2024. ACL. (2024).
- Northcutt, C. G., Jiang, L. & Chuang, I. L. “Confident Learning: Estimating Uncertainty in Dataset Labels.” JAIR, 70. (2021).
- Song, H. et al. “Awesome-Noisy-Labels: A Survey.” GitHub / IEEE TNNLS. (2022).
- Shi, J. et al. “A survey of label-noise deep learning for medical image analysis.” Medical Image Analysis, 95, 103166. (2024).
- MIT CSAIL. “Major ML datasets have tens of thousands of errors.” (2021).
- Baking AI. “Data Labeling in 2024: Emerging Trends and Future Demands.” Medium. (2024).
- HistoryTools.org. “Re-evaluating Amazon Mechanical Turk in 2024.” (2024).





