A inteligência artificial moderna depende fundamentalmente de milhões de trabalhadores humanos que rotulam, classificam e validam dados em uma escala sem precedentes. Apesar dos avanços tecnológicos impressionantes, a catalogação manual de dados permanece essencial para o desenvolvimento de IA de alta qualidade, com o mercado global projetado para crescer de $2,2 bilhões em 2024 para $8,22 bilhões até 2028¹. A Scale AI, empresa líder no setor recentemente avaliada em $29 bilhões após investimento da Meta², continua tendo a rotulagem manual como seu core business, empregando especialistas com PhD que chegam a receber $100 por anotação de alta complexidade. Esta realidade contrasta fortemente com a narrativa popular de automação total, revelando uma infraestrutura global de trabalho humano que sustenta a aparente “magia” da inteligência artificial.
A Scale AI evoluiu dramaticamente desde sua fundação em 2016, transformando-se de uma startup focada em dados para carros autônomos em uma potência global de infraestrutura de IA³. A empresa mantém a rotulagem manual de dados como seu principal negócio, mas expandiu significativamente suas operações através de plataformas como Scale Data Engine e Scale GenAI Platform. O foco atual está em Reinforcement Learning from Human Feedback (RLHF), técnica crucial para treinar modelos como ChatGPT, Gemini e Claude⁴.
Um desenvolvimento transformador ocorreu em junho de 2025: a Meta investiu $14,3 bilhões por 49% da Scale AI, mais que dobrando sua avaliação anterior⁵. Este acordo teve consequências dramáticas - Google, Microsoft e OpenAI cortaram relações com a empresa, temendo que a Meta acessasse informações estratégicas de concorrentes⁶. A perda destes clientes principais, que representavam centenas de milhões em receita anual, beneficiou competidores como Labelbox e Surge AI, que reportaram aumentos massivos na demanda.
Financeiramente, a Scale AI projeta receita de $2 bilhões para 2025, um crescimento de 130% sobre os $870 milhões de 2024⁷. A empresa opera através de subsidiárias especializadas como Remotasks (visão computacional) e Outlier (anotação para LLMs), mantendo contratos governamentais significativos incluindo o programa militar Thunderforge. A mudança de liderança, com Alexandr Wang deixando o cargo de CEO para liderar uma unidade de “Superinteligência” na Meta, marca uma nova fase na evolução da empresa⁸.
O processo de catalogação manual de dados em 2024-2025 combina sofisticação tecnológica com dependência crítica de julgamento humano. Trabalhadores especializados contribuem através de três mecanismos principais: demonstrações de comportamento desejado para supervised fine-tuning, feedback de preferência para ranqueamento de respostas, e validação contínua de outputs do modelo⁹. O modelo Human-in-the-Loop (HITL) tornou-se padrão, onde IA gera pré-anotações que humanos refinam e validam¹⁰.
A necessidade de input humano persiste devido a limitações técnicas fundamentais. Dados sintéticos puros sofrem de amplificação de viés e falta de diversidade real - modelos treinados apenas em dados gerados por IA podem perpetuar e amplificar erros sistemáticos. Conceitos como “útil” ou “inofensivo” são impossíveis de definir matematicamente sem contexto cultural e nuances humanas. Tarefas subjetivas envolvendo criatividade, relevância contextual e julgamentos éticos requerem compreensão que transcende capacidades algorítmicas atuais¹¹.
RLHF emergiu como técnica transformacional para alinhamento de IA. O processo envolve quatro fases: pré-treinamento inicial, supervised fine-tuning com demonstrações humanas, treinamento de reward model baseado em preferências humanas, e otimização final com reinforcement learning¹². O InstructGPT da OpenAI, com apenas 1,3 bilhões de parâmetros, foi preferido sobre o GPT-3 de 175 bilhões de parâmetros após aplicação de RLHF, demonstrando o poder desta abordagem¹³. ChatGPT e GPT-4 dobraram sua precisão em questões adversariais através de RLHF, embora o processo permaneça caro - cerca de $50.000 para 50.000 amostras de feedback¹⁴.
As tarefas de rotulagem manual em 2024-2025 abrangem um espectro vasto de complexidade e especialização. Anotação de imagens permanece dominante, incluindo desde bounding boxes básicos ($15-25/hora) até segmentação médica especializada ($70+/hora). Veículos autônomos requerem identificação precisa de pedestres, ciclistas e condições climáticas adversas, com custos chegando a $6,40 por imagem para segmentação semântica completa¹⁵.
Processamento de linguagem natural expandiu dramaticamente com o surgimento de LLMs. Tarefas críticas incluem response ranking para RLHF, onde especialistas comparam e classificam outputs de modelos, e detecção de alucinações - identificação de informações falsas geradas por IA. A avaliação de chain-of-thought reasoning, onde anotadores rotulam processos de raciocínio passo-a-passo, tornou-se essencial para modelos avançados. Especialistas em domínios específicos como medicina, direito e ciências exatas comandam salários premium devido à necessidade de expertise profunda¹⁶.
Tarefas multimodais emergentes representam a fronteira da complexidade. Vision-language models requerem dense captioning - descrições detalhadas de múltiplos objetos e suas relações espaciais. Anotação de nuvens de pontos 3D para LiDAR combina compreensão espacial com conhecimento técnico. A fusão de dados de múltiplos sensores para aplicações de realidade aumentada demanda habilidades interdisciplinares raras¹⁷.
Certas tarefas permanecem impossíveis de automatizar completamente. Julgamentos éticos complexos, interpretação de nuances culturais, e avaliação de criatividade artística requerem compreensão humana profunda. Edge cases - situações ambíguas ou inéditas - continuam desafiando sistemas automatizados. A resolução de conflitos entre anotadores e adaptação a mudanças regulatórias exigem flexibilidade cognitiva exclusivamente humana¹⁸.
O mercado global de data labeling experimentou crescimento explosivo entre 2020-2025, com estimativas variando de $3,77 bilhões a $4,05 bilhões em 2024, projetado para alcançar entre $8,23 bilhões e $17,10 bilhões até 2030¹⁹. As taxas de crescimento anual compostas (CAGR) variam de 15,58% a 28,4%, refletindo demanda estrutural robusta impulsionada pela expansão de aplicações de IA em todos os setores²⁰.
A landscape competitiva diversificou significativamente. Appen Limited, fundada em 1996, mantém posição forte com parcerias estratégicas incluindo NVIDIA²¹. Labelbox arrecadou $190 milhões e desenvolveu a rede Alignerr com 10.000+ especialistas, beneficiando-se diretamente da perda de clientes da Scale AI²². Snorkel AI, valorizada em $1 bilhão, pioneirou “programmatic labeling” através de weak supervision, reduzindo dependência de anotação manual extensiva²³.
Mudanças metodológicas fundamentais transformaram o setor. Active learning permite que algoritmos identifiquem dados mais informativos para rotulagem humana, reduzindo volume necessário. Human-in-the-Loop evoluiu de processo puramente manual para workflows híbridos sofisticados. A integração de LLMs automatizou tarefas de processamento de texto, alcançando redução de até 70% no tempo de anotação para certas aplicações²⁴.
O impacto dos LLMs no mercado é paradoxal - enquanto automatizam tarefas básicas, criaram demanda massiva por dados de alta qualidade para RLHF. Empresas de tecnologia gastam aproximadamente $1 bilhão anualmente cada em dados humanos. A automação está projetada para crescer a CAGR de 18% até 2030, mas trabalho manual ainda representa mais de 76% da participação no mercado, evidenciando limitações persistentes da automação completa²⁵.
As projeções para 2025-2030 indicam transformações estruturais profundas no mercado. Dados sintéticos devem representar 70% das aplicações empresariais até 2025, mas paradoxalmente aumentarão a necessidade de validação humana especializada²⁶. A consolidação através de fusões e aquisições está acelerando, com grandes empresas de tecnologia entrando no mercado através de investimentos estratégicos como o acordo Meta-Scale AI.
Especialização vertical por indústria emerge como tendência dominante. Saúde foca em imagens médicas complexas e conformidade regulatória. O setor automotivo demanda anotação precisa de cenários de condução em condições adversas. Finanças requer análise sofisticada de documentos para detecção de fraude e conformidade. Cada vertical desenvolve requisitos únicos de expertise e certificação²⁷.
A força de trabalho está passando por transformação fundamental. Trabalhadores migram de rotulagem básica para supervisão e garantia de qualidade. Novas competências essenciais incluem compreensão de algoritmos de ML, habilidades de prompt engineering, e expertise em controle de qualidade de dados. Salários para especialistas com PhD em domínios específicos alcançam $100+ por hora, contrastando fortemente com $1-3 por hora para tarefas básicas em países em desenvolvimento²⁸.
Regulamentação emergente sobre ética em IA e proteção de dados está reformulando práticas da indústria. Compliance com GDPR e regulamentações similares tornou-se requisito fundamental. Transparência na proveniência dos dados e eliminação de vieses sistêmicos dirigem desenvolvimento de novas metodologias. Blockchain para rastreabilidade de dados e edge computing para processamento local representam inovações tecnológicas respondendo a preocupações regulatórias²⁹.
O artigo “Inside the AI Factory” de Josh Dzieza, publicado no New York Magazine em junho de 2023, revelou a realidade perturbadora do trabalho humano que sustenta a inteligência artificial moderna³⁰. A investigação expõe como empresas de tecnologia criam uma “ilusão de magia tecnológica” enquanto dependem de milhões de trabalhadores invisíveis globalmente. O exemplo mais marcante: as lojas “automatizadas” da Amazon que na verdade dependiam de cerca de 1.000 trabalhadores indianos monitorando clientes remotamente³¹.
Dzieza documenta histórias humanas por trás dos números. Joe, um anotador de 30 anos em Nairobi, rotulava footage para carros autônomos frame por frame, identificando veículos e pedestres por $1,25 por hora - trabalho que permite que empresas do Vale do Silício desenvolvam tecnologia vendida como “autônoma”. Trabalhadores americanos na mesma plataforma Remotasks ganham $10-25 por hora, ilustrando disparidades salariais extremas baseadas em geografia³².
A moderação de conteúdo emerge como trabalho particularmente traumático. Trabalhadores da Sama no Quênia, contratados pela Meta, são expostos a violência gráfica, suicídio e abuso infantil, com software monitorando para garantir decisões em 50 segundos ou menos. Muitos desenvolvem PTSD sem acesso adequado a suporte de saúde mental. NDAs rigorosos proíbem discussão do trabalho, criando isolamento psicológico adicional³³.
O conceito de “ghost work” - trabalho realizado por humanos mas percebido como automatizado - permeia a economia digital. Desde o projeto ImageNet de 2007, que usou Amazon Mechanical Turk para rotular milhões de imagens, estabeleceu-se um precedente de terceirização massiva que viabilizou o boom atual de IA. Dzieza argumenta que longe de eliminar trabalho humano, a IA está criando novas formas de exploração laboral que ecoam padrões coloniais históricos³⁴.
A catalogação manual de dados permanece o alicerce invisível mas indispensável da revolução da IA. Apesar de narrativas sobre automação completa, a realidade revela dependência crescente de expertise humana especializada para tarefas complexas de validação, alinhamento ético e compreensão contextual. O mercado, projetado para quadruplicar até 2030, está passando por consolidação e especialização vertical, com empresas como Scale AI navegando tensões entre crescimento e manutenção de neutralidade competitiva.
O paradoxo central persiste: quanto mais sofisticada a IA se torna, mais crítico torna-se o input humano de alta qualidade. RLHF demonstrou que modelos menores com feedback humano extensivo superam modelos massivos treinados apenas em dados brutos. Edge cases, nuances culturais e julgamentos éticos continuarão exigindo intervenção humana, criando empregos especializados mesmo enquanto tarefas básicas são automatizadas.
As revelações sobre condições de trabalho precárias e exploração global levantam questões éticas urgentes sobre o verdadeiro custo da “inteligência” artificial. Sem reformas estruturais - incluindo salários justos, proteções trabalhistas e transparência sobre a natureza híbrida humano-máquina destes sistemas - a indústria de IA risk perpetuar desigualdades globais enquanto concentra benefícios nas mãos de poucas empresas tecnológicas. O futuro da IA não está na eliminação do trabalho humano, mas na criação de colaboração ética e sustentável entre inteligência humana e artificial.
1. GlobeNewswire. “2025 Research: Data Collection Labeling Market Projected to Reach USD 8.23 Billion by 2030”. Janeiro 2025. Link
2. TechCrunch. “Scale AI confirms ‘significant’ investment from Meta, says CEO Alexandr Wang is leaving”. Junho 2025. Link
3. Wikipedia. “Scale AI”. Link
4. IBM. “What Is Reinforcement Learning From Human Feedback (RLHF)?”. Link
5. CNBC. “A frustrated Zuckerberg makes his biggest AI bet as Meta nears $14 billion stake in Scale AI”. Junho 2025. Link
6. Reuters. “Google, Scale AI’s largest customer, plans split after Meta deal, sources say”. Junho 2025. Link
7. Bloomberg. “Scale AI Expects to More Than Double Sales to $2 Billion in 2025”. Abril 2025. Link
8. TapTwice Digital. “8 Scale AI Statistics (2025): Revenue, Valuation, IPO, Funding, Competitors”. Link
9. Labelbox. “Data labeling for AI”. Link
10. Label Your Data. “Human in the Loop Machine Learning: The Key to Better Models in 2025”. Link
11. AIMultiple. “Human Annotated Data in 2025”. Link
12. Hugging Face. “Illustrating Reinforcement Learning from Human Feedback (RLHF)”. Link
13. ArXiv. “Training language models to follow instructions with human feedback”. Link
14. AWS. “What is RLHF? - Reinforcement Learning from Human Feedback Explained”. Link
15. BasicAI. “Computer Vision Data Labeling: A Complete Guide in 2024”. Link
16. Clickworker. “Medical Data Annotation: AI-Powered Labeling Explained”. Link
17. Encord. “10 Best Multimodal Annotation Tools 2025”. Link
18. OpenCV. “Data Annotation Beginner’s Guide - Tools, Types, Challenges, Trends”. Link
19. Grand View Research. “Data Collection And Labeling Market Size Report, 2030”. Link
20. Straits Research. “Data Collection and Labeling Market Trends, Insights, and Future Growth Opportunities”. Link
21. Appen. “Data Annotation Services for AI and ML”. Link
22. Labelbox. “Labelbox: The data factory for AI teams”. Link
23. Fortune. “Snorkel AI now worth $1 billion for its data labeling tech”. Agosto 2021. Link
24. Scale. “Data Labeling: The Authoritative Guide”. Link
25. GlobalData. “Data Collection and Labelling Market Size, Share, Trends and Analysis”. Link
26. BasicAI. “Key Trends Shaping the 2024 Data Annotation Market”. Link
27. Label Your Data. “Data Annotation Market in 2025: Current Trends and Future Demand”. Link
28. TIME. “Is Data Annotation Legit? What to Know About the Tech Jobs”. Março 2024. Link
29. Labelvisor. “Navigating the Trends: Data Annotation Jobs in 2024”. Link
30. NowComment. “AI Is a Lot of Work, By Josh Dzieza, June 20, 2023 New York”. Link
31. Deal.town. “On the Cover: The Humans Inside the AI Factory - New York Magazine”. Link
32. NOEMA. “The Human Cost Of Our AI-Driven Future”. Link
33. NOEMA. “The Exploited Labor Behind Artificial Intelligence”. Link
34. Harvard Business Review. “The Humans Working Behind the AI Curtain”. Janeiro 2017. Link
Artigo baseado no link compartilhado: https://nymag.com/intelligencer/article/ai-artificial-intelligence-humans-technology-business-factory.html