{"id":4670,"date":"2026-04-01T08:00:00","date_gmt":"2026-04-01T08:00:00","guid":{"rendered":"https:\/\/volcano.com.br\/?p=4670"},"modified":"2026-03-18T17:01:25","modified_gmt":"2026-03-18T17:01:25","slug":"feature-engineering","status":"publish","type":"post","link":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/","title":{"rendered":"Feature Engineering"},"content":{"rendered":"\t\t<div data-elementor-type=\"wp-post\" data-elementor-id=\"4670\" class=\"elementor elementor-4670\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-0f9c310 elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"0f9c310\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-99aa953\" data-id=\"99aa953\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-31df2f1 elementor-widget elementor-widget-text-editor\" data-id=\"31df2f1\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>H\u00e1 uma cren\u00e7a crescente, especialmente entre praticantes entusiastas da intelig\u00eancia artificial, de que os grandes modelos de linguagem (Large Language Models \u2014 LLMs) tornaram obsoleta a necessidade de engenharia manual de features. O argumento \u00e9 intuitivo: se um modelo como o GPT-4 pode escrever c\u00f3digo, raciocinar sobre dados, deduzir padr\u00f5es e at\u00e9 propor transforma\u00e7\u00f5es anal\u00edticas, por que um cientista de dados precisaria ainda gastar horas construindo vari\u00e1veis derivadas, codificando categorias, normalizando distribui\u00e7\u00f5es ou extraindo features de s\u00e9ries temporais?<\/p><p>A resposta, como quase sempre acontece em ci\u00eancia, \u00e9 profundamente matizada. Este artigo prop\u00f5e um exame rigoroso desta quest\u00e3o, apoiado em literatura acad\u00eamica recente, estudos de benchmark, e nos avan\u00e7os mais significativos em AutoML e LLMs aplicados \u00e0 ci\u00eancia de dados. A tese central que defenderemos \u00e9 a seguinte: <strong>feature engineering n\u00e3o foi substitu\u00edda pelos LLMs \u2014 ela foi transformada, amplificada e, em determinados contextos, parcialmente automatizada por eles<\/strong>. Mas sua relev\u00e2ncia, longe de ter diminu\u00eddo, permanece fundamentalmente intacta, especialmente no dom\u00ednio mais prevalente do machine learning na ind\u00fastria: os dados tabulares.<\/p><h2>\u00a0<\/h2><h2 id=\"historia\">Uma breve hist\u00f3ria da Feature Engineering<\/h2><p>A engenharia de features como pr\u00e1tica sistem\u00e1tica nasce com o pr\u00f3prio machine learning supervisionado. Pedro Domingos, em seu seminal artigo &#8220;A Few Useful Things to Know About Machine Learning&#8221; (Communications of the ACM, 2012), afirma que o conhecimento de dom\u00ednio, traduzido em boas features, frequentemente determina o sucesso de um modelo mais do que a escolha do algoritmo em si. Esta afirma\u00e7\u00e3o, feita h\u00e1 mais de uma d\u00e9cada, permanece empiricamente v\u00e1lida.<\/p><p>A era pr\u00e9-deep learning era dominada por engenheiros de features que operavam como artes\u00e3os do dado: no campo da vis\u00e3o computacional, histogramas de gradientes orientados (HOG) e descritores SIFT foram engenhados manualmente para detectar bordas e texturas; no processamento de linguagem natural, n-gramas, TF-IDF e features de POS-tagging eram laboriosamente constru\u00eddas; em finan\u00e7as, m\u00e9dias m\u00f3veis, volatilidade realizada e indicadores t\u00e9cnicos eram as features que alimentavam modelos de trading.<\/p><p>O paradigma mudou radicalmente com o advento das redes neurais profundas. A partir de 2012, com o AlexNet demonstrando que representa\u00e7\u00f5es hier\u00e1rquicas podiam ser <em>aprendidas<\/em> diretamente de pixels brutos (Krizhevsky, Sutskever &amp; Hinton, 2012), generalizou-se a ideia de que o deep learning eliminaria a necessidade de feature engineering manual em dom\u00ednios como imagem, \u00e1udio e texto. E, nestes dom\u00ednios espec\u00edficos, esta vis\u00e3o se provou amplamente correta.<\/p><p>Por\u00e9m \u2014 e este \u00e9 o ponto crucial \u2014 o mundo do machine learning n\u00e3o \u00e9 composto apenas de imagens e texto. A maior parte dos problemas de neg\u00f3cios, da sa\u00fade, da ci\u00eancia e da engenharia opera com <strong>dados tabulares<\/strong>: planilhas, bancos de dados relacionais, s\u00e9ries temporais estruturadas. E \u00e9 precisamente neste dom\u00ednio que feature engineering permanece n\u00e3o apenas relevante, mas frequentemente indispens\u00e1vel.<\/p><h2>\u00a0<\/h2><h2 id=\"fundamentos\">Fundamentos: Por que Features importam<\/h2><p>Para compreender a persist\u00eancia da feature engineering, \u00e9 necess\u00e1rio revisitar seus fundamentos te\u00f3ricos. Um modelo de machine learning \u00e9, em \u00faltima an\u00e1lise, uma fun\u00e7\u00e3o matem\u00e1tica que mapeia um espa\u00e7o de entrada X para um espa\u00e7o de sa\u00edda Y. A qualidade dessa fun\u00e7\u00e3o depende criticamente de como o espa\u00e7o de entrada \u00e9 constru\u00eddo.<\/p><p>Features mal constru\u00eddas introduzem tr\u00eas tipos de problemas. Primeiro, <strong>aus\u00eancia de sinal<\/strong>: quando vari\u00e1veis relevantes n\u00e3o est\u00e3o representadas no conjunto de entrada, o modelo n\u00e3o pode aprender rela\u00e7\u00f5es que n\u00e3o foram codificadas. Segundo, <strong>ru\u00eddo irrelevante<\/strong>: features n\u00e3o informativas aumentam a dimensionalidade sem contribuir para o aprendizado, causando problemas de generaliza\u00e7\u00e3o, especialmente em algoritmos sens\u00edveis \u00e0 maldi\u00e7\u00e3o da dimensionalidade. Terceiro, <strong>viola\u00e7\u00e3o de premissas algor\u00edtmicas<\/strong>: algoritmos lineares pressup\u00f5em rela\u00e7\u00f5es lineares entre features e alvo; distribui\u00e7\u00f5es altamente assim\u00e9tricas podem prejudicar modelos baseados em gradiente; vari\u00e1veis categ\u00f3ricas com alta cardinalidade precisam ser representadas de formas espec\u00edficas dependendo do algoritmo.<\/p><p>A feature engineering aborda todos estes problemas de forma sistem\u00e1tica e orientada pelo conhecimento de dom\u00ednio. T\u00e9cnicas como cria\u00e7\u00e3o de features de intera\u00e7\u00e3o, transforma\u00e7\u00f5es logar\u00edtmicas, extra\u00e7\u00e3o de componentes de data\/hora, agrupamentos estat\u00edsticos por categoria, encodings supervisionados (target encoding, CatBoost encoding) e combina\u00e7\u00f5es polinomiais s\u00e3o parte do repert\u00f3rio standard.<\/p><p>O survey de Mumuni &amp; Mumuni (2025), publicado no <em>Journal of Information and Intelligence<\/em> com t\u00edtulo &#8220;Automated data processing and feature engineering for deep learning and big data applications&#8221;, demonstra que, mesmo em pipelines de deep learning, <strong>a automa\u00e7\u00e3o de tarefas de processamento de dados e engenharia de features \u00e9 motivada pela necessidade de lidar com volumes massivos de dados heterog\u00eaneos e complexos<\/strong>, reconhecendo que esta fase permanece como um dos maiores gargalos operacionais.<\/p><h2>\u00a0<\/h2><h2 id=\"dados-tabulares\">O Problema dos dados tabulares: Onde os LLMs ainda trope\u00e7am<\/h2><p>O estudo de Grinsztajn, Oyallon &amp; Varoquaux (NeurIPS 2022), &#8220;Why do tree-based models still outperform deep learning on typical tabular data?&#8221;, \u00e9 provavelmente o benchmark mais citado sobre este tema na literatura recente. Com 20.000 horas de computa\u00e7\u00e3o em busca de hiperpar\u00e2metros e 45 datasets de dom\u00ednios variados, os autores chegaram a conclus\u00f5es que desafiam a narrativa de substitui\u00e7\u00e3o:<\/p><blockquote><p>Modelos baseados em \u00e1rvores \u2014 XGBoost e Random Forests \u2014 permanecem como estado da arte em dados tabulares de m\u00e9dio porte (cerca de 10.000 amostras), mesmo sem considerar sua velocidade superior.<\/p><\/blockquote><p>Os autores identificam tr\u00eas raz\u00f5es fundamentais para esta superioridade, todas diretamente relacionadas \u00e0 natureza do feature engineering:<\/p><ol><li><strong>Robustez a features n\u00e3o informativas<\/strong>: redes neurais t\u00eam performance significativamente degradada pela presen\u00e7a de vari\u00e1veis irrelevantes, enquanto modelos de \u00e1rvore as ignoram naturalmente. Isso significa que a sele\u00e7\u00e3o de features \u2014 uma atividade de engenharia \u2014 tem impacto desproporcional em modelos neurais.<\/li><li><strong>Preserva\u00e7\u00e3o da orienta\u00e7\u00e3o dos dados<\/strong>: dados tabulares t\u00eam uma base natural (os atributos originais) que frequentemente codifica as melhores features. Transforma\u00e7\u00f5es que envolvem combina\u00e7\u00f5es lineares de features \u2014 como as usadas implicitamente por redes neurais \u2014 podem perder este vi\u00e9s \u00fatil.<\/li><li><strong>Capacidade de aprender fun\u00e7\u00f5es irregulares<\/strong>: padr\u00f5es em dados tabulares frequentemente s\u00e3o descont\u00ednuos, esparsos e idiossincr\u00e1ticos \u2014 exatamente o tipo de estrutura que modelos de \u00e1rvore capturam bem e redes neurais encontram dificuldade.<\/li><\/ol><p>O estudo de Shwartz-Ziv &amp; Armon, &#8220;Tabular data: Deep learning is not all you need&#8221; (Information Fusion, 2022), corrobora esta vis\u00e3o ao demonstrar que o XGBoost consistentemente supera modelos de deep learning recentes mesmo nos datasets utilizados nos pr\u00f3prios artigos que propunham esses modelos, sugerindo que os benchmarks publicados muitas vezes s\u00e3o otimizados para favorecer a nova arquitetura proposta.<\/p><p>O estudo de Uddin et al. (PLoS ONE, 2024), &#8220;Confirming the statistically significant superiority of tree-based machine learning algorithms over their counterparts for tabular data&#8221;, vai al\u00e9m da constata\u00e7\u00e3o emp\u00edrica e demonstra <strong>signific\u00e2ncia estat\u00edstica<\/strong> para a superioridade de algoritmos baseados em \u00e1rvore, usando testes formais de hip\u00f3tese. E, crucialmente, modelos baseados em \u00e1rvore s\u00e3o justamente os que mais se beneficiam de uma engenharia de features cuidadosa.<\/p><h2>\u00a0<\/h2><h2 id=\"llms-engenharia\">LLMs entram no jogo da Engenharia de Features<\/h2><p>Se por um lado os LLMs n\u00e3o substitu\u00edram a necessidade de feature engineering nos dom\u00ednios onde ela \u00e9 mais cr\u00edtica, por outro lado eles abriram uma nova fronteira: a possibilidade de <em>automatizar e augmentar<\/em> o pr\u00f3prio processo de engenharia de features usando conhecimento sem\u00e2ntico e racioc\u00ednio em linguagem natural.<\/p><p>Esta \u00e9 uma distin\u00e7\u00e3o fundamental que muitas vezes se perde no debate p\u00fablico. A quest\u00e3o n\u00e3o \u00e9 &#8220;LLMs eliminam a feature engineering?&#8221; mas sim &#8220;LLMs podem fazer feature engineering por n\u00f3s, de forma melhor ou mais eficiente do que humanos?&#8221;. E aqui a resposta come\u00e7a a ser \u2014 em condi\u00e7\u00f5es espec\u00edficas e bem delimitadas \u2014 sim.<\/p><p>O ponto de inflex\u00e3o conceitual \u00e9 que LLMs treinados em vastos corpora de texto t\u00e9cnico, cient\u00edfico e de c\u00f3digo possuem algo que ferramentas tradicionais de AutoFE (Automated Feature Engineering) n\u00e3o t\u00eam: <strong>conhecimento pr\u00e9vio de dom\u00ednio codificado em seus pesos<\/strong>. Um LLM sabe que, em dados de sa\u00fade, IMC pode ser calculado a partir de peso e altura. Sabe que, em finan\u00e7as, ratios como P\/L e EV\/EBITDA t\u00eam significado econ\u00f4mico espec\u00edfico. Sabe que, em dados de transporte, a hora do dia e o dia da semana afetam padr\u00f5es de tr\u00e1fego de formas n\u00e3o lineares.<\/p><p>Esta capacidade \u2014 de propor features semanticamente significativas baseadas em compreens\u00e3o conceitual do dom\u00ednio, n\u00e3o apenas em opera\u00e7\u00f5es matem\u00e1ticas cegas sobre os dados \u2014 \u00e9 qualitativamente diferente de tudo que existia antes em AutoML.<\/p><h2>\u00a0<\/h2><h2 id=\"caafe\">CAAFE: O marco da engenharia sem\u00e2ntica automatizada<\/h2><p>O trabalho mais influente nesta dire\u00e7\u00e3o \u00e9 o CAAFE \u2014 <em>Context-Aware Automated Feature Engineering<\/em> \u2014 apresentado por Hollmann, M\u00fcller e Hutter no NeurIPS 2023. O paper estabelece um framework metodologicamente elegante e empiricamente robusto:<\/p><p><strong>Mecanismo<\/strong>: CAAFE utiliza um LLM (especificamente GPT-4) para gerar iterativamente novas features para datasets tabulares, baseando-se na descri\u00e7\u00e3o textual do dataset e amostras dos dados. O LLM prop\u00f5e transforma\u00e7\u00f5es na forma de c\u00f3digo Python execut\u00e1vel, acompanhadas de explica\u00e7\u00f5es sobre a utilidade de cada feature gerada. Ap\u00f3s cada proposta, o sistema executa a transforma\u00e7\u00e3o, avalia o impacto na performance do classificador downstream via valida\u00e7\u00e3o cruzada, e mant\u00e9m apenas as features que melhoram o ROC AUC. Este ciclo se repete por K itera\u00e7\u00f5es.<\/p><p><strong>Resultados<\/strong>: <em>apesar da simplicidade metodol\u00f3gica, o CAAFE melhora a performance em 11 de 14 datasets avaliados<\/em>, elevando o ROC AUC m\u00e9dio de 0,798 para 0,822 \u2014 uma melhoria compar\u00e1vel \u00e0 diferen\u00e7a entre usar regress\u00e3o log\u00edstica e Random Forest nos mesmos dados. Em um exemplo ilustrativo no dataset Tic-Tac-Toe Endgame, o ROC AUC saltou de 0,888 para 1,0 em apenas duas itera\u00e7\u00f5es de engenharia.<\/p><p>O CAAFE representa o que os autores chamam de &#8220;AutoML sem\u00e2ntico&#8221; \u2014 uma extens\u00e3o dos sistemas cl\u00e1ssicos de AutoML que finalmente endere\u00e7a a fase de engenharia de dados, historicamente deixada ao cargo exclusivo dos humanos. Segundo os pr\u00f3prios autores, citando o relat\u00f3rio State of Data Science da Anaconda (2020), cientistas de dados dedicam apenas 23% do seu tempo \u00e0 constru\u00e7\u00e3o e ajuste de modelos; os outros 77% s\u00e3o gastos em tarefas de engenharia e prepara\u00e7\u00e3o de dados.<\/p><p>Uma observa\u00e7\u00e3o cr\u00edtica importante: CAAFE \u00e9 explicitamente <em>semi-autom\u00e1tico<\/em>. Ele depende que o usu\u00e1rio forne\u00e7a descri\u00e7\u00f5es contextuais do dataset, e sua efic\u00e1cia \u00e9 diretamente proporcional \u00e0 qualidade dessa contextualiza\u00e7\u00e3o. Isso sugere que o papel do cientista de dados n\u00e3o desaparece \u2014 ele se transforma: em vez de propor features manualmente, o praticante agora deve articular o conhecimento de dom\u00ednio de forma que o LLM possa explor\u00e1-lo eficientemente.<\/p><h2>\u00a0<\/h2><h2 id=\"llm-fe\">LLM-FE: Otimiza\u00e7\u00e3o evolutiva com racioc\u00ednio de linguagem<\/h2><p>Avan\u00e7ando sobre os fundamentos do CAAFE, o framework LLM-FE \u2014 apresentado em mar\u00e7o de 2025 em paper no arXiv (Abhyankar et al., 2025) \u2014 combina a capacidade sem\u00e2ntica dos LLMs com t\u00e9cnicas de busca evolutiva para descobrir features de alto impacto em tarefas de aprendizado tabular.<\/p><p>A inova\u00e7\u00e3o central do LLM-FE \u00e9 tratar o processo de engenharia de features como um problema de otimiza\u00e7\u00e3o combinat\u00f3ria onde o LLM opera como um otimizador evolutivo inteligente: em vez de explorar o espa\u00e7o de poss\u00edveis transforma\u00e7\u00f5es de forma aleat\u00f3ria ou heur\u00edstica (como faziam os m\u00e9todos cl\u00e1ssicos de AutoFE), o LLM usa seu conhecimento do dom\u00ednio para direcionar a busca para regi\u00f5es promissoras do espa\u00e7o de features.<\/p><p>O sistema fornece ao LLM n\u00e3o apenas a descri\u00e7\u00e3o do dataset e metadados das features, mas tamb\u00e9m <strong>amostras representativas dos dados e instru\u00e7\u00f5es expl\u00edcitas para raciocinar sobre a relev\u00e2ncia contextual de cada transforma\u00e7\u00e3o proposta<\/strong>. O LLM \u00e9 instru\u00eddo a gerar features novas com justificativa passo-a-passo para sua relev\u00e2ncia.<\/p><p>Os resultados publicados demonstram que o LLM-FE <strong>supera consistentemente os m\u00e9todos de engenharia de features estado da arte<\/strong>, identificando features contextualmente relevantes que melhoram a performance downstream em modelos como XGBoost e TabPFN. O framework representa uma s\u00edntese entre o melhor dos mundos: a efici\u00eancia computacional de abordagens tradicionais de AutoFE combinada com a profundidade sem\u00e2ntica dos LLMs.<\/p><h2>\u00a0<\/h2><h2 id=\"freeform\">FREEFORM e o conhecimento biol\u00f3gico codificado em LLMs<\/h2><p>Um dos estudos mais intrigantes nesta \u00e1rea vem do campo da gen\u00f4mica. O trabalho de Han et al. (publicado no PMC em 2025), descrevendo o framework FREEFORM \u2014 <em>Free-flow Reasoning and Ensembling for Enhanced Feature Output and Robust Modeling<\/em> \u2014 explora se LLMs podem realizar engenharia de features para dados de gen\u00f3tipo tabular, um dom\u00ednio onde o conhecimento especializado \u00e9 profundo e altamente t\u00e9cnico.<\/p><p>O problema \u00e9 desafiador: dados de gen\u00f3tipo s\u00e3o de alta dimensionalidade, os efeitos de epistasia (intera\u00e7\u00f5es entre variantes gen\u00e9ticas) s\u00e3o complexos, e a literatura biom\u00e9dica relevante \u00e9 vasta demais para que qualquer cientista de dados possa absorver completamente. O FREEFORM utiliza GPT-4o como backbone principal para racioc\u00ednio de alto n\u00edvel sobre quais features construir, implementando princ\u00edpios de <em>chain-of-thought<\/em> e ensembling para aumentar a robustez.<\/p><p>Os resultados revelam algo not\u00e1vel: <strong>os modelos de linguagem mais fracos foram surpreendentemente competitivos com o GPT-4o na tarefa de engenharia de features<\/strong>, sugerindo que a capacidade de construir termos de intera\u00e7\u00e3o e express\u00f5es multiplicativas simples est\u00e1 dentro das capacidades de racioc\u00ednio da maioria dos LLMs modernos. A limita\u00e7\u00e3o encontrada foi na sele\u00e7\u00e3o de features altamente espec\u00edficas (como variantes gen\u00e9ticas associadas a condi\u00e7\u00f5es raras), onde o conhecimento especializado codificado nos pesos do LLM pode ser incompleto ou inconsistente.<\/p><p>Este resultado tem implica\u00e7\u00f5es importantes: os LLMs s\u00e3o mais eficazes como motores de engenharia de features quando o dom\u00ednio \u00e9 suficientemente coberto por seu treinamento. Em dom\u00ednios altamente especializados ou com literatura muito recente, o conhecimento de dom\u00ednio humano permanece insubstitu\u00edvel.<\/p><h2>\u00a0<\/h2><h2 id=\"limites\">Os limites dos LLMs na Engenharia de Features<\/h2><p>A euforia com os resultados promissores n\u00e3o pode obscurecer as limita\u00e7\u00f5es significativas e bem documentadas dos LLMs neste papel. Uma an\u00e1lise honesta exige que estas sejam discutidas com o mesmo rigor.<\/p><h3>Alucina\u00e7\u00f5es e transforma\u00e7\u00f5es inv\u00e1lidas<\/h3><p>LLMs podem gerar c\u00f3digo Python sintaticamente correto que \u00e9 semanticamente inv\u00e1lido no contexto do problema. O CAAFE mitigou este risco implementando valida\u00e7\u00e3o em m\u00faltiplos est\u00e1gios \u2014 parsing de AST, execu\u00e7\u00e3o em sandbox, verifica\u00e7\u00e3o de performance emp\u00edrica \u2014 mas n\u00e3o eliminou completamente o problema. Frameworks sem esta camada de valida\u00e7\u00e3o podem introduzir features que parecem razo\u00e1veis mas s\u00e3o matematicamente incoerentes ou produzem vazamento de dados (data leakage).<\/p><h3>Limita\u00e7\u00f5es de contexto e escala<\/h3><p>Datasets com muitas features e muitas amostras rapidamente excedem as janelas de contexto dos LLMs. O CAAFE, por exemplo, tem suas limita\u00e7\u00f5es operacionais em torno de 100 features \u2014 acima disso, o TabPFN (o classificador downstream usado nos experimentos) nem sequer consegue processar todas as features geradas. Para problemas de alta dimensionalidade, os LLMs precisam operar sobre representa\u00e7\u00f5es comprimidas dos dados, potencialmente perdendo informa\u00e7\u00f5es relevantes.<\/p><h3>Depend\u00eancia de descri\u00e7\u00f5es de qualidade<\/h3><p>A efic\u00e1cia de frameworks como CAAFE e LLM-FE \u00e9 fortemente condicionada pela qualidade das descri\u00e7\u00f5es textuais fornecidas pelo usu\u00e1rio. Quando nomes de colunas s\u00e3o cr\u00edpticos (ex.: &#8220;var_1&#8221;, &#8220;col_42&#8221;) ou quando as descri\u00e7\u00f5es do dataset s\u00e3o vagas, o LLM perde seu principal diferencial \u2014 o conhecimento de dom\u00ednio \u2014 e sua performance regride para n\u00edveis pr\u00f3ximos aos de m\u00e9todos de AutoFE sem contexto sem\u00e2ntico.<\/p><h3>Dados sens\u00edveis e privacidade<\/h3><p>Frameworks que dependem de LLMs hospedados em nuvem (como GPT-4 via API da OpenAI) s\u00e3o inadequados para datasets contendo informa\u00e7\u00f5es sens\u00edveis. O paper FeRG-LLM (NAACL 2025, Findings) explicita esta limita\u00e7\u00e3o e prop\u00f5e uma alternativa baseada em modelos locais (Llama 3.1 de 8B par\u00e2metros), demonstrando que a funcionalidade pode ser preservada sem enviar dados a servidores externos \u2014 mas a um custo de performance.<\/p><h3>Custo computacional e financeiro<\/h3><p>A itera\u00e7\u00e3o entre gera\u00e7\u00e3o de features, re-treinamento do modelo downstream e avalia\u00e7\u00e3o de performance pode ser computacionalmente cara, especialmente com datasets maiores. O CAAFE estima um custo de aproximadamente US$ 0,50 por 10 itera\u00e7\u00f5es em um dataset de 1.000 linhas e 10 colunas usando GPT-4 \u2014 o que escala rapidamente para problemas mais complexos e pode tornar a abordagem invi\u00e1vel em contextos de or\u00e7amento limitado.<\/p><h2>\u00a0<\/h2><h2 id=\"dominio\">O conhecimento de dom\u00ednio n\u00e3o \u00e9 opcional<\/h2><p>Um dos argumentos mais sofisticados em defesa da relev\u00e2ncia cont\u00ednua da feature engineering humana \u00e9 epistemol\u00f3gico, n\u00e3o apenas pr\u00e1tico. Ele diz respeito \u00e0 natureza do conhecimento que informa boas features.<\/p><p>O conhecimento de dom\u00ednio necess\u00e1rio para construir features verdadeiramente poderosas frequentemente n\u00e3o est\u00e1 dispon\u00edvel em forma textual process\u00e1vel por LLMs. Ele est\u00e1 em:<\/p><ul><li>Conversas informais entre especialistas, tacitamente compartilhadas<\/li><li>Heur\u00edsticas acumuladas ao longo de d\u00e9cadas de pr\u00e1tica cl\u00ednica, industrial ou financeira<\/li><li>Intui\u00e7\u00f5es sobre o processo gerador de dados que n\u00e3o foram formalizadas em nenhum artigo<\/li><li>Conhecimento sobre artefatos espec\u00edficos de coleta de dados em um determinado hospital, sensores industriais, ou sistema de transa\u00e7\u00f5es financeiras<\/li><\/ul><p>Este conhecimento t\u00e1cito \u2014 no sentido de Polanyi (1966) \u2014 \u00e9 fundamentalmente dif\u00edcil de capturar por qualquer sistema que opere sobre texto. Um m\u00e9dico experiente que percebe que certos padr\u00f5es de temperatura de admiss\u00e3o hospitalar em conjunto com o hor\u00e1rio de coleta indicam uma artefato do processo, e n\u00e3o um dado cl\u00ednico real, carrega um conhecimento que nenhum LLM pode extrair de artigos. Um engenheiro de processos que sabe que determinada leitura de sensor \u00e9 sistematicamente ruidosa durante turnos noturnos possui informa\u00e7\u00e3o causal que um LLM simplesmente n\u00e3o tem acesso.<\/p><p>Neste sentido, a feature engineering humana n\u00e3o apenas complementa os LLMs \u2014 ela representa uma classe de conhecimento epistemicamente distinta que, por enquanto, permanece fora do alcance da automa\u00e7\u00e3o.<\/p><h2>\u00a0<\/h2><h2 id=\"xai\">Feature Engineering e a crise da explicabilidade<\/h2><p>Um \u00e2ngulo frequentemente negligenciado no debate \u00e9 o da explicabilidade e interpretabilidade dos modelos. O Regulamento de Intelig\u00eancia Artificial da Uni\u00e3o Europeia (EU AI Act), que entrou em vigor em agosto de 2024 com implementa\u00e7\u00e3o progressiva at\u00e9 2026, imp\u00f5e requisitos de explicabilidade para sistemas de IA de alto risco \u2014 incluindo aplica\u00e7\u00f5es em sa\u00fade, cr\u00e9dito, emprego e infraestrutura cr\u00edtica.<\/p><p>Features bem engenhadas t\u00eam uma propriedade crucial para a explicabilidade: elas s\u00e3o interpret\u00e1veis. Uma feature como &#8220;raz\u00e3o entre d\u00edvida e patrim\u00f4nio&#8221; em um modelo de cr\u00e9dito \u00e9 intrinsecamente interpret\u00e1vel; a import\u00e2ncia desta feature no modelo (via SHAP values, por exemplo) tem significado direto para reguladores, clientes e auditores. Em contraposi\u00e7\u00e3o, as representa\u00e7\u00f5es internas aprendidas por uma rede neural profunda \u2014 por mais poderosas que sejam \u2014 s\u00e3o notoriamente opacas.<\/p><p>O survey de Mumuni &amp; Mumuni (2025) sinaliza especificamente que m\u00e9todos de deep learning aplicados a dados tabulares &#8220;frequentemente ignoram os aspectos sem\u00e2nticos dos dados&#8221;, e que sua opera\u00e7\u00e3o de &#8220;caixa preta&#8221; torna os resultados dif\u00edceis de explicar \u2014 uma limita\u00e7\u00e3o cr\u00edtica em dom\u00ednios regulados.<\/p><p>Ferramentas como SHAP (SHapley Additive exPlanations) e LIME, que ganharam tra\u00e7\u00e3o significativa em 2024, funcionam mais efetivamente sobre espa\u00e7os de features interpret\u00e1veis. Uma feature engineering cuidadosa, portanto, n\u00e3o apenas melhora a performance do modelo \u2014 ela tamb\u00e9m pavimenta o caminho para a explicabilidade exigida tanto por reguladores quanto pelo mercado.<\/p><p>O CAAFE, curiosamente, endere\u00e7a parcialmente esta quest\u00e3o ao gerar explica\u00e7\u00f5es textuais para cada feature proposta \u2014 o que representa uma forma de explicabilidade no n\u00edvel da constru\u00e7\u00e3o das vari\u00e1veis, n\u00e3o apenas no n\u00edvel das predi\u00e7\u00f5es do modelo final.<\/p><h2>\u00a0<\/h2><h2 id=\"futuro\">O futuro: simbiose, n\u00e3o substitui\u00e7\u00e3o<\/h2><p>O quadro que emerge da literatura \u00e9 inequ\u00edvoco: estamos caminhando para um paradigma de <strong>simbiose<\/strong> entre feature engineering humana e LLMs, n\u00e3o para um cen\u00e1rio de substitui\u00e7\u00e3o unilateral.<\/p><p>Esta simbiose opera em v\u00e1rios n\u00edveis complementares:<\/p><h3>LLMs como aceleradores do processo explorat\u00f3rio<\/h3><p>Frameworks como CAAFE e LLM-FE s\u00e3o mais produtivos quando usados para acelerar a fase explorat\u00f3ria \u2014 gerando candidatas a features que o cientista de dados ent\u00e3o inspeciona, valida e refina. Isso reduz drasticamente o tempo gasto em brainstorming inicial sem eliminar o julgamento humano sobre quais features fazem sentido no contexto do neg\u00f3cio.<\/p><h3>Feature Engineering como curadoria epistemol\u00f3gica<\/h3><p>O papel do engenheiro de features est\u00e1 se deslocando da constru\u00e7\u00e3o de baixo n\u00edvel (escrever o c\u00f3digo para calcular uma m\u00e9dia m\u00f3vel) para a curadoria epistemol\u00f3gica de alto n\u00edvel: articular o conhecimento de dom\u00ednio de forma que os LLMs possam explor\u00e1-lo, validar as features propostas contra o entendimento causal do processo gerador de dados, e identificar casos onde o LLM prop\u00f5e transforma\u00e7\u00f5es que s\u00e3o numericamente v\u00e1lidas mas causalmente esp\u00farias.<\/p><h3>Dom\u00ednios especializados continuam dependendo de especialistas humanos<\/h3><p>Em \u00e1reas como gen\u00f4mica (conforme demonstrado pelo FREEFORM), sistemas industriais de IoT, finan\u00e7as quantitativas de alta frequ\u00eancia, e diagn\u00f3stico m\u00e9dico especializado, o conhecimento de dom\u00ednio necess\u00e1rio para construir as melhores features frequentemente excede o que est\u00e1 dispon\u00edvel no corpus de treinamento dos LLMs. Aqui, a feature engineering especializada humana permanece insubstitu\u00edvel.<\/p><h3>A emerg\u00eancia do &#8220;Semantic AutoML&#8221;<\/h3><p>O termo cunhado pelos autores do CAAFE \u2014 &#8220;Semantic AutoML&#8221; \u2014 aponta para uma nova classe de sistemas que combina a automa\u00e7\u00e3o cl\u00e1ssica do AutoML com a sem\u00e2ntica dos LLMs. Esta classe de sistemas n\u00e3o elimina a necessidade de feature engineering, mas muda quem pode pratic\u00e1-la: ao tornar o processo mais acess\u00edvel a especialistas de dom\u00ednio que n\u00e3o s\u00e3o programadores, o Semantic AutoML democratiza a cria\u00e7\u00e3o de features sem tornar obsoleto o conhecimento especializado.<\/p><h3>O papel crescente dos dados tabulares fundacionais<\/h3><p>Um desenvolvimento paralelo relevante \u00e9 o surgimento de modelos fundacionais para dados tabulares, como o TabPFN (Hollmann et al., 2022) \u2014 um transformer treinado em milh\u00f5es de datasets sint\u00e9ticos que pode realizar classifica\u00e7\u00e3o em novos datasets sem re-treinamento. Estes modelos representam uma abordagem radicalmente diferente: em vez de aprender a fazer feature engineering, eles aprendem a fazer meta-aprendizado sobre a estrutura dos pr\u00f3prios dados tabulares. Por\u00e9m, mesmo estes modelos se beneficiam de features bem constru\u00eddas como entrada \u2014 refor\u00e7ando, novamente, que feature engineering e aprendizado de representa\u00e7\u00f5es n\u00e3o s\u00e3o mutuamente exclusivos.<\/p><p>A quest\u00e3o com que abrimos este artigo \u2014 feature engineering ainda \u00e9 relevante, ou foi substitu\u00edda pelos LLMs? \u2014 pode agora ser respondida com precis\u00e3o e evid\u00eancia:<\/p><p><strong>Feature engineering n\u00e3o foi substitu\u00edda. Foi reposicionada.<\/strong><\/p><p>No dom\u00ednio mais prevalente do machine learning industrial \u2014 dados tabulares \u2014 modelos baseados em \u00e1rvore (XGBoost, Random Forest, LightGBM) continuam sendo estado da arte, e eles continuam se beneficiando imensamente de features bem constru\u00eddas. A evid\u00eancia emp\u00edrica de Grinsztajn et al. (2022), Shwartz-Ziv &amp; Armon (2022) e Uddin et al. (2024) \u00e9 robusta e convergente neste ponto.<\/p><p>Os LLMs, por sua vez, abriram uma nova fronteira promissora ao demonstrar que o conhecimento de dom\u00ednio codificado em seus pesos pode ser mobilizado para propor, testar e refinar features de forma semi-automatizada \u2014 como evidenciado pelos frameworks CAAFE (NeurIPS 2023), LLM-FE (arXiv 2025) e FREEFORM (PMC 2025). Mas esta automa\u00e7\u00e3o tem limites claros: ela depende da qualidade das descri\u00e7\u00f5es fornecidas, falha em dom\u00ednios altamente especializados, tem custo computacional relevante, e produz resultados que ainda precisam de curadoria humana.<\/p><p>O verdadeiro legado desta era n\u00e3o \u00e9 a obsolesc\u00eancia da engenharia de features, mas a sua <strong>evolu\u00e7\u00e3o epistemol\u00f3gica<\/strong>: de uma pr\u00e1tica artesanal e intensiva em trabalho manual, para uma disciplina h\u00edbrida onde humanos com conhecimento de dom\u00ednio profundo colaboram com sistemas de IA para explorar o espa\u00e7o de features de forma mais eficiente, interpret\u00e1vel e democratizada.<\/p><p>Os engenheiros de features que sobreviver\u00e3o \u2014 e prosperar\u00e3o \u2014 neste novo paradigma n\u00e3o s\u00e3o aqueles que constroem melhor cada feature individual manualmente. S\u00e3o aqueles que entendem profundamente <em>por que<\/em> certas features importam, que sabem articular este conhecimento de forma que sistemas como CAAFE e LLM-FE possam explor\u00e1-lo, e que possuem o julgamento epistemol\u00f3gico para separar features causalmente s\u00f3lidas de correla\u00e7\u00f5es esp\u00farias, mesmo quando estas \u00faltimas emergem de sistemas de IA aparentemente confi\u00e1veis.<\/p><p>O futuro da feature engineering n\u00e3o \u00e9 humano <em>ou<\/em> m\u00e1quina. \u00c9 humano <em>e<\/em> m\u00e1quina, em colabora\u00e7\u00e3o \u00edntima.<\/p><h2>\u00a0<\/h2><h2 id=\"referencias\">Fontes<\/h2><ol><li><strong>Grinsztajn, L., Oyallon, E., &amp; Varoquaux, G. (2022).<\/strong> Why do tree-based models still outperform deep learning on typical tabular data? <em>Advances in Neural Information Processing Systems (NeurIPS 2022)<\/em>, 35, 507\u2013520.<br \/><a href=\"https:\/\/arxiv.org\/abs\/2207.08815\" target=\"_blank\" rel=\"noopener\">https:\/\/arxiv.org\/abs\/2207.08815<\/a><\/li><li><strong>Hollmann, N., M\u00fcller, S., &amp; Hutter, F. (2023).<\/strong> Large Language Models for Automated Data Science: Introducing CAAFE for Context-Aware Automated Feature Engineering. <em>Advances in Neural Information Processing Systems (NeurIPS 2023)<\/em>.<br \/><a href=\"https:\/\/arxiv.org\/abs\/2305.03403\" target=\"_blank\" rel=\"noopener\">https:\/\/arxiv.org\/abs\/2305.03403<\/a><\/li><li><strong>Abhyankar, S. et al. (2025).<\/strong> LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers. <em>arXiv preprint arXiv:2503.14434<\/em>.<br \/><a href=\"https:\/\/arxiv.org\/html\/2503.14434v1\" target=\"_blank\" rel=\"noopener\">https:\/\/arxiv.org\/html\/2503.14434v1<\/a><\/li><li><strong>Han, Y. et al. (2025).<\/strong> Knowledge-Driven Feature Selection and Engineering for Genotype Data with Large Language Models (FREEFORM). <em>PubMed Central \/ PMC<\/em>.<br \/><a href=\"https:\/\/pmc.ncbi.nlm.nih.gov\/articles\/PMC12150712\/\" target=\"_blank\" rel=\"noopener\">https:\/\/pmc.ncbi.nlm.nih.gov\/articles\/PMC12150712\/<\/a><\/li><li><strong>Mumuni, A., &amp; Mumuni, F. (2025).<\/strong> Automated data processing and feature engineering for deep learning and big data applications: A survey. <em>Journal of Information and Intelligence<\/em>, 3(2), 113\u2013153.<br \/><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/S2949715924000027\" target=\"_blank\" rel=\"noopener\">https:\/\/doi.org\/10.1016\/j.jiixd.2024.01.002<\/a><\/li><li><strong>Shwartz-Ziv, R., &amp; Armon, A. (2022).<\/strong> Tabular data: Deep learning is not all you need. <em>Information Fusion<\/em>.<br \/><a href=\"https:\/\/www.sciencedirect.com\/science\/article\/abs\/pii\/S1566253521002360\" target=\"_blank\" rel=\"noopener\">https:\/\/www.sciencedirect.com\/science\/article\/abs\/pii\/S1566253521002360<\/a><\/li><li><strong>Uddin, S. et al. (2024).<\/strong> Confirming the statistically significant superiority of tree-based machine learning algorithms over their counterparts for tabular data. <em>PLoS ONE<\/em>, 19(4), e0301541.<br \/><a href=\"https:\/\/pmc.ncbi.nlm.nih.gov\/articles\/PMC11025817\/\" target=\"_blank\" rel=\"noopener\">https:\/\/pmc.ncbi.nlm.nih.gov\/articles\/PMC11025817\/<\/a><\/li><li><strong>FeRG-LLM (2025).<\/strong> Feature Engineering by Reason Generation with LLMs. <em>Findings of NAACL 2025<\/em>.<br \/><a href=\"https:\/\/aclanthology.org\/2025.findings-naacl.237.pdf\" target=\"_blank\" rel=\"noopener\">https:\/\/aclanthology.org\/2025.findings-naacl.237.pdf<\/a><\/li><li><strong>Domingos, P. (2012).<\/strong> A few useful things to know about machine learning. <em>Communications of the ACM<\/em>, 55(10), 78\u201387.<br \/><a href=\"https:\/\/dl.acm.org\/doi\/10.1145\/2347736.2347755\" target=\"_blank\" rel=\"noopener\">https:\/\/dl.acm.org\/doi\/10.1145\/2347736.2347755<\/a><\/li><li><strong>Anaconda (2020).<\/strong> State of Data Science 2020.<br \/><a href=\"https:\/\/www.anaconda.com\/state-of-data-science-2020\" target=\"_blank\" rel=\"noopener\">https:\/\/www.anaconda.com\/state-of-data-science-2020<\/a><\/li><li><strong>Hollmann, N., M\u00fcller, S., Eggensperger, K., &amp; Hutter, F. (2022).<\/strong> TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second. <em>arXiv preprint arXiv:2207.01848<\/em>.<br \/><a href=\"https:\/\/arxiv.org\/abs\/2207.01848\" target=\"_blank\" rel=\"noopener\">https:\/\/arxiv.org\/abs\/2207.01848<\/a><\/li><li><strong>Kanter, J. M., &amp; Veeramachaneni, K. (2015).<\/strong> Deep Feature Synthesis: Towards Automating Data Science Endeavors. <em>2015 IEEE International Conference on Data Science and Advanced Analytics (DSAA)<\/em>.<br \/><a href=\"https:\/\/ieeexplore.ieee.org\/document\/7344858\" target=\"_blank\" rel=\"noopener\">https:\/\/ieeexplore.ieee.org\/document\/7344858<\/a><\/li><li><strong>Sandgarden Learn \u2014 Feature Engineering Survey (2025).<\/strong> The Art of Feature Engineering: Turning Raw Data into Machine Learning Gold.<br \/><a href=\"https:\/\/www.sandgarden.com\/learn\/feature-engineering\" target=\"_blank\" rel=\"noopener\">https:\/\/www.sandgarden.com\/learn\/feature-engineering<\/a><\/li><li><strong>arXiv:2406.03505 (2025).<\/strong> LLMs and Tree of Thoughts for Feature Engineering in Tabular Data Classification.<br \/><a href=\"https:\/\/arxiv.org\/pdf\/2406.03505\" target=\"_blank\" rel=\"noopener\">https:\/\/arxiv.org\/pdf\/2406.03505<\/a><\/li><li><strong>CAAFE \u2014 GitHub Repository (PriorLabs, 2023).<\/strong><br \/><a href=\"https:\/\/github.com\/PriorLabs\/CAAFE\" target=\"_blank\" rel=\"noopener\">https:\/\/github.com\/PriorLabs\/CAAFE<\/a><\/li><\/ol>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>\n\t\t","protected":false},"excerpt":{"rendered":"<p>H\u00e1 uma cren\u00e7a crescente, especialmente entre praticantes entusiastas da intelig\u00eancia artificial, de que os grandes modelos de linguagem (Large Language Models \u2014 LLMs) tornaram obsoleta a necessidade de engenharia manual de features. O argumento \u00e9 intuitivo: se um modelo como o GPT-4 pode escrever c\u00f3digo, raciocinar sobre dados, deduzir padr\u00f5es e at\u00e9 propor transforma\u00e7\u00f5es anal\u00edticas, [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":4684,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[22],"tags":[],"class_list":["post-4670","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-inteligencia-artificial"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.9 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Feature Engineering - Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/\" \/>\n<meta property=\"og:locale\" content=\"pt_BR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Feature Engineering - Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial\" \/>\n<meta property=\"og:description\" content=\"H\u00e1 uma cren\u00e7a crescente, especialmente entre praticantes entusiastas da intelig\u00eancia artificial, de que os grandes modelos de linguagem (Large Language Models \u2014 LLMs) tornaram obsoleta a necessidade de engenharia manual de features. O argumento \u00e9 intuitivo: se um modelo como o GPT-4 pode escrever c\u00f3digo, raciocinar sobre dados, deduzir padr\u00f5es e at\u00e9 propor transforma\u00e7\u00f5es anal\u00edticas, [&hellip;]\" \/>\n<meta property=\"og:url\" content=\"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/\" \/>\n<meta property=\"og:site_name\" content=\"Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial\" \/>\n<meta property=\"article:published_time\" content=\"2026-04-01T08:00:00+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/volcano.com.br\/wp-content\/uploads\/2026\/04\/Feature-Engineering.jpg\" \/>\n\t<meta property=\"og:image:width\" content=\"1920\" \/>\n\t<meta property=\"og:image:height\" content=\"1072\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/jpeg\" \/>\n<meta name=\"author\" content=\"Jaqueline\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Escrito por\" \/>\n\t<meta name=\"twitter:data1\" content=\"Jaqueline\" \/>\n\t<meta name=\"twitter:label2\" content=\"Est. tempo de leitura\" \/>\n\t<meta name=\"twitter:data2\" content=\"23 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/\"},\"author\":{\"name\":\"Jaqueline\",\"@id\":\"https:\\\/\\\/volcano.com.br\\\/#\\\/schema\\\/person\\\/9ed8c90b03df21bdca1477c447418a68\"},\"headline\":\"Feature Engineering\",\"datePublished\":\"2026-04-01T08:00:00+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/\"},\"wordCount\":4445,\"commentCount\":0,\"publisher\":{\"@id\":\"https:\\\/\\\/volcano.com.br\\\/#organization\"},\"image\":{\"@id\":\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/volcano.com.br\\\/wp-content\\\/uploads\\\/2026\\\/04\\\/Feature-Engineering.jpg\",\"articleSection\":[\"Intelig\u00eancia artificial\"],\"inLanguage\":\"pt-BR\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/\",\"url\":\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/\",\"name\":\"Feature Engineering - Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/volcano.com.br\\\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/#primaryimage\"},\"image\":{\"@id\":\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/#primaryimage\"},\"thumbnailUrl\":\"https:\\\/\\\/volcano.com.br\\\/wp-content\\\/uploads\\\/2026\\\/04\\\/Feature-Engineering.jpg\",\"datePublished\":\"2026-04-01T08:00:00+00:00\",\"breadcrumb\":{\"@id\":\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/#breadcrumb\"},\"inLanguage\":\"pt-BR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/#primaryimage\",\"url\":\"https:\\\/\\\/volcano.com.br\\\/wp-content\\\/uploads\\\/2026\\\/04\\\/Feature-Engineering.jpg\",\"contentUrl\":\"https:\\\/\\\/volcano.com.br\\\/wp-content\\\/uploads\\\/2026\\\/04\\\/Feature-Engineering.jpg\",\"width\":1920,\"height\":1072},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/2026\\\/04\\\/01\\\/feature-engineering\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\\\/\\\/volcano.com.br\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Feature Engineering\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/volcano.com.br\\\/#website\",\"url\":\"https:\\\/\\\/volcano.com.br\\\/\",\"name\":\"Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial\",\"description\":\"Descubra como nossa consultoria em intelig\u00eancia artificial pode transformar sua empresa. Aumente a efici\u00eancia, otimize processos e impulsione seus resultados.\",\"publisher\":{\"@id\":\"https:\\\/\\\/volcano.com.br\\\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/volcano.com.br\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"pt-BR\"},{\"@type\":\"Organization\",\"@id\":\"https:\\\/\\\/volcano.com.br\\\/#organization\",\"name\":\"Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial\",\"url\":\"https:\\\/\\\/volcano.com.br\\\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\\\/\\\/volcano.com.br\\\/#\\\/schema\\\/logo\\\/image\\\/\",\"url\":\"https:\\\/\\\/volcano.com.br\\\/wp-content\\\/uploads\\\/2025\\\/04\\\/volcano-servicos-ia.png\",\"contentUrl\":\"https:\\\/\\\/volcano.com.br\\\/wp-content\\\/uploads\\\/2025\\\/04\\\/volcano-servicos-ia.png\",\"width\":524,\"height\":70,\"caption\":\"Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial\"},\"image\":{\"@id\":\"https:\\\/\\\/volcano.com.br\\\/#\\\/schema\\\/logo\\\/image\\\/\"},\"sameAs\":[\"https:\\\/\\\/www.linkedin.com\\\/company\\\/volcano-inc.\"]},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/volcano.com.br\\\/#\\\/schema\\\/person\\\/9ed8c90b03df21bdca1477c447418a68\",\"name\":\"Jaqueline\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/1c6f35bfcd2360add4446dc1d7df2de6072046df22a55f1dbcc62a7cd4de0170?s=96&d=mm&r=g\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/1c6f35bfcd2360add4446dc1d7df2de6072046df22a55f1dbcc62a7cd4de0170?s=96&d=mm&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/1c6f35bfcd2360add4446dc1d7df2de6072046df22a55f1dbcc62a7cd4de0170?s=96&d=mm&r=g\",\"caption\":\"Jaqueline\"},\"url\":\"https:\\\/\\\/volcano.com.br\\\/index.php\\\/author\\\/jaqueline\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Feature Engineering - Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/","og_locale":"pt_BR","og_type":"article","og_title":"Feature Engineering - Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial","og_description":"H\u00e1 uma cren\u00e7a crescente, especialmente entre praticantes entusiastas da intelig\u00eancia artificial, de que os grandes modelos de linguagem (Large Language Models \u2014 LLMs) tornaram obsoleta a necessidade de engenharia manual de features. O argumento \u00e9 intuitivo: se um modelo como o GPT-4 pode escrever c\u00f3digo, raciocinar sobre dados, deduzir padr\u00f5es e at\u00e9 propor transforma\u00e7\u00f5es anal\u00edticas, [&hellip;]","og_url":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/","og_site_name":"Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial","article_published_time":"2026-04-01T08:00:00+00:00","og_image":[{"width":1920,"height":1072,"url":"https:\/\/volcano.com.br\/wp-content\/uploads\/2026\/04\/Feature-Engineering.jpg","type":"image\/jpeg"}],"author":"Jaqueline","twitter_card":"summary_large_image","twitter_misc":{"Escrito por":"Jaqueline","Est. tempo de leitura":"23 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/#article","isPartOf":{"@id":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/"},"author":{"name":"Jaqueline","@id":"https:\/\/volcano.com.br\/#\/schema\/person\/9ed8c90b03df21bdca1477c447418a68"},"headline":"Feature Engineering","datePublished":"2026-04-01T08:00:00+00:00","mainEntityOfPage":{"@id":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/"},"wordCount":4445,"commentCount":0,"publisher":{"@id":"https:\/\/volcano.com.br\/#organization"},"image":{"@id":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/#primaryimage"},"thumbnailUrl":"https:\/\/volcano.com.br\/wp-content\/uploads\/2026\/04\/Feature-Engineering.jpg","articleSection":["Intelig\u00eancia artificial"],"inLanguage":"pt-BR","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/","url":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/","name":"Feature Engineering - Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial","isPartOf":{"@id":"https:\/\/volcano.com.br\/#website"},"primaryImageOfPage":{"@id":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/#primaryimage"},"image":{"@id":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/#primaryimage"},"thumbnailUrl":"https:\/\/volcano.com.br\/wp-content\/uploads\/2026\/04\/Feature-Engineering.jpg","datePublished":"2026-04-01T08:00:00+00:00","breadcrumb":{"@id":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/#breadcrumb"},"inLanguage":"pt-BR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/"]}]},{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/#primaryimage","url":"https:\/\/volcano.com.br\/wp-content\/uploads\/2026\/04\/Feature-Engineering.jpg","contentUrl":"https:\/\/volcano.com.br\/wp-content\/uploads\/2026\/04\/Feature-Engineering.jpg","width":1920,"height":1072},{"@type":"BreadcrumbList","@id":"https:\/\/volcano.com.br\/index.php\/2026\/04\/01\/feature-engineering\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/volcano.com.br\/"},{"@type":"ListItem","position":2,"name":"Feature Engineering"}]},{"@type":"WebSite","@id":"https:\/\/volcano.com.br\/#website","url":"https:\/\/volcano.com.br\/","name":"Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial","description":"Descubra como nossa consultoria em intelig\u00eancia artificial pode transformar sua empresa. Aumente a efici\u00eancia, otimize processos e impulsione seus resultados.","publisher":{"@id":"https:\/\/volcano.com.br\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/volcano.com.br\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"pt-BR"},{"@type":"Organization","@id":"https:\/\/volcano.com.br\/#organization","name":"Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial","url":"https:\/\/volcano.com.br\/","logo":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/volcano.com.br\/#\/schema\/logo\/image\/","url":"https:\/\/volcano.com.br\/wp-content\/uploads\/2025\/04\/volcano-servicos-ia.png","contentUrl":"https:\/\/volcano.com.br\/wp-content\/uploads\/2025\/04\/volcano-servicos-ia.png","width":524,"height":70,"caption":"Volcano: Consultoria Empresarial em Intelig\u00eancia Artificial"},"image":{"@id":"https:\/\/volcano.com.br\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.linkedin.com\/company\/volcano-inc."]},{"@type":"Person","@id":"https:\/\/volcano.com.br\/#\/schema\/person\/9ed8c90b03df21bdca1477c447418a68","name":"Jaqueline","image":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/secure.gravatar.com\/avatar\/1c6f35bfcd2360add4446dc1d7df2de6072046df22a55f1dbcc62a7cd4de0170?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/1c6f35bfcd2360add4446dc1d7df2de6072046df22a55f1dbcc62a7cd4de0170?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/1c6f35bfcd2360add4446dc1d7df2de6072046df22a55f1dbcc62a7cd4de0170?s=96&d=mm&r=g","caption":"Jaqueline"},"url":"https:\/\/volcano.com.br\/index.php\/author\/jaqueline\/"}]}},"_links":{"self":[{"href":"https:\/\/volcano.com.br\/index.php\/wp-json\/wp\/v2\/posts\/4670","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/volcano.com.br\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/volcano.com.br\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/volcano.com.br\/index.php\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/volcano.com.br\/index.php\/wp-json\/wp\/v2\/comments?post=4670"}],"version-history":[{"count":13,"href":"https:\/\/volcano.com.br\/index.php\/wp-json\/wp\/v2\/posts\/4670\/revisions"}],"predecessor-version":[{"id":4683,"href":"https:\/\/volcano.com.br\/index.php\/wp-json\/wp\/v2\/posts\/4670\/revisions\/4683"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/volcano.com.br\/index.php\/wp-json\/wp\/v2\/media\/4684"}],"wp:attachment":[{"href":"https:\/\/volcano.com.br\/index.php\/wp-json\/wp\/v2\/media?parent=4670"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/volcano.com.br\/index.php\/wp-json\/wp\/v2\/categories?post=4670"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/volcano.com.br\/index.php\/wp-json\/wp\/v2\/tags?post=4670"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}