Você não está ensinando IA. Você está ensinando a versão de 2019 da IA.

Levei algumas semanas preparando aquela aula.

O tema era geração de texto com redes neurais — um assunto que havia entrado no currículo recentemente, ainda sem material consolidado em português. Pesquisei, organizei, montei os slides. Escolhi os exemplos com cuidado. Estava satisfeito com o resultado.

Na semana antes de dar a aula, um colega me mandou um link com a mensagem: “você viu isso?”

Era o anúncio de um modelo que tornava boa parte do que eu havia preparado — não errado, mas visivelmente desatualizado. A abordagem que eu ia apresentar como estado da arte havia sido superada. Não por anos, não por décadas. Por meses.

Dei a aula assim mesmo, com uma nota de rodapé oral: isso que estou mostrando já foi superado, mas precisamos entender a base antes de entender o que veio depois. Os alunos assentiram. Mas a sensação que ficou — de estar sempre um passo atrás de um campo que corre mais rápido do que consigo acompanhar — não foi embora.

Esse desconforto é, descobri depois, endêmico entre quem ensina IA hoje. E lidar com ele de forma honesta pode ser mais valioso do que fingir que o currículo está em dia.

O problema específico de ensinar um campo em construção

A maioria das disciplinas que ensinamos em computação tem uma estabilidade razoável. Os fundamentos de algoritmos e estruturas de dados que Knuth sistematizou nos anos 1960 ainda são o que ensinamos hoje. Redes de computadores, sistemas operacionais, engenharia de software — os princípios fundamentais mudam lentamente. Você pode preparar um bom curso e ele continua bom por vários anos.

IA não funciona assim. E nos últimos anos, passou a funcionar ainda menos assim.

Entre 2017 e hoje, o campo passou por pelo menos três transformações que cada uma, individualmente, teria sido suficiente para tornar um currículo preparado antes delas parcialmente obsoleto. A arquitetura Transformer, proposta em 2017, mudou radicalmente o estado da arte em processamento de linguagem natural. Os modelos de difusão transformaram geração de imagens a partir de 2020. Os grandes modelos de linguagem treinados com feedback humano mudaram o que entendemos por capacidade de modelos de linguagem a partir de 2022.

Cada uma dessas transformações não apenas introduziu técnicas novas. Mudou o que é considerado abordagem padrão, quais benchmarks importam, quais arquiteturas vale a pena ensinar como ponto de partida.

Um professor que preparou um curso de processamento de linguagem natural em 2016 — com foco em LSTMs e modelos sequenciais — não estava errado. Estava ensinando o estado da arte daquele momento. Dois anos depois, o Transformer tornava boa parte daquele material historicamente interessante mas pedagogicamente secundário.

Isso não acontece em cálculo. Não acontece em física clássica. Acontece em IA — e acontece cada vez mais rápido.

O que fica quando tudo muda

Diante disso, a pergunta que me faço — e que acho que todo professor de IA deveria se fazer — é: o que no meu currículo é realmente estável, e o que é apenas o estado da arte de hoje?

A distinção importa porque o que é estável merece tempo de aula diferente do que é transitório. Ensinar um algoritmo específico que pode ser obsoleto em dois anos tem valor diferente de ensinar o princípio que faz aquele algoritmo funcionar — e que vai continuar relevante independentemente de qual arquitetura domine o campo amanhã.

Na minha experiência, há pelo menos três camadas de estabilidade diferentes num currículo de IA.

A camada dos fundamentos matemáticos. Álgebra linear, cálculo, probabilidade, teoria da informação — esses são os alicerces sobre os quais qualquer avanço do campo é construído. Um aluno que entende profundamente por que gradiente descendente funciona, o que uma função de perda realmente mede, o que significa uma distribuição de probabilidade sobre saídas — esse aluno consegue aprender qualquer arquitetura nova em semanas. Essa camada não envelhece.

A camada dos princípios algorítmicos. Overfitting e regularização. O trade-off entre viés e variância. A importância da separação entre dados de treino, validação e teste. O que significa generalização. Por que mais dados quase sempre ajudam mais do que mais complexidade. Esses princípios foram verdadeiros em 1990 e continuam verdadeiros hoje — independentemente de qual modelo específico você esteja usando. Essa camada envelhece muito lentamente.

A camada das arquiteturas e ferramentas específicas. CNNs, RNNs, Transformers, modelos de difusão, LLMs — essas são as implementações concretas que dominam o estado da arte em determinado momento. São importantes de ensinar porque os alunos vão trabalhar com elas. Mas são exatamente a camada que envelhece mais rápido. Essa camada precisa ser ensinada com uma nota de rodapé permanente: isso é o que funciona melhor agora — não necessariamente o que vai funcionar melhor em cinco anos.

O erro que vejo em muitos currículos — incluindo o meu, nos primeiros meses — é inverter as proporções. Gastar a maior parte do tempo na terceira camada, a mais transitória, e pouco tempo nas duas primeiras, as mais duradouras.

O paradoxo do tutorial

Há um fenômeno que observo nos meus alunos que chamo internamente de paradoxo do tutorial.

Vivemos num momento em que nunca houve tanto material de qualidade sobre IA disponível gratuitamente. Tutoriais, cursos online, documentação, papers explicados em vídeo, implementações comentadas no GitHub. Um estudante dedicado consegue aprender a usar as ferramentas mais modernas em semanas.

O problema é que aprender a usar uma ferramenta não é o mesmo que entender o que ela faz. E a abundância de tutoriais cria uma ilusão perigosa: a de que dominar a sintaxe do framework equivale a compreender o campo.

Vejo alunos que conseguem treinar um modelo de linguagem em cinquenta linhas de código — usando uma biblioteca que abstrai completamente a arquitetura, o treinamento e a avaliação — mas que não conseguem responder por que o modelo falha em certos tipos de entrada, o que as métricas de avaliação realmente medem, ou como modificariam a abordagem se o problema mudasse ligeiramente.

Eles aprenderam a versão de hoje da ferramenta. Não aprenderam a pensar sobre o problema.

Quando a ferramenta mudar — e vai mudar — eles vão precisar aprender tudo de novo, do zero, porque não têm os fundamentos que permitem transferir o conhecimento de um framework para outro, de uma arquitetura para a seguinte.

É um problema de horizonte temporal. Tutoriais otimizam para resultados rápidos. Fundamentos otimizam para adaptabilidade de longo prazo. E num campo que muda tão rapidamente quanto IA, adaptabilidade de longo prazo é a habilidade mais valiosa que um curso pode desenvolver.

O que fazer com a defasagem inevitável

Não tenho uma solução completa para o problema de ensinar um campo em movimento acelerado. Mas tenho algumas práticas que adotei e que parecem ajudar.

A primeira é ser explícito sobre o que é fundamento e o que é estado da arte. Toda vez que apresento uma técnica ou arquitetura específica, digo com clareza: isso é o que o campo usa predominantemente agora — pode não ser o que vai usar daqui a três anos. O que não vai mudar é o princípio por trás. E é no princípio que o tempo de aula deve se concentrar.

A segunda é incluir deliberadamente material histórico. Mostrar como o campo chegou onde está — quais abordagens dominaram em diferentes épocas, por que foram superadas, o que cada transição revela sobre o que o campo havia entendido mal antes — é uma das formas mais eficazes de preparar alunos para as transições futuras que inevitavelmente virão. Quem entende por que as RNNs foram superadas pelos Transformers está melhor preparado para entender o que pode superar os Transformers.

A terceira é admitir publicamente quando não sei. Quando um aluno pergunta sobre uma técnica ou resultado recente que não conheço bem, digo isso. E às vezes peço que o aluno pesquise e apresente para a turma. Um professor que admite os limites do próprio conhecimento num campo em movimento acelerado não está demonstrando fraqueza — está demonstrando o modelo de postura intelectual que os alunos vão precisar adotar para o resto da carreira.

Aquela aula que preparei e que ficou desatualizada antes de dar — dei ela assim mesmo, com a nota de rodapé, e foi uma das melhores aulas do semestre.

Não porque o conteúdo era o mais atual. Mas porque a situação criou uma conversa real sobre o que significa aprender num campo que não para. Sobre como avaliar se um conhecimento tem vida útil de meses ou de décadas. Sobre por que entender o mecanismo vale mais do que conhecer a ferramenta.

Nenhum desses temas estava nos meus slides originais.

Às vezes o que o currículo não previu ensina mais do que o que estava planejado.

Próximo artigo: “ChatGPT passou no exame. Isso diz mais sobre o exame do que sobre o ChatGPT.”

Nelson Koshoji

Você não está ensinando IA. Você está ensinando a versão de 2019 da IA.

O problema específico de ensinar um campo em construção

O que fica quando tudo muda

O paradoxo do tutorial

O que fazer com a defasagem inevitável

Deixe um comentário Cancelar resposta