O que os meus alunos acham que é uma rede neural — e o que ela realmente é.

Todo semestre, antes de começar a aula sobre redes neurais, faço o mesmo experimento informal.

Peço que cada aluno escreva numa folha, em duas ou três frases, o que acha que é uma rede neural. Não vale pesquisar. Só o que já sabe, ou acha que sabe.

Recolho as folhas. Leio em voz alta, sem identificar quem escreveu.

As respostas variam na forma, mas convergem num tema central. Um sistema que funciona como o cérebro humano. Uma rede de neurônios artificiais que aprende como nós aprendemos. Uma simulação do pensamento humano. Alguns alunos vão mais longe: algo que pode desenvolver consciência se ficar complexo o suficiente. Um aluno, numa turma recente, escreveu com toda a seriedade: a primeira etapa para criar vida artificial.

Então mostro o que uma rede neural realmente é.

Uma função matemática. Composta de outras funções matemáticas menores, organizadas em camadas. Cada camada recebe números, multiplica por pesos, aplica uma transformação não-linear, passa o resultado para a próxima camada. No final, sai um número — ou um vetor de números — que representa a saída do modelo.

O silêncio que se segue tem uma qualidade específica. Não é decepção exatamente. É o silêncio de quem está recalibrando a distância entre o que esperava e o que encontrou.

De onde vem a imagem errada

A culpa não é dos alunos. A imagem que eles carregam foi construída cuidadosamente, ao longo de anos, por filmes, séries, noticiários e — é preciso admitir — pela própria forma como o campo se apresenta ao mundo.

“Rede neural” é um nome que evoca biologia. “Neurônio artificial” sugere que estamos reproduzindo algo do cérebro. “Deep learning” — aprendizado profundo — soa como cognição em camadas, como se profundidade matemática fosse profundidade de pensamento. Quando veículos de comunicação publicam imagens de redes neurais, mostram esferas luminosas conectadas por linhas pulsantes, como sinapses num cérebro digitalizado.

Tudo isso é representação, não descrição. E a representação criou uma expectativa que o mecanismo real não sustenta.

A história real é mais simples — e, a meu ver, mais bonita precisamente por ser simples.

O que realmente é um neurônio artificial

Em 1943, Warren McCulloch e Walter Pitts propuseram o primeiro modelo matemático de um neurônio. A ideia era elegante: um neurônio biológico recebe sinais de outros neurônios, soma esses sinais, e dispara — ou não — dependendo se a soma ultrapassa um limiar.

McCulloch e Pitts abstraíram isso para matemática: uma unidade que recebe entradas numéricas, multiplica cada uma por um peso, soma tudo, e aplica uma função que decide a saída. Um perceptron, como Frank Rosenblatt chamaria em 1958.

A analogia com o neurônio biológico era uma inspiração, não uma afirmação. McCulloch era neurocientista e sabia que estava fazendo uma simplificação radical. Um neurônio biológico é um objeto extraordinariamente complexo — com dinâmicas eletroquímicas, plasticidade sináptica, ramificações dendríticas, modulação por neurotransmissores. O neurônio artificial captura uma caricatura minimalista dessa complexidade: entradas ponderadas, soma, limiar.

O que emergiu dessa caricatura, ao longo de décadas de desenvolvimento, foi algo poderoso por razões que nada têm a ver com fidelidade biológica. Quando você empilha muitas dessas unidades simples em camadas e as treina com gradiente descendente sobre grandes volumes de dados, o sistema resultante consegue aproximar funções extraordinariamente complexas. Reconhecer faces em fotos. Transcrever fala em texto. Traduzir entre idiomas. Jogar Go melhor que qualquer humano.

Não porque o sistema pensa. Mas porque aproximação de funções complexas é, surpreendentemente, o que muitos problemas práticos requerem.

O que “profundo” significa em deep learning

Quando o campo adotou o termo “deep learning” para redes com muitas camadas, a palavra “profundo” ganhou uma conotação que não era intencional.

Profundidade, aqui, é arquitetural. Uma rede é “profunda” no mesmo sentido em que um prédio de trinta andares é mais alto que um de três — há mais camadas entre a entrada e a saída. Cada camada aprende a representar o dado em diferentes níveis de abstração: as primeiras camadas de uma rede de visão computacional detectam bordas e gradientes; as intermediárias detectam formas e texturas; as mais próximas da saída detectam estruturas de alto nível como rostos ou objetos.

Isso é genuinamente interessante do ponto de vista de representação de dados. Não tem relação com profundidade cognitiva, filosófica ou consciente.

Mas “deep learning” soa como aprendizado profundo no sentido humano. E esse equívoco tem consequências. Quando um modelo de linguagem produz um texto eloquente sobre sofrimento humano, pessoas treinadas pela metáfora do cérebro digital perguntam se o modelo está sofrendo. A pergunta não é absurda dado o vocabulário — é absurda dado o mecanismo. O modelo está computando distribuições de probabilidade sobre sequências de tokens. A eloquência emergiu do treinamento sobre textos humanos, não de experiência interna.

Por que a diferença importa para quem vai construir sistemas

Um estudante que acredita que redes neurais são simulações do cérebro vai fazer perguntas erradas — e deixar de fazer as certas.

Vai perguntar: quando o modelo vai desenvolver consciência? Em vez de: em que condições esse modelo falha de formas sistemáticas?

Vai perguntar: o modelo está realmente entendendo o problema? Em vez de: o modelo está generalizando bem para exemplos fora da distribuição de treinamento?

Vai perguntar: como o modelo pensa internamente? Em vez de: o que os pesos aprendidos revelam sobre os padrões nos dados?

A primeira família de perguntas é fascinante filosoficamente e quase inútil praticamente. A segunda família é o que permite construir sistemas que funcionam — e identificar quando estão falhando.

Há também uma consequência mais sutil. Quem acredita que redes neurais são análogas ao cérebro tende a atribuir ao modelo uma robustez que ele não tem. Se funciona como um cérebro, deve ser resiliente, adaptável, capaz de lidar com situações inesperadas — como seres humanos são, dentro de certos limites.

Mas redes neurais são profundamente frágeis em formas que cérebros não são. Exemplos adversariais — perturbações mínimas numa imagem, invisíveis ao olho humano — podem fazer um modelo de visão computacional classificar um gato como uma torradeira com alta confiança. Nenhum ser humano faria isso. A fragilidade revela que o modelo não aprendeu nenhuma representação robusta do que é um gato — aprendeu padrões estatísticos que funcionam na maioria dos casos e quebram de formas bizarras em casos que um humano acharia triviais.

Isso não é bug. É consequência direta do que o modelo é: uma função matemática otimizada sobre dados, não um sistema cognitivo com representações do mundo.

O que eu faço com o silêncio depois do experimento

Quando os alunos processam a distância entre o que esperavam e o que encontraram, faço questão de dizer uma coisa:

O mecanismo real não é menos impressionante que a fantasia. É impressionante por razões diferentes — e mais verdadeiras.

É impressionante que uma função matemática relativamente simples, repetida em camadas, seja capaz de aprender a reconhecer tumores em radiografias sem que ninguém tenha programado explicitamente o que é um tumor. É impressionante que o mesmo princípio matemático — ajuste iterativo de pesos para minimizar erro — produza sistemas capazes de traduzir poesia, compor música e prever a estrutura de proteínas que décadas de bioquímica não haviam conseguido resolver.

A impressionante não é a semelhança com o cérebro. É que algo tão simples na concepção seja tão poderoso na escala.

Mas essa admiração só é possível se você vê o mecanismo real. Se você vê apenas a metáfora do cérebro digital, admira uma ficção — e perde a chance de admirar o que realmente está acontecendo.

E, mais importante: perde a chance de entender onde o sistema vai falhar. Porque sistemas que falham de formas que você não previu, em produção, afetando pessoas reais, não são abstrações filosóficas. São consequências de engenheiros que não entenderam o que estavam construindo.

No final da aula em que mostro o que uma rede neural realmente é, sempre há um aluno que pergunta, com uma mistura de alívio e decepção:

— Então é só matemática?

Respondo sempre da mesma forma:

— É apenas matemática da mesma forma que uma sinfonia é apenas vibrações no ar.

A simplicidade do mecanismo não diminui o resultado. Mas você precisa entender o mecanismo para saber o que o resultado pode e não pode ser.

Nelson Koshoji