image: Faced with uncertain futures, a mind weighs different paths. This study reveals how populations of dopamine neurons form a map of how rewards are most likely to be distributed – in their magnitude and timing – offering insights that could inspire more adaptive, human-like AI.
Credit: Joe Paton
E se o nosso cérebro tivesse um mapa interno - não de locais, mas de futuros possíveis? Investigadores da Fundação Champalimaud (FC) usaram a neurociência em combinação com inteligência artificial (IA) para revelar como populações de neurónios dopaminérgicos no cérebro determinam não apenas se as recompensas vão acontecer, como também codificam mapas de quando essas recompensas poderão chegar e qual a sua magnitude.
Estes mapas adaptam-se ao contexto e podem ajudar a explicar como avaliamos os riscos e por que motivo alguns de nós agem por impulso enquanto outros adotam uma postura mais contida/reservada. Surpreendentemente, este mecanismo biológico encontra um paralelo em avanços recentes na IA e poderá inspirar novas formas de as máquinas preverem, avaliarem e se adaptarem a ambientes incertos, à semelhança do que acontece nos humanos.
O Problema das Médias
Imagine que tem de decidir se deve esperar numa longa fila para comer o seu prato favorito num restaurante movimentado, ou se opta por um snack rápido no café mais próximo. Nesta situação, o cérebro pondera não apenas a qualidade da refeição, mas também quanto tempo irá demorar para a obter.
Durante décadas, os cientistas estudaram como o cérebro toma este tipo de decisões através da criação de modelos computacionais baseados em “aprendizagem por reforço” (reinforcement learning - RL), um processo em que os modelos aprendem por tentativa e erro, guiados por recompensas e penalizações. Um dos principais protagonistas deste processo é o sistema dopaminérgico, uma rede de neurónios que libertam dopamina para sinalizar quando algo corre melhor ou pior do que o esperado. No entanto, os modelos tradicionais de RL simplificam este processo: em vez de representarem todos os resultados possíveis, resumem as recompensas futuras num único valor esperado, uma média.
Estes modelos dizem-nos, em termos gerais, o que esperar, mas não nos dizem nem quando nem quanto. É como avaliar o valor de uma refeição sem saber o tempo de espera ou o tamanho da dose.
Num estudo publicado na revista Nature, numa edição que junta trabalhos complementares de investigadores de Harvard e da Universidade de Genebra - resultado de um esforço colaborativo e coordenado - cientistas dos Laboratórios de Aprendizagem e Inteligência Natural da Fundação Champalimaud desafiam esta perspetiva.
Este trabalho revela que o cérebro não se baseia numa única previsão sobre recompensas futuras. Em vez disso, a população de neurónios dopaminérgicos heterogéneos codifica um mapa de possíveis resultados ao longo do tempo e em grandeza - como uma representação rica e probabilística que pode orientar o comportamento adaptativo num mundo em constante mudança. Esta nova intuição biológica está alinhada com avanços recentes na IA, particularmente com algoritmos que ajudam as máquinas a aprender com o mecanismo de distribuição de recompensas, em detrimento das médias, com amplas implicações no processo de tomada de decisão autónoma.
“Esta história começou há cerca de seis anos”, diz Margarida Sousa, estudante de doutoramento e primeira autora do estudo. “Assisti a uma palestra do Matthew Botvinick, da Google DeepMind, e isso mudou completamente a minha perspetiva sobre a "aprendizagem por reforço (RL)". Botvinick fez parte da equipa que introduziu, na neurociência, a ideia de "aprendizagem distributiva por reforço", onde o sistema não aprende apenas uma estimativa única da recompensa futura, mas uma vasta gama de possíveis resultados e respetiva probabilidade.”
Como explica Joe Paton, autor sénior e Investigador Principal do Laboratório de Aprendizagem, “Estes resultados foram realmente entusiasmantes porque sugerem um mecanismo relativamente simples através do qual o cérebro consegue avaliar o risco - com implicações importantes tanto para o comportamento normal como patológico - e que, além disso, demonstrou melhorar substancialmente o desempenho de algoritmos de IA em tarefas complexas”.
“No entanto, começámos a questionar-nos se os neurónios dopaminérgicos poderiam estar a reportar um conjunto muito mais vasto de erros de previsão do que aqueles que as equipas da DeepMind e de Harvard tinham descrito”, diz Sousa. “E se diferentes neurónios de dopamina fossem sensíveis a combinações diferentes de características de recompensas futuras, por exemplo, não apenas em relação à sua quantidade, mas também ao momento em que ocorrem? Se assim fosse, a população de neurónios, como um todo, poderia fornecer uma visão muito mais rica, representando toda a distribuição das possíveis grandezas / magnitudes da recompensa e do momento em que acontecem.”
A equipa desenvolveu uma nova teoria computacional para descrever como esta informação poderá ser aprendida e calculada, com base na experiência. Esta abordagem reflete a forma como, atualmente, alguns sistemas de IA, especialmente no âmbito da “aprendizagem por reforço (RL)”, estão a ser treinados para lidar com a incerteza e o risco, recorrendo a estratégias de aprendizagem distributiva.
Fareja, Espera, Recompensa
Para testar esta ideia, a equipa concebeu uma tarefa comportamental simples, mas muito reveladora. Foram apresentados diferentes estímulos olfativos a ratinhos, cada um associado a recompensas de tamanhos específicos ou com diferentes intervalos de tempo. Este modelo foi crucial pois permitiu aos investigadores observar como os neurónios dopaminérgicos respondiam a diferentes combinações de grandeza e tempo da recompensa.
“A maioria dos estudos anteriores calculavam a média da atividade dos neurónios e analisavam essa média”, explica Sousa. “Mas nós queríamos captar toda a diversidade existente na população de neurónios e perceber como os neurónios individuais se poderiam especializar e contribuir para uma representação coletiva mais abrangente”.
Com recurso a uma combinação de avançadas técnicas de marcação genética e de descodificação, analisaram os dados de dezenas de neurónios dopaminérgicos. E fizeram uma descoberta surpreendente: alguns neurónios mostravam-se mais “impacientes”, atribuindo maior valor a recompensas imediatas, enquanto outros eram mais sensíveis a recompensas com atraso. Separadamente, alguns neurónios eram mais “otimistas”, respondendo mais a recompensas inesperadamente grandes e antecipando resultados acima da média. Outros, por sua vez, eram mais “pessimistas”, reagindo mais intensamente à desilusão e favorecendo estimativas mais cautelosas em relação a recompensas futuras.
“Quando analisámos a população como um todo, tornou-se claro que estes neurónios estavam a codificar um mapa probabilístico”, diz Paton. “Não apenas consideravam se uma recompensa era provável, como estabeleciam um sistema coordenado que indicava quando a recompensa poderia chegar e quão grande poderia ser.” Na prática, o cérebro estava a calcular uma distribuição de recompensas, um princípio usado nos sistemas modernos de IA.
Conselheiros na Nossa Cabeça
A equipa mostrou que este código da população de neurónios podia prever o comportamento antecipatório dos animais. Descobriu também que os neurónios adaptaram-se ao ambiente. “Por exemplo”, diz Daniel McNamee, co-autor sénior e Investigador Principal do Laboratório de Inteligência Natural, “se as recompensas surgiam com atraso, os neurónios ajustaram-se, alterando a forma como valorizavam recompensas mais distantes no tempo e tornaram-se mais sensíveis a elas. Este tipo de flexibilidade é aquilo a que chamamos ‘codificação eficiente’”.
O estudo revelou ainda que, embora todos os neurónios conseguissem adaptar-se, os seus papéis relativos permaneciam estáveis. Os neurónios mais otimistas mantinham-se otimistas e os mais pessimistas continuavam cautelosos. Esta diversidade que se mantém inalterada, argumenta McNamee, pode ser essencial para permitir que o cérebro equacione múltiplos futuros possíveis, em simultâneo.
“É quase como ter uma equipa de conselheiros com diferentes perfis de risco”, explica. “Alguns incentivam à ação: ‘Aproveita a recompensa agora, porque ela pode não durar muito’; enquanto outros aconselham à paciência: ‘Espera, que pode vir aí algo melhor’. Esta diversidade de perspectivas pode ser fundamental para tomar boas decisões, num mundo imprevisível. ”Há aqui um paralelismo com o uso de ensembles em aprendizagem automática - um ramo da IA em que os computadores aprendem a partir de dados - onde múltiplos modelos, cada um com perspectivas ou enviesamentos diferentes, trabalham em conjunto enquanto previsores diferentes, para melhorar o desempenho perante a incerteza.
Do Feedback à Previsão
Este código neuronal, aprendido com base na experiência, não serve apenas para ajudar os animais a agir de acordo com o que aconteceu no passado, mas também permite planear para um futuro diferente. Em simulações computacionais, os investigadores mostraram que o acesso a este “mapa codificado pela dopamina” permitia a agentes artificiais tomar decisões mais inteligentes, especialmente em ambientes onde as recompensas mudavam ao longo do tempo ou dependiam de necessidades internas, como a fome.
“Um dos aspetos mais elegantes deste modelo é permitir uma adaptação rápida de comportamentos sensíveis ao risco sem exigir para isso um complicado modelo do mundo”, diz McNamee. “Em vez de simular todos os resultados possíveis, o cérebro pode consultar este mapa e reajustá-lo com base no contexto.”
Sousa acrescenta ainda, “Isto pode ajudar a explicar como é que os animais conseguem mudar rapidamente de estratégia em função das suas necessidades. Um ratinho com fome pode mostrar preferência por recompensas pequenas, mas rápidas. Enquanto outro saciado pode estar disposto a esperar por algo melhor. O mesmo mapa pode gerar ambas as estratégias, apenas com pesos diferentes”.
Tiras (ou Não) a Bolacha?
“Pela primeira vez estamos a observar este tipo de atividade dopaminérgica multidimensional no momento do estímulo, ou seja, antes mesmo da recompensa chegar”, comenta Paton. “É esta atividade precoce que possibilita ao cérebro construir um mapa de previsão das recompensas futuras. Reflete uma estrutura e heterogeneidade nas respostas dos neurónios dopaminérgicos, que ainda não tinha sido descrita. Este código neural não serve apenas para aprender com recompensas passadas, mas também para fazer inferências acerca do futuro, para adaptar o comportamento de forma proativa baseado no que provavelmente irá acontecer a seguir”.
Estas descobertas abrem também novas perspetivas sobre a impulsividade. Se a forma como os sistemas dopaminérgicos que representam o futuro difere de indivíduo para indivíduo, poderá essa circunstância ajudar a explicar porque é que uns são mais propensos a tirar logo a bolacha, enquanto outros preferem esperar - e porque será que alguns têm mais dificuldade em conter comportamentos impulsivos? E se assim é, poderá este “mapa interno” ser modelado, através de terapia ou mudanças ambientais, para ajudar os indivíduos a ver o mundo de forma diferente e a confiar mais nas recompensas de longo prazo?
Inteligência Natural, Futuros Artificiais
Numa altura em que a neurociência e a inteligência artificial se influenciam mutuamente de forma cada vez mais profunda, as descobertas deste estudo vêm reforçar essa ligação. Os resultados sugerem que o cérebro utiliza estratégias que os cientistas computacionais só recentemente começaram a explorar para melhorar a aprendizagem em máquinas.
“Incorporar arquiteturas inspiradas na atividade neural que codificam não apenas uma única previsão, mas todo o espectro de futuros possíveis - incluindo o seu tempo, tamanho / magnitude e probabilidade - poderá ser determinante para o desenvolvimento de máquinas que pensem mais como os humanos”, acrescenta Paton. “Sistemas que pensam, não apenas em termos da média, mas também em termos probabilísticos, poderão melhor adaptar-se a objetivos e ambientes mutáveis”.
Por agora, este trabalho marca um importante avanço no nosso entendimento sobre como o cérebro antecipa o futuro, não como uma previsão estática, mas antes como um mapa flexível de possibilidades detalhadas. É um modelo de previsão assente na flexibilidade, diversidade e contexto, um código neural que poderá servir como um dos mais valiosos modelos do cérebro, um guia para aprender com o passado e navegar na incerteza do que está para vir.
Algo em que pensar da próxima vez em que for confrontado com a decisão de esperar, ou não, numa fila.
Journal
Nature
Method of Research
Experimental study
Subject of Research
Animals
Article Title
Dopamine neurons encode a multidimensional probabilistic map of future reward
Article Publication Date
4-Jun-2025