Um estudo recente publicado na Nature Human Behaviour (2025) por Ariel Goldstein e colaboradores apresenta uma estrutura computacional inovadora que conecta características acústicas, de fala e linguísticas para estudar a base neural das conversas cotidianas no cérebro humano. Utilizando eletrocorticografia (ECoG), os pesquisadores registraram sinais neurais durante 100 horas de produção e compreensão de fala em conversas reais. O estudo revelou como modelos de inteligência artificial (IA) podem prever com precisão a atividade cerebral em diferentes níveis hierárquicos de processamento da linguagem, oferecendo insights valiosos sobre como o cérebro humano processa a fala e a linguagem em contextos naturais.

A Estrutura do Estudo
Os pesquisadores utilizaram o modelo multimodal Whisper, desenvolvido para transcrever fala em texto, para extrair embeddings acústicos, de fala e linguísticos. Esses embeddings foram mapeados linearmente na atividade cerebral registrada durante a produção e compreensão de fala. O modelo demonstrou uma capacidade impressionante de prever a atividade neural em novas conversas, não utilizadas no treinamento, destacando a eficácia da abordagem.
A hierarquia de processamento identificada no estudo alinha-se com a organização cortical do cérebro humano: áreas sensoriais e motoras mostraram maior alinhamento com embeddings de fala, enquanto áreas de linguagem de nível superior, como o giro frontal inferior (área de Broca), alinharam-se melhor com embeddings linguísticos. Além disso, o modelo capturou a sequência temporal da codificação de linguagem para fala antes da articulação (produção) e da codificação de fala para linguagem após a articulação (compreensão).
Descobertas Principais
- Hierarquia de Processamento: O estudo confirmou que o processamento da linguagem ocorre em uma hierarquia distribuída, com áreas sensoriais e motoras envolvidas na percepção e produção da fala, enquanto áreas de linguagem de nível superior processam informações semânticas e sintáticas.
- Integração de Informações: O modelo Whisper mostrou que as informações acústicas e de fala são integradas de forma contínua durante o processamento da linguagem, com áreas corticais específicas responsáveis por diferentes aspectos da fala e da linguagem.
- Superioridade dos Modelos Multimodais: Os embeddings aprendidos pelo Whisper superaram modelos simbólicos tradicionais na captura da atividade neural, sugerindo que abordagens baseadas em aprendizado profundo oferecem uma representação mais precisa do processamento da linguagem natural.
- Dinâmica Temporal: O estudo revelou padrões temporais distintos durante a produção e compreensão da fala. Por exemplo, durante a produção, a atividade neural relacionada à linguagem atingiu o pico cerca de 500 ms antes da articulação da palavra, enquanto, na compreensão, o pico ocorreu aproximadamente 300 ms após o início da palavra.

Implicações e Futuro
Este estudo representa uma mudança de paradigma na neurociência da linguagem, sugerindo que modelos computacionais unificados, como o Whisper, podem capturar a complexidade do processamento da linguagem natural em contextos reais. A abordagem multimodal oferece uma estrutura poderosa para entender como o cérebro integra informações acústicas, de fala e linguísticas durante conversas cotidianas.
No futuro, modelos ainda mais avançados, como aqueles que incorporam modalidades visuais ou sistemas de articulação motora, podem fornecer insights adicionais sobre a interação entre percepção, produção e cognição durante a comunicação humana.
A pesquisa de Goldstein e colaboradores abre novas portas para a compreensão da base neural da linguagem, demonstrando como modelos de IA podem ser usados para estudar processos cognitivos complexos em contextos do mundo real. Essas descobertas não apenas avançam o campo da neurolinguística, mas também têm implicações para o desenvolvimento de tecnologias de reconhecimento de fala e linguagem natural mais eficientes e humanizadas.
Para mais detalhes, consulte o artigo completo na Nature Human Behaviour (2025).