Predição de variantes genéticas com redes neurais profundas

A genética e a inteligência artificial (IA) convergiram, forjando uma das áreas de pesquisa mais promissoras da medicina moderna. A capacidade de sequenciar o genoma humano, um feito que já foi impensável, agora gera uma torrente colossal de dados. O verdadeiro desafio, no entanto, reside em dar sentido a essa vastidão de informação, especialmente na identificação e predição do impacto funcional de variantes genéticas. É aqui que as redes neurais profundas (RNP), uma subárea do deep learning, entram em cena, transformando a forma como deciframos o código da vida.

 

Desvendando o genoma com deep learning

O desafio das variantes não codificantes

A maioria das variantes genéticas, mais de 90% para ser exato, reside em regiões do DNA que não codificam diretamente para proteínas, as chamadas regiões não codificantes. Por muito tempo, estas foram consideradas “DNA lixo”, mas hoje sabemos que contêm elementos cruciais para a regulação da expressão gênica, como potenciadores (enhancers), promotores e sítios de ligação de fatores de transcrição.

A tarefa de prever se uma única mudança de nucleotídeo (um SNP, polimorfismo de nucleotídeo único) nessas regiões terá um impacto biológico significativo, potencialmente causando uma doença, é extremamente complexa. Os métodos tradicionais de aprendizado de máquina, baseados em características pré-selecionadas e suposições lineares, frequentemente se mostram inadequados para capturar a complexidade não linear e hierárquica das interações genômicas.

 

Redes neurais profundas: A solução

As RNP, com suas múltiplas camadas ocultas, são inerentemente projetadas para aprender representações complexas e extrair características diretamente dos dados de alta dimensão, como sequências de DNA. Elas não exigem que o pesquisador defina explicitamente quais características (como o nível de conservação de uma região ou a presença de um sítio de ligação) são importantes. A própria rede aprende isso durante o treinamento.

 

Arquiteturas de RNP na genética

Diferentes arquiteturas de redes neurais profundas têm sido aplicadas com sucesso para abordar desafios específicos na genômica:

Redes neurais convolucionais (CNN)

As CNNs são incrivelmente eficazes na identificação de padrões locais na sequência de DNA. No contexto genético, elas usam “filtros” para varrer a sequência e identificar motivos curtos e funcionalmente importantes, como os sítios de ligação de fatores de transcrição. Isso as torna a escolha ideal para prever o impacto regulatório de variantes, avaliando como uma mudança afeta a afinidade de ligação de uma proteína reguladora.

 

Redes recorrentes (RNN) e LSTM

As RNNs (e suas variantes mais avançadas, como LSTMs – Memória de curto prazo longa) são projetadas para lidar com dados sequenciais, considerando a ordem e a dependência entre os elementos. Embora as sequências genômicas sejam estáticas, as LSTMs podem ser usadas para modelar interações de longo alcance ou para processar dados de expressão gênica ou séries temporais biológicas.

 

Modelos baseados em transformadores

Mais recentemente, modelos baseados na arquitetura transformer, inicialmente revolucionários em processamento de linguagem natural, têm sido adaptados para a genômica. Eles são excelentes em capturar as relações globais e as dependências de longo alcance em toda a sequência do genoma, o que é vital para entender as interações entre potenciadores distantes e seus genes alvo. Esses modelos, como o AlphaGenome do Google DeepMind, representam a vanguarda na predição mais precisa e abrangente dos efeitos de variantes únicas.

 

Aplicações e impacto clínico

Priorização de variantes de doenças

Um dos maiores impactos está na priorização de variantes. Em um paciente com uma doença genética rara, o sequenciamento de exoma ou genoma pode revelar milhares de variantes desconhecidas. As RNP são usadas para pontuar a probabilidade de patogenicidade de cada variante. Ao prever com alta precisão se uma variante é causal, os médicos e pesquisadores podem reduzir drasticamente a lista de suspeitos, acelerando o diagnóstico.

 

Previsão de sítios de splicing

Muitas variantes causam doenças ao afetar o splicing (o processo de remoção de íntrons do RNA). Redes neurais especializadas podem analisar a sequência de DNA e prever a probabilidade de uma variante criar novos sítios de splicing, destruir os existentes ou alterar a força com que o splicing ocorre. Isso é fundamental para entender doenças como a atrofia muscular espinhal.

 

Farmacogenômica

O campo da farmacogenômica estuda como as variantes genéticas influenciam a resposta de um indivíduo a um medicamento. RNP estão sendo usadas para prever a eficácia e a toxicidade de drogas com base no perfil genético do paciente, movendo a medicina em direção a tratamentos verdadeiramente personalizados.

 

Desafios e o futuro

Apesar do entusiasmo, a aplicação das RNP na genética enfrenta desafios. A questão da interpretabilidade é crucial: as RNP frequentemente funcionam como “caixas pretas”, e entender por que a rede fez uma determinada predição é vital em um contexto clínico, onde as decisões afetam a vida dos pacientes. Os pesquisadores estão trabalhando em métodos para “abrir” essas caixas pretas, como mapas de atenção e técnicas de visualização de características, para que os biólogos possam validar as descobertas da IA.

Outro desafio é o problema de “baixa amostra e alta dimensão” em estudos de associação genômica (GWAS), onde o número de indivíduos é pequeno em comparação com o vasto número de variantes. Estruturas inteligentes de RNP e a utilização de dados complementares (como dados epigenômicos) são necessárias para superar essa limitação.

O futuro, no entanto, é de colaboração intensa. Espera-se que, com o aumento da curadoria de dados de genomas e fenótipos, e com o aprimoramento contínuo das arquiteturas de deep learning, a predição de variantes genéticas se torne uma ferramenta de rotina na clínica, inaugurando uma era de diagnósticos ultrarrápidos e terapias de precisão.

 

Fontes 

  • LIBEN-NOWELL, David; DROR, Gal. Deep learning in genomics and biomedicine. *Nature Reviews Genetics*, v. 19, n. 12, p. 741-755, 2018.
  • WANG, Yilong et al. The future of human disease gene discovery with deep learning. *Nature Genetics*, v. 52, p. 868–875, 2020.
  • ZHOU, Jian; TROYANSKAYA, Olga G. Deep learning reveals the code of the noncoding genome. *Nature Methods*, v. 12, n. 10, p. 938–940, 2015.
  • JAGANATHAN, Karthik et al. Predicting Splicing from Sequence with Deep Learning. *Cell*, v. 176, n. 3, p. 535-548.e24, 2019.
  • MIN, Hyunjin et al. Interpretable deep learning models for genomics: advances and challenges. *Genome Biology*, v. 22, n. 1, p. 1-20, 2021.
  • SHEN, X. et al. Deep learning in precision oncology: current applications and future directions. *Cancer Cell*, v. 38, n. 2, p. 165-181, 2020.