As proteínas são moléculas naturais que desempenham funções celulares críticas no corpo e são os blocos de construção de todas as doenças. A caracterização de proteínas pode revelar mecanismos de doenças, incluindo formas de retardar ou reverter doenças, enquanto a criação de proteínas pode levar ao desenvolvimento de medicamentos e terapias inteiramente novos.

acesso:

Página inicial do shopping oficial da Microsoft China

No entanto, o processo atual de concepção de proteínas em laboratório é caro do ponto de vista computacional e de recursos humanos. É necessário criar uma estrutura proteica que desempenhe uma tarefa específica no corpo e, em seguida, encontrar uma sequência proteica (a sequência de aminoácidos que constituem uma proteína) que possa "dobrar-se" nessa estrutura. (As proteínas devem dobrar-se corretamente em uma forma tridimensional para desempenhar a função pretendida).

Não precisa ser tão complicado.

Esta semana, a Microsoft lançou o EvoDiff, uma estrutura geral que, segundo a empresa, pode gerar proteínas de “alta fidelidade” e “diversificadas” baseadas em sequências de proteínas. Ao contrário de outras estruturas de geração de proteínas, o EvoDiff não requer nenhuma informação estrutural da proteína alvo, eliminando o que normalmente é o passo mais trabalhoso.

Kevin Yang, pesquisador sênior da Microsoft, disse que depois que o EvoDiff for de código aberto, ele poderá ser usado para criar enzimas para novos tratamentos e métodos de administração de medicamentos, bem como novas enzimas para reações químicas industriais.

“Nossa visão é que o EvoDiff expandirá as capacidades da engenharia de proteínas além do paradigma estrutura-função em direção ao design programável e sequencial”, disse Yang, um dos co-criadores do EvoDiff, ao TechCrunch em uma entrevista por e-mail. "Com o EvoDiff, demonstramos que talvez não precisemos realmente de estrutura, mas sim de 'a sequência da proteína é tudo que você precisa', para projetar novas proteínas de maneira controlada."

No centro da estrutura EvoDiff está um modelo de 640 parâmetros treinado em dados de todas as diferentes espécies e classes funcionais de proteínas. (Os parâmetros são o que o modelo de IA aprende com os dados de treinamento e definem essencialmente a habilidade do modelo em lidar com o problema - neste caso, gerando proteínas.) Os dados para treinar o modelo vêm do conjunto de dados OpenFold de alinhamentos de sequência e do UniRef50, um subconjunto do conjunto de dados UniProt, um banco de dados de sequência de proteínas e informações funcionais mantido pelo consórcio UniProt.

EvoDiff é um modelo de difusão cuja estrutura é semelhante a muitos modelos modernos de geração de imagens, como difusão estável e DALL-E2. O EvoDiff aprende a subtrair gradualmente o ruído de uma proteína inicial que consiste quase inteiramente em ruído, permitindo que ele se aproxime lentamente e passo a passo da sequência da proteína.

O processo pelo qual o EvoDiff gera proteínas.

Os modelos de difusão têm sido cada vez mais utilizados em áreas além da geração de imagens, desde a concepção de novas proteínas (como EvoDiff), até a composição de música e até mesmo a síntese de fala.

“Se há uma conclusão [do EvoDiff], acho que podemos – e devemos – gerar proteínas a partir da sequência porque possibilitamos versatilidade, escala e modularidade”, disse Ava Amini, outra co-contribuidora do EvoDiff e pesquisadora sênior da Microsoft, por e-mail. “Nossa estrutura de difusão nos dá a capacidade de fazer isso e também nos permite controlar como essas proteínas são projetadas para atingir objetivos funcionais específicos”.

Na opinião de Amini, o EvoDiff não apenas cria novas proteínas, mas também preenche “lacunas” nos designs de proteínas existentes. Por exemplo, se uma determinada parte de uma proteína se liga a outra proteína, o modelo pode gerar uma sequência de aminoácidos da proteína em torno dessa parte que atenda a uma série de critérios.

Como o EvoDiff projeta proteínas no "espaço de sequência" em vez de na estrutura da proteína, ele também pode sintetizar "proteínas desordenadas" que, em última análise, não conseguem se dobrar em sua estrutura tridimensional final. Tal como as proteínas que funcionam normalmente, as proteínas desordenadas desempenham papéis importantes na biologia e nas doenças, tais como aumentar ou reduzir a atividade de outras proteínas.

É importante ressaltar que a pesquisa por trás do EvoDiff não foi revisada por pares – pelo menos ainda não. Sarah AlAMDari, cientista de dados da Microsoft envolvida no projeto, admitiu que “ainda há muito trabalho de escalonamento a ser feito” antes que a estrutura possa ser colocada em uso comercial.

“Este é apenas um modelo de 640 milhões de parâmetros, e se o ampliarmos para bilhões de parâmetros, poderemos ver uma melhoria na qualidade da geração”, disse Alamdari por e-mail. "Embora tenhamos demonstrado algumas estratégias grosseiras, para obter um controle mais preciso, gostaríamos que o EvoDiff fosse condicionado a texto, informações químicas ou outros meios para especificar os recursos desejados."

Em seguida, a equipe do EvoDiff planeja testar o modelo em proteínas geradas em laboratório para ver se funcionam. Se funcionar, eles começarão a trabalhar na estrutura da próxima geração.