Conectando Medicamentos e Doenças: Modelos de Linguagem Grandes Abordam a Tradução de Indicações de Medicamentos
7 minutos de Leitura
image: Acpanaj2 (CC0)
Introdução
A jornada de um composto químico a um medicamento que salva vidas é uma tarefa complexa e dispendiosa. A descoberta de medicamentos, o processo de identificação de entidades químicas com potencial terapêutico, é uma área significativa de pesquisa científica. Um aspecto crucial deste processo envolve a compreensão das indicações aprovadas de um medicamento – as doenças, condições ou sintomas específicos que ele se destina a tratar, prevenir, mitigar, curar, aliviar ou diagnosticar. A capacidade de vincular eficientemente moléculas de medicamentos às suas indicações, ou vice-versa, promete um tratamento de doenças mais direcionado e uma redução substancial nos custos de desenvolvimento de novos medicamentos, potencialmente transformando o campo.
Nos últimos anos, Modelos de Linguagem Grandes (LLMs), como GPT-3, GPT-4, LLaMA e Mixtral, emergiram como ferramentas poderosas em inteligência artificial. Esses modelos, treinados em vastas quantidades de dados de texto, destacam-se em várias tarefas de Processamento de Linguagem Natural, incluindo geração e tradução de texto. Suas capacidades vão além da compreensão geral da linguagem, mostrando promessa em diversos domínios científicos. O desafio reside em adaptar esses modelos baseados em texto a conceitos científicos, especialmente ao lidar com estruturas moleculares que são tipicamente representadas visualmente.
Traduzindo Moléculas e Medicina
Para colmatar a lacuna entre estruturas moleculares e informação textual, os pesquisadores utilizam métodos como o Sistema Simplificado de Entrada Molecular em Linha (SMILES). As strings SMILES fornecem uma representação textual de moléculas, capturando seus átomos, ligações e características estruturais. Este formato textual permite que os LLMs processem e compreendam moléculas. Este artigo explora a viabilidade do uso de LLMs para tradução entre moléculas de medicamentos, representadas por strings SMILES, e suas indicações correspondentes. O estudo foca em duas tarefas principais: "medicamento-para-indicação", onde o objetivo é gerar indicações a partir da string SMILES de um medicamento, e "indicação-para-medicamento", onde o objetivo é gerar uma string SMILES para um medicamento que trata um conjunto de indicações. Alcançar com sucesso essa tradução pode abrir caminho para encontrar tratamentos para doenças atualmente intratáveis.
Pesquisas existentes já demonstraram o potencial da IA na descoberta de medicamentos e no design molecular. Abordagens incluem redes neurais de grafos e modelos de IA generativa. Alguns esforços empregaram modelos baseados em GPT para projetar moléculas com propriedades desejadas, enquanto outros usaram a arquitetura T5 para tarefas como previsão de reações e conversão entre descrições moleculares e strings SMILES. Trabalhos adicionais envolvem a geração de novas moléculas a partir de assinaturas de expressão gênica ou o uso de redes neurais recorrentes e redes neurais de grafos para prever medicamentos e suas indicações. Esses avanços destacam uma base sólida para alavancar a IA no design molecular e na descoberta de medicamentos.
Avaliando as Capacidades de LLM para Tradução de Indicações de Medicamentos
Esta pesquisa avalia especificamente as capacidades do MolT5, um modelo baseado em T5, na execução das tarefas de tradução de medicamento-para-indicação e indicação-para-medicamento. Os experimentos utilizaram dados de medicamentos de dois bancos de dados proeminentes: DrugBank e ChEMBL. Para a tarefa de medicamento-para-indicação, a entrada foi a string SMILES de um medicamento existente, e a saída alvo foram suas indicações associadas. Na tarefa de indicação-para-medicamento, a entrada foi um conjunto de indicações, e o modelo visou gerar a string SMILES de um medicamento que pudesse tratar essas condições.
O estudo empregou todos os tamanhos de modelos MolT5 disponíveis (pequeno, base e grande) e os testou sob três configurações experimentais diferentes: avaliação de modelos de base no conjunto de dados completo, avaliação em uma subamostra de 20% e ajuste fino dos modelos em 80% do conjunto de dados, seguido de avaliação na subamostra restante de 20%. As descobertas indicaram que modelos MolT5 maiores superaram consistentemente os menores em todas as configurações e tarefas. Curiosamente, o ajuste fino dos modelos MolT5 muitas vezes teve um impacto negativo no desempenho, sugerindo que o conhecimento pré-treinado pode ser interrompido pelo ajuste fino nesta tarefa específica.
Após esses experimentos iniciais, os pesquisadores treinaram o menor modelo MolT5 disponível do zero, usando um tokenizador personalizado. Este modelo personalizado mostrou desempenho aprimorado nos dados do DrugBank para a tarefa de medicamento-para-indicação em comparação com os dados do ChEMBL, possivelmente devido à riqueza de detalhes nas descrições de indicações do DrugBank. O ajuste fino deste modelo personalizado em 80% de qualquer um dos conjuntos de dados não degradou o desempenho para a tarefa de medicamento-para-indicação e até levou a melhorias em algumas métricas. No entanto, para a tarefa de indicação-para-medicamento, o ajuste fino não melhorou consistentemente o desempenho em nenhum dos conjuntos de dados.
Desafios e Direções Futuras
Apesar de resultados promissores, o desempenho atual desses modelos ainda não é satisfatório. Os pesquisadores identificaram um desafio chave: o "sinal" entre strings SMILES e indicações é fraco. Ao contrário da tarefa original do MolT5, onde strings SMILES semelhantes frequentemente tinham descrições textuais semelhantes (legendas moleculares), no contexto de medicamentos e indicações, strings SMILES semelhantes podem representar medicamentos diferentes com indicações completamente distintas. Inversamente, strings SMILES diferentes podem corresponder a medicamentos com usos terapêuticos semelhantes. Essa falta de uma relação direta e consistente dificulta a obtenção de alto desempenho. O estudo sugere que uma representação intermediária, à qual tanto medicamentos quanto indicações são mapeados, pode potencialmente melhorar o desempenho. Por exemplo, mapear uma string SMILES para sua legenda e, em seguida, traduzir essa legenda para uma indicação pode ser um caminho frutífero para pesquisas futuras.
Outra limitação significativa é a escassez de dados. Os conjuntos de dados disponíveis, ChEMBL e DrugBank, contêm menos de 10.000 pares medicamento-indicação no total. Esses dados limitados restringem a capacidade de estabelecer um sinal forte entre strings SMILES e indicações. Trabalhos futuros podem se concentrar em métodos para enriquecer esses dados.
No geral, os experimentos mostraram consistentemente que modelos maiores tendem a ter melhor desempenho. Os pesquisadores concluem que, utilizando modelos maiores e acessando mais dados, ou dados com um sinal inerente mais forte entre indicações de medicamentos e strings SMILES, pode ser possível alcançar uma tradução bem-sucedida e facilitar a descoberta de novos medicamentos. O estudo também reconhece que sua avaliação baseou-se unicamente em métricas automatizadas, que podem não se correlacionar perfeitamente com o julgamento humano. Pesquisas futuras podem explorar a inclusão de avaliação humana ou o uso de LLMs para avaliar a qualidade das indicações geradas. Além disso, explorar arquiteturas de modelos alternativas, como Modelos de Espaço de Estado (SSMs) como Mamba, que oferecem escalonamento linear com o comprimento da sequência, podem levar a melhor desempenho e eficiência computacional em comparação com a arquitetura transformer atual.
Conclusão
Esta pesquisa introduz uma tarefa inovadora: a tradução entre moléculas de medicamentos e suas indicações usando modelos de linguagem grandes. Ao enquadrar isso como um problema de tradução de texto para texto, o estudo explorou duas direções: gerar indicações a partir de strings SMILES de medicamentos e gerar strings SMILES a partir de indicações. Experimentos com modelos MolT5 nos conjuntos de dados DrugBank e ChEMBL revelaram que modelos maiores geralmente apresentam melhor desempenho, enquanto o ajuste fino pode, às vezes, prejudicar o desempenho. Os desafios identificados de sinal fraco e escassez de dados apontam para futuras direções de pesquisa, incluindo o uso de representações intermediárias e enriquecimento de dados. O objetivo final é aproveitar os LLMs para acelerar a descoberta de medicamentos, levando a novos tratamentos para necessidades médicas não atendidas.
Original source: "https://www.nature.com/articles/s41598-024-61124-0"