understandscience

Conectando Fármacos e Doenças: Los Modelos de Lenguaje Grandes Abordan la Traducción de Indicaciones de Fármacos

7 minutos de Lectura

Jan 01, 2026

Introducción

El viaje desde un compuesto químico hasta un medicamento que salva vidas es una tarea compleja y costosa. El descubrimiento de fármacos, el proceso de identificación de entidades químicas con potencial terapéutico, es un área importante de investigación científica. Un aspecto crucial de este proceso implica la comprensión de las indicaciones aprobadas de un fármaco: las enfermedades, condiciones o síntomas específicos que está destinado a tratar, prevenir, mitigar, curar, aliviar o diagnosticar. La capacidad de vincular eficientemente las moléculas de los fármacos con sus indicaciones, o viceversa, promete un tratamiento de enfermedades más dirigido y una reducción sustancial en los costos de desarrollo de nuevos medicamentos, lo que podría transformar el campo.

En los últimos años, los Modelos de Lenguaje Grandes (LLMs), como GPT-3, GPT-4, LLaMA y Mixtral, han surgido como herramientas poderosas en inteligencia artificial. Estos modelos, entrenados en grandes cantidades de datos de texto, se destacan en diversas tareas de Procesamiento del Lenguaje Natural, incluida la generación y traducción de texto. Sus capacidades van más allá de la comprensión general del lenguaje, mostrando promesas en diversos dominios científicos. El desafío radica en adaptar estos modelos basados en texto a conceptos científicos, especialmente al tratar con estructuras moleculares que normalmente se representan visualmente.

Traduciendo Moléculas y Medicina

Para cerrar la brecha entre las estructuras moleculares y la información textual, los investigadores utilizan métodos como el Sistema Simplificado de Entrada Molecular en Línea (SMILES). Las cadenas SMILES proporcionan una representación textual de las moléculas, capturando sus átomos, enlaces y características estructurales. Este formato textual permite a los LLMs procesar y comprender las moléculas. Este artículo explora la viabilidad de utilizar LLMs para la traducción entre moléculas de fármacos, representadas por cadenas SMILES, y sus indicaciones correspondientes. El estudio se centra en dos tareas principales: "fármaco-a-indicación", donde el objetivo es generar indicaciones a partir de la cadena SMILES de un fármaco, y "indicación-a-fármaco", donde el objetivo es generar una cadena SMILES para un fármaco que trate un conjunto dado de indicaciones. Lograr con éxito esta traducción podría allanar el camino para encontrar tratamientos para enfermedades actualmente intratables.

La investigación existente ya ha demostrado el potencial de la IA en el descubrimiento de fármacos y el diseño molecular. Los enfoques incluyen redes neuronales de grafos y modelos de IA generativa. Algunos esfuerzos han empleado modelos basados en GPT para diseñar moléculas con propiedades deseadas, mientras que otros han utilizado la arquitectura T5 para tareas como la predicción de reacciones y la conversión entre descripciones moleculares y cadenas SMILES. Trabajos adicionales implican la generación de nuevas moléculas a partir de firmas de expresión génica o el uso de redes neuronales recurrentes y redes neuronales de grafos para predecir fármacos y sus indicaciones. Estos avances resaltan una base sólida para aprovechar la IA en el diseño molecular y el descubrimiento de fármacos.

Evaluación de las Capacidades de LLM para la Traducción de Indicaciones de Fármacos

Esta investigación evalúa específicamente las capacidades de MolT5, un modelo basado en T5, en la ejecución de las tareas de traducción de fármaco-a-indicación e indicación-a-fármaco. Los experimentos utilizaron datos de fármacos de dos bases de datos prominentes: DrugBank y ChEMBL. Para la tarea de fármaco-a-indicación, la entrada fue la cadena SMILES de un fármaco existente, y la salida objetivo fueron sus indicaciones asociadas. En la tarea de indicación-a-fármaco, la entrada fue un conjunto de indicaciones, y el modelo intentó generar la cadena SMILES de un fármaco que pudiera tratar esas condiciones.

El estudio empleó todos los tamaños de modelos MolT5 disponibles (pequeño, base y grande) y los probó bajo tres configuraciones experimentales diferentes: evaluación de modelos base en todo el conjunto de datos, evaluación en un subconjunto del 20% y ajuste fino de los modelos en el 80% del conjunto de datos seguido de evaluación en el 20% restante. Los hallazgos indicaron que los modelos MolT5 más grandes superaron consistentemente a los más pequeños en todas las configuraciones y tareas. Curiosamente, el ajuste fino de los modelos MolT5 a menudo tuvo un impacto negativo en el rendimiento, lo que sugiere que el conocimiento preentrenado podría verse interrumpido por el ajuste fino en esta tarea específica.

Tras estos experimentos iniciales, los investigadores entrenaron el modelo MolT5 más pequeño disponible desde cero utilizando un tokenizador personalizado. Este modelo personalizado mostró un rendimiento mejorado en los datos de DrugBank para la tarea de fármaco-a-indicación en comparación con los datos de ChEMBL, posiblemente debido a la mayor riqueza de detalles en las descripciones de indicaciones de DrugBank. El ajuste fino de este modelo personalizado en el 80% de cualquiera de los conjuntos de datos no degradó el rendimiento para la tarea de fármaco-a-indicación e incluso condujo a mejoras en algunas métricas. Sin embargo, para la tarea de indicación-a-fármaco, el ajuste fino no mejoró consistentemente el rendimiento en ninguno de los conjuntos de datos.

Desafíos y Direcciones Futuras

A pesar de los resultados prometedores, el rendimiento actual de estos modelos aún no es satisfactorio. Los investigadores identificaron un desafío clave: la "señal" entre las cadenas SMILES y las indicaciones es débil. A diferencia de la tarea original de MolT5, donde las cadenas SMILES similares a menudo tenían descripciones textuales similares (descripciones moleculares), en el contexto de fármacos e indicaciones, las cadenas SMILES similares pueden representar fármacos diferentes con indicaciones completamente distintas. Por el contrario, las cadenas SMILES diferentes pueden corresponder a fármacos con usos terapéuticos similares. Esta falta de una relación directa y consistente dificulta la obtención de un alto rendimiento. El estudio sugiere que una representación intermedia, a la que se mapean tanto los fármacos como las indicaciones, podría mejorar potencialmente el rendimiento. Por ejemplo, mapear una cadena SMILES a su descripción y luego traducir esa descripción a una indicación podría ser una vía fructífera para la investigación futura.

Otra limitación significativa es la escasez de datos. Los conjuntos de datos disponibles, ChEMBL y DrugBank, contienen menos de 10.000 pares fármaco-indicación en total. Estos datos limitados restringen la capacidad de establecer una señal fuerte entre las cadenas SMILES y las indicaciones. El trabajo futuro podría centrarse en métodos para enriquecer estos datos.

En general, los experimentos demostraron consistentemente que los modelos más grandes tienden a tener un mejor rendimiento. Los investigadores concluyen que, utilizando modelos más grandes y accediendo a más datos, o datos con una señal inherente más fuerte entre las indicaciones de los fármacos y las cadenas SMILES, podría ser posible lograr una traducción exitosa y facilitar el descubrimiento de nuevos fármacos. El estudio también reconoce que su evaluación se basó únicamente en métricas automatizadas, que pueden no correlacionarse perfectamente con el juicio humano. La investigación futura podría explorar la incorporación de la evaluación humana o el uso de LLMs para evaluar la calidad de las indicaciones generadas. Además, explorar arquitecturas de modelos alternativas, como los Modelos de Espacio de Estado (SSMs) como Mamba, que ofrecen escalado lineal con la longitud de la secuencia, podrían conducir a un mejor rendimiento y eficiencia computacional en comparación con la arquitectura transformer actual.

Conclusión

Esta investigación introduce una tarea novedosa: la traducción entre moléculas de fármacos y sus indicaciones utilizando modelos de lenguaje grandes. Al enmarcar esto como un problema de traducción de texto a texto, el estudio exploró dos direcciones: generar indicaciones a partir de cadenas SMILES de fármacos y generar cadenas SMILES a partir de indicaciones. Los experimentos con modelos MolT5 en los conjuntos de datos DrugBank y ChEMBL revelaron que los modelos más grandes generalmente rinden mejor, mientras que el ajuste fino a veces puede obstaculizar el rendimiento. Los desafíos identificados de señal débil y escasez de datos apuntan a futuras direcciones de investigación, incluido el uso de representaciones intermedias y el enriquecimiento de datos. El objetivo final es aprovechar los LLMs para acelerar el descubrimiento de fármacos, lo que conducirá a nuevos tratamientos para necesidades médicas no cubiertas.


Original source: "https://www.nature.com/articles/s41598-024-61124-0"

#Modelos de Lenguaje Grandes #Descubrimiento de Fármacos #Inteligencia Artificial #Química Computacional #SMILES #MolT5

Fuente: Artículo Original