Una nueva herramienta de IA, arroja luz sobre el "lado oscuro" del ADN humano y revela algo valioso

Una poderosa herramienta desarrollada mediante aprendizaje automático con IA arroja luz sobre el turbio territorio de las microproteínas, revelando microproteínas que antes se creían imposibles de encontrar. Un hallazgo podría tener un importante valor terapéutico.

ADN humano con micropoteinas
Una herramienta de IA desarrollada por un equipo ilumina microproteínas que antes se creían imposibles de encontrar (imagen generada con IA con fines ilustrativos).

ShortStop es una herramienta de aprendizaje automático desarrollada para explorar el ADN en las zonas más oscuras que se han pasado por alto. Algunas zonas del ADN parecen ocultar microproteínas, consideradas relativamente importantes. Sin embargo, podrían desempeñar un papel importante en las enfermedades, por lo que identificarlas podría conducir a la creación de más tratamientos.

Se suele afirmar que las proteínas son fundamentales para la vida, ya que desempeñan numerosas estructuras y funciones en el organismo, mientras que las microproteínas han sido menos apreciadas. En el 99 % del ADN descrito como no codificante, las microproteínas han sido prácticamente ignoradas.

Científicos del Instituto Salk profundizaron en estos "lados oscuros" del genoma humano, en busca directa de las microproteínas olvidadas durante mucho tiempo. Para ello, desarrollaron una herramienta llamada ShortStop, creada mediante algoritmos de aprendizaje automático.

Con ella, pudieron analizar bases de datos genéticas e identificar partes del genoma que probablemente codifiquen microproteínas. También pudieron predecir qué microproteínas tienen mayor probabilidad de ser importantes biológicamente. Esto puede ser valioso para identificar microproteínas valiosas para la investigación sanitaria y la lucha contra las enfermedades.

Ahora estamos descubriendo que las microproteínas podrían desempeñar un papel fundamental en la regulación de la salud y la enfermedad.

“La mayoría de las proteínas de nuestro cuerpo son bien conocidas, pero descubrimientos recientes sugieren que nos han faltado miles de proteínas pequeñas y ocultas, llamadas microproteínas, codificadas por regiones olvidadas de nuestro genoma”, dijo el autor principal Alan Saghatelian, profesor y titular de la Cátedra Dr. Frederik Paulsen en Salk.

Ahora estamos descubriendo que las microproteínas podrían desempeñar un papel fundamental en la regulación de la salud y la enfermedad.

"Durante mucho tiempo, los científicos solo estudiaban las regiones del ADN que codificaban proteínas grandes y descartaban el resto como 'ADN basura', pero ahora estamos descubriendo que estas otras regiones son realmente muy importantes, y las microproteínas que producen podrían desempeñar un papel fundamental en la regulación de la salud y la enfermedad".

Microproteína del cáncer de pulmón

ShortStop arroja luz sobre las microproteínas que antes se creían imposibles de encontrar. La herramienta no solo ha encontrado microproteínas difíciles de detectar, sino que también ha identificado una con importancia médica.

En un conjunto de datos de cáncer de pulmón, se encontraron 210 nuevas microproteínas. Una de ellas podría abrir camino a posibilidades terapéuticas. Se descubrió que esta microproteína presentaba una expresión positiva en tumores de cáncer de pulmón.

El equipo analizó el ADN genético de los tumores para identificar algunas de las microproteínas funcionales implicadas, pero una de ellas destacó: se expresó mucho más en el tejido tumoral que en el tejido normal. Esto podría significar que podría identificarse como un biomarcador o una microproteína funcional para el cáncer de pulmón, lo que podría contribuir al desarrollo de futuros métodos terapéuticos para esta enfermedad.

¿Por qué las microproteínas se encuentran en aguas turbias?

Debido a su tamaño, las microproteínas han sido difíciles de detectar y categorizar. Las proteínas estándar pueden tener de cientos a miles de aminoácidos, mientras que las microproteínas pueden tener menos de 150, lo que dificulta su identificación utilizando modelos típicos para proteínas estándar. El equipo tuvo que pensar de manera diferente para encontrar las microproteínas mientras las buscaban en grandes conjuntos de datos.

Células, microproteínas.
Las células expresan una nueva microproteína predicha por ShortStop (verde), con los núcleos celulares teñidos de azul. El patrón sugiere que las microproteínas se localizan en los endosomas, orgánulos responsables de la clasificación y el transporte de la carga celular, o en los lisosomas, orgánulos que recogen y eliminan los desechos celulares. Crédito: Instituto Salk.

También ha sido difícil diferenciar las microproteínas funcionales de aquellas que no parecen estar asociadas con una función importante en el organismo.

No todas las microproteínas pueden ser biológicamente significativas, pero algunas sí.

ShortStop logra clasificar las microproteínas en categorías funcionales y no funcionales gracias a sus sistemas de aprendizaje automático y a su entrenamiento.

Filtra eficazmente las microproteínas que podrían no tener relevancia biológica y puede analizar conjuntos de datos de ARN que utilizan muchos laboratorios médicos.

El primer autor del estudio, Brendan Miller, investigador postdoctoral en el laboratorio de Saghatelian, afirmó: "Ahora podemos buscar microproteínas en tejidos sanos y enfermos a gran escala, lo que revelará nuevos conocimientos sobre la biología humana y abrirá nuevas vías para el diagnóstico y el tratamiento de enfermedades como el cáncer y el Alzheimer”.

“Ya existe una gran cantidad de datos que ahora podemos procesar con ShortStop para encontrar nuevas microproteínas asociadas con la salud y la enfermedad, desde el Alzheimer hasta la obesidad y más allá”, afirmó Saghatelian.

Herramientas exitosas basadas en IA como ShortStop podrían ayudar a acelerar el conocimiento sobre la relación entre la genética y la enfermedad, ayudando a los expertos a desarrollar terapias en el futuro.

Referencia de las noticia

ShortStop: A machine learning framework for microprotein discovery. BMC Methods. July 2025. DOI: 10.1186/s44330-025-00037-4