Aceleración y optimización de procesos en la caracterización molecular

La tesi doctoral d'Antoni Oliver proposa metodologies per accelerar el processament de bases de dades moleculars a partir de la implementació en maquinari de sistemes de computació no convencionals com la computació estocàstica

Los sistemas de computación estocástica, que se desarrollaron en los años sesenta, cayeron en desuso por la falta de precisión que proporcionaban en los resultados por su naturaleza probabilística. A pesar de ello, los sistemas de computación estocástica tienen ciertas ventajas, tales como un bajo requerimiento en área de circuito en comparación con los sistemas de computación basados ​​en procesadores convencionales. Además, se pueden implementar en paralelo con relativa facilidad, por lo que hacen posible la realización simultánea de una gran cantidad de operaciones. Con la adecuada elección de los generadores aleatorios, los sistemas de computación estocástica ofrecen una precisión que es suficiente para los sistemas de reconocimiento de patrones, al tiempo que permiten incrementar la densidad de los circuitos a implementar. 

En este sentido, la tesis doctoral de Antoni Oliver Gelabert, defendida en la Universidad de las Islas Baleares, propone y analiza los resultados experimentales sobre la influencia de varios generadores aleatorios en diferentes funciones estocásticas. Más concretamente se han estudiado los resultados derivados de la implementación digital de la función parecido estocástico. Esta función se utiliza para la identificación muy rápida de objetos similares en bases de datos. Las implementaciones digitales se han efectuado utilizando placas programables Field Programmable Gate Array (FPGA) y se ha determinado la salida mediante un análisis en tiempo real. 

Además de la optimización del procesamiento de bases de datos utilizando sistemas de computación estocástica, también se han presentado soluciones para la generación eficiente de bases de datos moleculares orientadas a la búsqueda de compuestos análogos. La caracterización molecular se lleva a cabo mediante la propuesta y la evaluación de diferentes modelos de descriptores que cuantifican la distribución de carga molecular (descriptores MPK) y que miden los extremos de la distribución de energía electrostática entre pares atómicos (descriptores PED). Los modelos propuestos se pueden aplicar al cribado virtual muy rápido de bases de datos moleculares tanto en software como en hardware. Además, los descriptores moleculares propuestos han demostrado ser competitivos en comparación con otros métodos, especialmente en cuanto a los factores de enriquecimiento al 1 por ciento obtenidos mediante curvas Receiving Operating Characteristic (ROC). En estas curvas se determina la evolución del número de verdaderos positivos detectados frente a los falsos positivos en función de la estimación de la similitud empleando bases de datos estandarizados como la base de datos Directory of Useful Decoy (DUD). 

Los descriptores propuestos se han aplicado también a técnicas de aprendizaje de máquina supervisado como las ventanas de Parzen. Así, se estima la función de distribución de la probabilidad de diferentes clases de moléculas (como pueden ser los activos contra una diana o fármacos con actividades terapéuticas específicas). Esta función se utiliza para determinar la probabilidad a posteriori de que un compuesto pertenezca a una clase particular por aplicación de la regla de Bayes. Siguiendo este esquema se ha implementado un sistema de predicción de dianas terapéuticas que emplea la información contenida en una base de datos conocida para determinar si una molécula, atendiendo a sus características, es un candidato potencial a pertenecer a una clase. Se ha visto que con esta metodología se mejora la tasa de éxito en las predicciones cuando el número de compuestos en el conjunto de entrenamiento se incrementa. 

Respecto a la caracterización molecular, se han presentado medidas para la mejora en la velocidad de la estimación de los puntos de interacción sobre la superficie molecular (SSIP) obtenidos a partir del potencial electrostático molecular (MEP) calculado con la teoría del funcional de la densidad (DFT). Los SSIP tienen aplicaciones en el estado sólido y líquido como el cribado virtual de cocristales o la predicción de energías libres de interacción. 

Los resultados presentados en esta tesis se basan en el cálculo de una superficie molecular cercana a los centros atómicos empleando superficies de densidad electrónica de 0,01 au y en la parametrización del potencial electrostático en función del tipo atómico por aceptores y donadores de enlaces de hidrógeno. Los valores teóricos sobre la superficie con densidad electrónica 0,01 au demuestran tener una buena correlación con valores experimentales. Además, el cálculo a 0,01 au ha resultado ser, en promedio, cinco veces más rápido. 

Finalmente se ha propuesto un método eficiente para el cálculo del MEP empleando las cargas parciales atómicas MMFF94 y el cálculo directo de varias propiedades electrostáticas sobre la superficie de van der Waals (VDW) considerando la molécula como un conjunto de cargas atómicas discretas. El método incluye la exclusión automática de regiones inaccesibles para el disolvente y proporciona correlaciones aceptables con los valores experimentales. La ventaja del método propuesto es la alta velocidad de procesamiento del MEP (hasta cinco mil átomos por segundo utilizando un solo procesador), que lo hace adecuado para determinar los SSIP en grandes bases de datos y en macromoléculas.

Ficha de la tesis doctoral

  • Título: Desarrollo y aceleración hardware de metodologías de descripción y comparación de compuestos orgánicos
  • Autor: Antoni Oliver Gelabert
  • Departamento: Física
  • Programa de doctorado: Ingeniería Electrónica
  • Directores: Josep Lluís Rosselló Sanz y Rafael Prohens López

Fecha de publicación: Thu Mar 15 12:18:00 CET 2018