stringtranslate.com

Warren Gish

Warren Richard Gish es el propietario de Advanced Biocomputing LLC. Se incorporó a la Universidad de Washington en St. Louis como miembro junior de la facultad en 1994 y fue profesor asociado de investigación en genética de 2002 a 2007. [2] [3]

Educación

Después de estudiar inicialmente física, Gish obtuvo una licenciatura en Bioquímica de la Universidad de California, Berkeley , y completó el trabajo de su doctorado. Licenciatura en Biología Molecular en la misma institución en 1988. [1]

Investigación

Gish es principalmente conocido por sus contribuciones a NCBI BLAST , [4] [5] su creación del servicio de red BLAST y bases de datos nr (no redundantes), su lanzamiento en 1996 del BLAST original con espacios (WU-BLAST 2.0), y la mayoría recientemente su desarrollo y apoyo a AB-BLAST. En la Universidad de Washington en St. Louis , Gish también dirigió el grupo de análisis del genoma que anotó todos los datos finales del genoma humano, de ratón y de rata producidos por el Centro de Secuenciación del Genoma de la Universidad desde 1995 hasta 2002.

Como estudiante de posgrado, Gish aplicó el algoritmo Quine-McCluskey al análisis de secuencias de reconocimiento de sitios de empalme. En 1985, con vistas a una rápida identificación de los sitios de reconocimiento de enzimas de restricción en el ADN, Gish desarrolló una biblioteca de funciones DFA en lenguaje C. La idea de aplicar una máquina de estados finitos a este problema fue sugerida por su compañero estudiante de posgrado y desarrollador de BSD UNIX, Mike Karels . La implementación de DFA de Gish fue la de una arquitectura de máquina Mealy , que es más compacta que una máquina Moore equivalente y, por tanto, más rápida. La construcción del DFA fue O( n ), donde n es la suma de las longitudes de las secuencias de consulta. Luego, el DFA podría usarse para escanear secuencias de sujetos en una sola pasada sin retroceso en O ( m ) tiempo, donde m es la longitud total de los sujetos. Más tarde se reconoció que el método de construcción de DFA era una consolidación de dos algoritmos, los algoritmos 3 y 4, descritos por Alfred V. Aho y Margaret J. Corasick . [6]

Mientras trabajaba para UC Berkeley en diciembre de 1986, Gish aceleró el programa FASTP [7] (más tarde conocido como FASTA [8] ) de William R. Pearson y David J. Lipman de 2 a 3 veces sin alterar los resultados. Cuando se comunicaron las modificaciones de rendimiento a Pearson y Lipman, Gish sugirió además que un DFA (en lugar de una tabla de búsqueda) produciría una identificación de k-tuplas más rápida y mejoraría la velocidad general del programa quizás hasta en un 10% en algunos casos; sin embargo, los autores consideraron que una mejora tan marginal, incluso en el mejor de los casos, no valía la complejidad adicional del código. Gish también imaginó en ese momento un servicio de búsqueda centralizado, en el que todas las secuencias de nucleótidos de GenBank se mantendrían en la memoria para eliminar los cuellos de botella de E/S (y se almacenarían en forma comprimida para conservar la memoria) y los clientes invocarían búsquedas FASTN de forma remota a través de Internet.

Las primeras contribuciones de Gish a BLAST se realizaron mientras trabajaba en el NCBI , a partir de julio de 1989. Incluso en los primeros prototipos, BLAST era normalmente mucho más rápido que FASTA . Gish reconoció el beneficio adicional potencial en esta aplicación de utilizar un DFA para el reconocimiento de palabras. Transformó su código DFA anterior en una forma flexible que incorporó a todos los modos de búsqueda BLAST . Otras de sus contribuciones a BLAST incluyen: el uso de secuencias de nucleótidos comprimidas, tanto como formato de almacenamiento eficiente como formato de búsqueda nativo rápido; procesamiento en paralelo; E/S asignadas en memoria; el uso de bytes centinela y palabras centinela al inicio y al final de secuencias para mejorar la velocidad de extensión de palabras; las implementaciones originales de BLASTX , [9] TBLASTN [4] y TBLASTX (inéditas); el uso transparente de programas externos (complementos) como seg , xnu y Dust para enmascarar regiones de baja complejidad en secuencias de consulta en tiempo de ejecución; el servicio de correo electrónico NCBI BLAST con comunicaciones opcionales cifradas con clave pública; el servicio de red BLAST experimental del NCBI; las bases de datos de secuencias de nucleótidos y proteínas no redundantes ( nr ) del NCBI, que generalmente se actualizan diariamente con todos los datos de GenBank , Swiss-Prot y PIR . Gish desarrolló la primera API BLAST , que se utilizó en la anotación EST [10] y la producción de datos de Entrez , así como en el conjunto de aplicaciones NCBI BLAST versión 1.4 (Gish, no publicado). Gish también fue el creador y director de proyecto del primer NCBI Dispatcher para servicios distribuidos (inspirado en el Object Request Broker de CORBA ). Abierto por primera vez a usuarios externos en diciembre de 1989, el servicio de red BLAST experimental del NCBI, que ejecuta el último software BLAST en hardware SMP con las últimas versiones de las principales bases de datos de secuencias, rápidamente estableció el NCBI como una ventanilla única y conveniente para la búsqueda de similitudes de secuencias. .

En la Universidad de Washington en St. Louis , Gish revolucionó la búsqueda de similitudes al desarrollar el primer conjunto de programas BLAST para combinar una alineación rápida de secuencias con espacios con métodos de evaluación estadística apropiados para puntuaciones de alineación con espacios. Los programas de búsqueda resultantes fueron significativamente más sensibles pero solo marginalmente más lentos que BLAST sin espacios , debido a la nueva aplicación de la puntuación de caída X de BLAST durante la extensión de alineación con espacios. La sensibilidad de BLAST con espacios se mejoró aún más mediante la novedosa aplicación de las estadísticas de suma de Karlin-Altschul [11] a la evaluación de múltiples puntuaciones de alineación con espacios en todos los modos de búsqueda de BLAST . Las estadísticas de suma se desarrollaron originalmente de forma analítica para la evaluación de puntuaciones de alineación múltiples y sin espacios. El uso empírico de estadísticas de suma en el tratamiento de puntuaciones de alineación con espacios se validó en colaboración con Stephen Altschul , de 1994 a 1995. En mayo de 1996, la versión 2.0 de WU-BLAST con alineamientos con espacios se lanzó públicamente en forma de una actualización inmediata. para usuarios existentes de NCBI BLAST y WU-BLAST (ambos en la versión 1.4, después de haberse bifurcado en 1994). Se recibió poca financiación de los NIH para su desarrollo WU-BLAST, con un promedio de 20% FTE a partir de noviembre de 1995 y finalizando poco después del lanzamiento en septiembre de 1997 del NCBI gapped BLAST (“blastall”). Como opción a WU-BLAST, Gish implementó un algoritmo BLAST de dos golpes más rápido, más eficiente en memoria y más sensible que el utilizado por el software NCBI durante muchos años. En 1999, Gish agregó soporte a WU-BLAST para el formato de base de datos extendida (XDF), el primer formato de base de datos BLAST capaz de representar con precisión el borrador completo de la secuencia del genoma humano en objetos de secuencia de cromosomas de longitud completa. Esta fue también la primera vez que un paquete BLAST introdujo un nuevo formato de base de datos de forma transparente para los usuarios existentes, sin abandonar el soporte para formatos anteriores, como resultado de abstraer las funciones de E/S de la base de datos de las funciones de análisis de datos. WU-BLAST con XDF fue el primer conjunto BLAST que admitió la recuperación indexada de identificadores de secuencia en formato FASTA estándar del NCBI (incluida toda la gama de identificadores NCBI); el primero en permitir la recuperación de secuencias individuales en parte o en su totalidad, de forma nativa, traducidas o complementadas de forma inversa; y el primero capaz de volcar todo el contenido de una base de datos BLAST nuevamente en un formato FASTA legible por humanos . En 2000, soporte único para informes de enlaces (conjuntos consistentes de HSP; también llamados cadenasen algunos paquetes de software posteriores), junto con la capacidad para que los usuarios limiten la distancia entre las HSP permitidas en el mismo conjunto a una longitud biológicamente relevante ( por ejemplo, la longitud del intrón más largo esperado en la especie de interés) y con la limitación de distancia que entra en el cálculo de los valores E. Entre 2001 y 2003, Gish mejoró la velocidad del código DFA utilizado en WU-BLAST. Gish también propuso multiplexar secuencias de consultas para acelerar las búsquedas BLAST en un orden de magnitud o más (MPBLAST); implementó secuencias segmentadas con bytes centinela internos, en parte para ayudar a la multiplexación con MPBLAST y en parte para ayudar al análisis de secuencias de consulta segmentadas de conjuntos de secuenciación de escopeta; y uso dirigido de WU-BLAST como motor de búsqueda rápido y flexible para identificar y enmascarar con precisión secuencias del genoma para elementos repetitivos y secuencias de baja complejidad (el paquete MaskerAid [12] para RepeatMasker). Con el estudiante de doctorado Miao Zhang, Gish dirigió el desarrollo de EXALIN, [13] que mejoró significativamente la precisión de las predicciones de alineación empalmadas, mediante un enfoque novedoso que combinaba información de modelos de sitios de empalme donantes y aceptores con información de conservación de secuencias. Aunque EXALIN realizó una programación dinámica completa de forma predeterminada, opcionalmente podría utilizar la salida de WU-BLAST para iniciar la programación dinámica y acelerar el proceso aproximadamente 100 veces con poca pérdida de sensibilidad o precisión.

En 2008, Gish fundó Advanced Biocomputing, LLC, donde continúa mejorando y brindando soporte al paquete AB-BLAST. [ cita necesaria ]

Referencias

  1. ^ ab Gish, Warren Richard (1988). I. Mutantes de SV40 aislados de células humanas transformadas. II. Métodos para el análisis de secuencias (tesis doctoral). Universidad de California, Berkeley. ProQuest  303669506.
  2. ^ Publicaciones de Warren Gish indexadas por Microsoft Academic
  3. ^ Warren Gish en el servidor de bibliografía DBLP
  4. ^ ab Altschul, S .; Gish, W.; Molinero, W .; Myers, E .; Lipman, D. (1990). "Herramienta básica de búsqueda de alineación local". Revista de biología molecular . 215 (3): 403–410. doi :10.1016/S0022-2836(05)80360-2. PMID  2231712. S2CID  14441902.
  5. ^ Sentido de las secuencias: Stephen F. Altschul sobre Bettering BLAST
  6. ^ Ah, Alfred V .; Corasick, Margaret J. (junio de 1975). "Coincidencia eficiente de cadenas: una ayuda para la búsqueda bibliográfica". Comunicaciones de la ACM . 18 (6): 333–340. doi : 10.1145/360825.360855 . S2CID  207735784.
  7. ^ Lipman, DJ; Pearson, WR (1985). "Búsquedas rápidas y sensibles de similitud de proteínas". Ciencia . 227 (4693): 1435–41. Código bibliográfico : 1985 Ciencia... 227.1435L. doi : 10.1126/ciencia.2983426. PMID  2983426.
  8. ^ Pearson, WR; Lipman, DJ (1988). "Herramientas mejoradas para la comparación de secuencias biológicas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 85 (8): 2444–2448. Código bibliográfico : 1988PNAS...85.2444P. doi : 10.1073/pnas.85.8.2444 . PMC 280013 . PMID  3162770. 
  9. ^ Gish, W.; Estados, DJ (1993). "Identificación de regiones codificantes de proteínas mediante búsqueda de similitud en bases de datos". Genética de la Naturaleza . 3 (3): 266–272. doi :10.1038/ng0393-266. PMID  8485583. S2CID  15295142.
  10. ^ Boguski, MS; Lowe, TM; Tolstoshev, CM (1993). "dbEST: base de datos para" etiquetas de secuencia expresadas"". Genética de la Naturaleza . 4 (4): 332–333. doi :10.1038/ng0893-332. PMID  8401577. S2CID  40138950.
  11. ^ Karlin, S .; Altschul, SF (1993). "Aplicaciones y estadísticas para múltiples segmentos de alta puntuación en secuencias moleculares". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 90 (12): 5873–5877. Código bibliográfico : 1993PNAS...90.5873K. doi : 10.1073/pnas.90.12.5873 . PMC 46825 . PMID  8390686. 
  12. ^ Bedell, JA; Korf, I.; Gish, W. (2000). "MaskerAid: una mejora de rendimiento de RepeatMasker". Bioinformática . 16 (11): 1040–1041. doi : 10.1093/bioinformática/16.11.1040 . PMID  11159316.
  13. ^ Zhang, M.; Gish, W. (2005). "Alineación empalmada mejorada desde un enfoque teórico de la información". Bioinformática . 22 (1): 13–20. doi : 10.1093/bioinformática/bti748. PMID  16267086.