Warren Gish

Warren Richard Gish es el propietario de Advanced Biocomputing LLC. Se incorporó a la Universidad de Washington en St. Louis como miembro del cuerpo docente junior en 1994 y fue profesor asociado de investigación en genética entre 2002 y 2007. ^[2]^[3]

Educación

Después de estudiar inicialmente física, Gish obtuvo una licenciatura en Bioquímica de la Universidad de California, Berkeley , y completó el trabajo para su doctorado en Biología Molecular en la misma institución en 1988. ^[1]

Investigación

Gish es conocido principalmente por sus contribuciones al NCBI BLAST , ^[4]^[5] su creación del Servicio de Red BLAST y las bases de datos nr (no redundantes), su lanzamiento en 1996 del BLAST original (WU-BLAST 2.0) y, más recientemente, su desarrollo y soporte de AB-BLAST. En la Universidad de Washington en St. Louis , Gish también dirigió el grupo de análisis del genoma que anotó todos los datos del genoma humano, del ratón y de la rata terminados producidos por el Centro de Secuenciación Genómica de la Universidad desde 1995 hasta 2002.

Como estudiante de posgrado, Gish aplicó el algoritmo Quine-McCluskey al análisis de secuencias de reconocimiento de sitios de empalme. En 1985, con vistas a una rápida identificación de sitios de reconocimiento de enzimas de restricción en el ADN, Gish desarrolló una biblioteca de funciones DFA en el lenguaje C. La idea de aplicar una máquina de estados finitos a este problema había sido sugerida por su compañero de posgrado y desarrollador de BSD UNIX Mike Karels . La implementación de DFA de Gish fue la de una arquitectura de máquina Mealy , que es más compacta que una máquina Moore equivalente y, por lo tanto, más rápida. La construcción del DFA fue O( n ), donde n es la suma de las longitudes de las secuencias de consulta. El DFA podría entonces usarse para escanear secuencias de sujetos en una sola pasada sin retroceso en tiempo O( m ), donde m es la longitud total del sujeto o sujetos. El método de construcción de DFA fue reconocido más tarde como una consolidación de dos algoritmos, los algoritmos 3 y 4 descritos por Alfred V. Aho y Margaret J. Corasick . ^[6]

Mientras trabajaba para la Universidad de California en Berkeley en diciembre de 1986, Gish aceleró el programa FASTP ^[7] (más tarde conocido como FASTA ^[8] ) de William R. Pearson y David J. Lipman entre 2 y 3 veces sin alterar los resultados. Cuando se comunicaron las modificaciones de rendimiento a Pearson y Lipman, Gish sugirió además que un DFA (en lugar de una tabla de búsqueda) produciría una identificación de k-tuplas más rápida y mejoraría la velocidad general del programa quizás hasta en un 10% en algunos casos; sin embargo, los autores consideraron que esa mejora marginal, incluso en el mejor de los casos, no valía la pena la complejidad añadida del código. Gish también imaginó en ese momento un servicio de búsqueda centralizado, en el que todas las secuencias de nucleótidos de GenBank se mantendrían en la memoria para eliminar los cuellos de botella de E/S (y se almacenarían en forma comprimida para conservar la memoria) con clientes que invocarían búsquedas FASTN de forma remota a través de Internet.

Las primeras contribuciones de Gish a BLAST se realizaron mientras trabajaba en el NCBI , a partir de julio de 1989. Incluso en los primeros prototipos, BLAST era típicamente mucho más rápido que FASTA . Gish reconoció el beneficio adicional potencial en esta aplicación de usar un DFA para el reconocimiento de coincidencias de palabras. Transformó su código DFA anterior en una forma flexible que incorporó a todos los modos de búsqueda de BLAST . Otras de sus contribuciones a BLAST incluyen: el uso de secuencias de nucleótidos comprimidas, tanto como un formato de almacenamiento eficiente como un formato de búsqueda nativo rápido; procesamiento paralelo; E/S mapeada en memoria; el uso de bytes centinela y palabras centinela al inicio y al final de las secuencias para mejorar la velocidad de la extensión de coincidencias de palabras; las implementaciones originales de BLASTX , ^[9]TBLASTN ^[4] y TBLASTX (no publicado); el uso transparente de programas externos (plug-in) como seg , xnu y dust para enmascarar regiones de baja complejidad en secuencias de consulta en tiempo de ejecución; el servicio de correo electrónico NCBI BLAST con comunicaciones cifradas con clave pública opcionales; el servicio de red BLAST experimental de NCBI; las bases de datos de secuencias de proteínas y nucleótidos no redundantes ( nr ) de NCBI, que normalmente se actualizan a diario con todos los datos de GenBank , Swiss-Prot y PIR . Gish desarrolló la primera API BLAST , que se utilizó en la anotación de EST ^[10] y la producción de datos de Entrez , así como en la suite de aplicaciones NCBI BLAST versión 1.4 (Gish, inédito). Gish también fue el creador y gerente de proyecto del primer NCBI Dispatcher para servicios distribuidos (inspirado en Object Request Broker de CORBA ). Abierto por primera vez a usuarios externos en diciembre de 1989, el servicio de red BLAST experimental de NCBI, que ejecuta el último software BLAST en hardware SMP contra las últimas versiones de las principales bases de datos de secuencias, estableció rápidamente al NCBI como una ventanilla única y conveniente para la búsqueda de similitud de secuencias.

En la Universidad de Washington en St. Louis , Gish revolucionó la búsqueda de similitudes al desarrollar el primer conjunto de programas BLAST para combinar la alineación rápida de secuencias con espacios con métodos de evaluación estadística apropiados para puntuaciones de alineación con espacios. Los programas de búsqueda resultantes fueron significativamente más sensibles pero solo marginalmente más lentos que BLAST sin espacios , debido a la novedosa aplicación de la puntuación de caída de BLAST X durante la extensión de la alineación con espacios. La sensibilidad de BLAST con espacios se mejoró aún más mediante la novedosa aplicación de las estadísticas de suma de Karlin-Altschul ^[11] a la evaluación de múltiples puntuaciones de alineación con espacios en todos los modos de búsqueda BLAST . Las estadísticas de suma se desarrollaron originalmente de forma analítica para la evaluación de múltiples puntuaciones de alineación sin espacios. El uso empírico de las estadísticas de suma en el tratamiento de las puntuaciones de alineación con brechas se validó en colaboración con Stephen Altschul , de 1994 a 1995. En mayo de 1996, la versión 2.0 de WU-BLAST con alineaciones con brechas se lanzó públicamente en forma de una actualización para los usuarios existentes de NCBI BLAST sin brechas y WU-BLAST (ambos en la versión 1.4, después de haberse bifurcado en 1994). Se recibió poca financiación del NIH para su desarrollo de WU-BLAST, con un promedio de 20% FTE a partir de noviembre de 1995 y terminando poco después del lanzamiento en septiembre de 1997 del NCBI BLAST con brechas ("blastall"). Como opción a WU-BLAST, Gish implementó un algoritmo BLAST de dos hits más rápido, más eficiente en memoria y más sensible que el utilizado por el software NCBI durante muchos años. En 1999, Gish agregó soporte a WU-BLAST para el Formato de Base de Datos Extendida (XDF), el primer formato de base de datos BLAST capaz de representar con precisión la secuencia borrador completa del genoma humano en objetos de secuencia de cromosomas de longitud completa. Esta fue también la primera vez que un paquete BLAST introdujo un nuevo formato de base de datos de manera transparente para los usuarios existentes, sin abandonar el soporte para formatos anteriores, como resultado de abstraer las funciones de E/S de la base de datos de las funciones de análisis de datos. WU-BLAST con XDF fue la primera suite BLAST en admitir la recuperación indexada de identificadores de secuencia en formato FASTA estándar del NCBI (incluido todo el rango de identificadores del NCBI); el primero en permitir la recuperación de secuencias individuales en parte o en su totalidad, de forma nativa, traducidas o complementadas de manera inversa; y el primero capaz de volcar todo el contenido de una base de datos BLAST nuevamente en formato FASTA legible para humanos . En 2000, se agregó soporte único para informar enlaces (conjuntos consistentes de HSP; también llamados cadenas) .en algunos paquetes de software posteriores) se añadió, junto con la capacidad de los usuarios de limitar la distancia entre HSP permitida en el mismo conjunto a una longitud biológicamente relevante ( por ejemplo, la longitud del intrón más largo esperado en la especie de interés) y con la limitación de la distancia entrando en el cálculo de los valores E. Entre 2001 y 2003, Gish mejoró la velocidad del código DFA utilizado en WU-BLAST. Gish también propuso multiplexar secuencias de consulta para acelerar las búsquedas BLAST en un orden de magnitud o más (MPBLAST); implementó secuencias segmentadas con bytes centinela internos, en parte para ayudar a la multiplexación con MPBLAST y en parte para ayudar al análisis de secuencias de consulta segmentadas de ensamblajes de secuenciación shotgun; y dirigió el uso de WU-BLAST como un motor de búsqueda rápido y flexible para identificar y enmascarar con precisión secuencias del genoma para elementos repetitivos y secuencias de baja complejidad (el paquete MaskerAid ^[12] para RepeatMasker). Junto con el estudiante de doctorado Miao Zhang, Gish dirigió el desarrollo de EXALIN ^[13] , que mejoró significativamente la precisión de las predicciones de alineamiento empalmado, mediante un enfoque novedoso que combinaba información de los modelos de sitios de empalme de donantes y aceptores con información de conservación de secuencias. Aunque EXALIN realizaba una programación dinámica completa de manera predeterminada, podía utilizar opcionalmente la salida de WU-BLAST para generar la programación dinámica y acelerar el proceso aproximadamente 100 veces con poca pérdida de sensibilidad o precisión.

En 2008, Gish fundó Advanced Biocomputing, LLC, donde continúa mejorando y brindando soporte al paquete AB-BLAST. ^{[ cita requerida ]}

Referencias

^ ab Gish, Warren Richard (1988). I. Mutantes de SV40 aislados de células humanas transformadas. II. Métodos para el análisis de secuencias (tesis doctoral). Universidad de California, Berkeley. ProQuest 303669506.
^ Publicaciones de Warren Gish indexadas por Microsoft Academic
^ Warren Gish en el servidor de bibliografía DBLP
^ ab Altschul, S. ; Gish, W.; Miller, W. ; Myers, E. ; Lipman, D. (1990). "Herramienta básica de búsqueda de alineación local". Revista de biología molecular . 215 (3): 403–410. doi :10.1016/S0022-2836(05)80360-2. PMID 2231712. S2CID 14441902.
^ El sentido de las secuencias: Stephen F. Altschul sobre cómo mejorar BLAST
^ Aho, Alfred V. ; Corasick, Margaret J. (junio de 1975). "Coincidencia eficiente de cadenas: una ayuda para la búsqueda bibliográfica". Comunicaciones de la ACM . 18 (6): 333–340. doi : 10.1145/360825.360855 . S2CID 207735784.
^ Lipman, DJ; Pearson, WR (1985). "Búsquedas de similitud de proteínas rápidas y sensibles". Science . 227 (4693): 1435–41. Bibcode :1985Sci...227.1435L. doi :10.1126/science.2983426. PMID 2983426.
^ Pearson, WR; Lipman, DJ (1988). "Herramientas mejoradas para la comparación de secuencias biológicas". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 85 (8): 2444–2448. Bibcode :1988PNAS...85.2444P. doi : 10.1073/pnas.85.8.2444 . PMC 280013 . PMID 3162770.
^ Gish, W.; States, DJ (1993). "Identificación de regiones codificantes de proteínas mediante búsqueda de similitud en bases de datos". Nature Genetics . 3 (3): 266–272. doi :10.1038/ng0393-266. PMID 8485583. S2CID 15295142.
^ Boguski, MS; Lowe, TM; Tolstoshev, CM (1993). "dbEST--base de datos para "etiquetas de secuencias expresadas"". Nature Genetics . 4 (4): 332–333. doi :10.1038/ng0893-332. PMID 8401577. S2CID 40138950.
^ Karlin, S. ; Altschul, SF (1993). "Aplicaciones y estadísticas para múltiples segmentos de alta puntuación en secuencias moleculares". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 90 (12): 5873–5877. Bibcode :1993PNAS...90.5873K. doi : 10.1073/pnas.90.12.5873 . PMC 46825 . PMID 8390686.
^ Bedell, JA; Korf, I.; Gish, W. (2000). "MaskerAid: una mejora del rendimiento de RepeatMasker". Bioinformática . 16 (11): 1040–1041. doi : 10.1093/bioinformatics/16.11.1040 . PMID 11159316.
^ Zhang, M.; Gish, W. (2005). "Alineamiento empalmado mejorado a partir de un enfoque teórico de la información". Bioinformática . 22 (1): 13–20. doi :10.1093/bioinformatics/bti748. PMID 16267086.