GenBank

Esta página fue actualizada por Carolina Brunner y David Gernandt en 2014
 
Genbank es una base de datos de libre acceso, que contiene secuencias genéticas. Es parte de la International Sequence Database Collaboration que comprenden DNA Databank of Japan (DDBJ), European Molecular Biology Laboratory (EMBL) y National Center of Biotechnology Information (NCBI). Estas organizaciones intercambian datos diariamente y sus colaboradores reciben secuencias genéticas producidas en laboratorios de todo el mundo.
 
Acceso a GenBank
Existen diversas formas de búsqueda y recuperación de datos en GenBank.
 
1. Visita la página http://www.ncbi.nlm.nih.gov y revisa la información disponible en la página principal. Se puede aprender más sobre GenBank dando clic en la liga "About the NCBI". Dentro de la página de NCBI, existen diversos ligas como "Tools" (herramientas como BLAST, Explorador de aminoácidos, etc.), "Downloads" (descargables como BLAST stand alone, FTP, etc.) y "How-To's" (tutoriales para trabajar en GenBank).
 
Las tres formas de búsqueda son mediante "Entrez Nucleotide", búsqueda y alineamiento usando BLAST (Basic Local Alignment Search Tool) y búsquedas usando NCBI e-utilities para ligar y descargar secuencias.
 
2. Da clic en "Resources" -> "DNA & RNA" -> "GenBank". Esto te debe de llevar a la página http://www.ncbi.nlm.nih.gov/genbank/
 
3. Da clic etiqueta "Genomes" -> "Annotation Examples". La página muestra formatos de secuencias muy populares como FASTA, SEQUIN table y GenBank flatfile. El formato FASTA se originó como el primer algoritmo ampliamente usado para la búsqueda de secuencias de DNA o proteínas en las bases de datos. Se distingue por comenzar con un ">" seguido de algún nombre, lo cual puede o no también incluir otros características como la region de DNA, el número de acceso, la cepa, etc. El flatfile es un archivo plano de datos que contiene registros como título de artículo, revista, autores, etc. 
  
 
4. Ejercicio: cuentas con los números de acceso de tres secuencias de la región del exon del gen que codifica para el EF-1 alpha de Metarhizium anisopliae: DQ463994, DQ463995, DQ463996. El propósito es exportar secuencias múltiples en formato FASTA para su posterior análisis.
 
Se recomienda ampliamente que descargas y uses el programa NotePad++ (Windows) o TextWrangler (Mac). 
 
5. Regresa a la página principal de GenBank. http://www.ncbi.nlm.nih.gov/genbank/
 
6. Da clic en "Nucleotide" y escribe en la ventana de búsqueda todos los números de acceso de interés (pueden ser varios al mismo tiempo). En este caso, copiar y pegar "Q463994, DQ463995, DQ463996" y dar clic en "Search".
 
7. Debe aparecer una pantalla con los resultados de la búsqueda. Aparecen las ligas y un resumen de información sobre las secuencias que corresponden a estos números de acceso.
 
8. Ahora vas a descargar las secuencias. Da clic en la casilla del izquierdo de cada una de las secuencias.
 
9. Para elegir el formato y orden de tus resultados, dar clic en "Display Settings" y escoger el format FASTA y en "Sort by" escoger "Organism Name". Dar clic en "Apply".
 
10. Para crear el archivo de tus secuencias en formato FASTA, dar clic en "Send" y escoger "Complete Record", "Choose Destination" File y la pestaña de "Formato" debe de aparecer como FASTA. Dar clic en "Create File".
 
11. Por último, guarda tu archivo en tu computadora, modificando al nombre a tu gusto (p. ej. "Metarhizium-ef-alpha.fas".
 
Si tienes dudas acerca de los términos usados en la página, existe un glosario el cual puedes consultar. Además existe una sección de tutoriales con liga a youtube.