GenBank: Base de Datos de Secuencias de Nucleótidos del NCBI
Clasificado en Biología
Escrito el en español con un tamaño de 5,56 KB
GenBank: La Base de Datos Genómica de Referencia
1. ¿Qué es GenBank?
GenBank es una base de datos pública y exhaustiva que alberga una vasta colección de secuencias de nucleótidos. Estas secuencias provienen de más de 300,000 especies diferentes, lo que la convierte en un recurso fundamental para la investigación en biología molecular y genómica.
2. Gestión y Distribución de GenBank
La gestión y distribución de GenBank recae principalmente en el NCBI (National Center for Biotechnology Information) en los Estados Unidos. El NCBI colabora estrechamente con el ENA (European Nucleotide Archive) y el DDBJ (DNA Data Bank of Japan). Estas tres entidades forman el consorcio INSDC (International Nucleotide Sequence Database Collaboration), garantizando la sincronización y el acceso global a la información genómica.
3. Envío de Secuencias a GenBank
Los investigadores pueden enviar sus secuencias a GenBank utilizando dos herramientas principales:
- BankIt: Una herramienta basada en la web que facilita el envío de secuencias.
- Sequin: Un programa independiente que permite la preparación y el envío de secuencias, incluso sin conexión a Internet.
4. Tipos de Polinucleótidos en GenBank
GenBank alberga una amplia variedad de polinucleótidos, que incluyen:
- ADN genómico
- ARN genómico
- ARN precursor
- ARNm (ADNc)
- ARN ribosómico
- ARN de transferencia
- ARN pequeño nuclear (snRNA)
- ARN pequeño citoplasmático (scRNA)
5. Tamaño Mínimo de las Secuencias
GenBank acepta secuencias con una longitud mínima de 50 nucleótidos.
6. Divisiones de GenBank
GenBank se organiza en varias divisiones, que se pueden clasificar en dos categorías principales: taxonómicas y funcionales.
Divisiones de GenBank | |||
Taxonómicas | Funcionales | ||
BTC | Bacterias | EST | Expressed sequence tags |
ENV | Muestras ambientales | GSS | Genome survey sequences |
INV | Invertebrados | HTC | High-throughput cDNA |
MAM | Otros mamíferos | HTG | High-throughput genomic |
PHG | Bacteriófagos | STS | Sequence tagged sites |
PLN | Plantas | ||
PRI | Primates | ||
ROD | Roedores | TSA | Transcriptome shotgun data |
SYN | Sintético | WGS | Whole-genome shotgun data |
UNA | Sin anotar | ||
VRL | Virus | ||
VRT | Otros vertebrados | PAT | Patented sequences |
7. Estructura de un Registro en GenBank
Cada registro en GenBank presenta una estructura estandarizada que comprende las siguientes secciones:
- Encabezamiento: Información general sobre el registro.
- Referencias bibliográficas: Citas de publicaciones relacionadas con la secuencia.
- Tabla de características: Anotaciones detalladas sobre regiones biológicamente relevantes de la secuencia (genes, CDS, etc.).
- Secuencia: La secuencia de nucleótidos en sí misma.
8. El Encabezamiento
El encabezamiento es una sección crucial del registro, donde el personal de la base de datos (BD) introduce información general. Es importante destacar que pueden existir ligeras variaciones en el formato del encabezamiento entre GenBank y las otras bases de datos del consorcio INSDC. El encabezado contiene metadatos, como el locus, el tamaño de la secuencia, la fecha de la última modificación, la definición, el número de accesión, la versión, el identificador de la secuencia (GI), las palabras clave, el organismo fuente, y la taxonomía.