GenBank: Base de Datos de Secuencias de Nucleótidos del NCBI

Clasificado en Biología

Escrito el 20 de Febrero de 2025 en español con un tamaño de 5,56 KB

GenBank: La Base de Datos Genómica de Referencia

1. ¿Qué es GenBank?

GenBank es una base de datos pública y exhaustiva que alberga una vasta colección de secuencias de nucleótidos. Estas secuencias provienen de más de 300,000 especies diferentes, lo que la convierte en un recurso fundamental para la investigación en biología molecular y genómica.

2. Gestión y Distribución de GenBank

La gestión y distribución de GenBank recae principalmente en el NCBI (National Center for Biotechnology Information) en los Estados Unidos. El NCBI colabora estrechamente con el ENA (European Nucleotide Archive) y el DDBJ (DNA Data Bank of Japan). Estas tres entidades forman el consorcio INSDC (International Nucleotide Sequence Database Collaboration), garantizando la sincronización y el acceso global a la información genómica.

3. Envío de Secuencias a GenBank

Los investigadores pueden enviar sus secuencias a GenBank utilizando dos herramientas principales:

BankIt: Una herramienta basada en la web que facilita el envío de secuencias.
Sequin: Un programa independiente que permite la preparación y el envío de secuencias, incluso sin conexión a Internet.

4. Tipos de Polinucleótidos en GenBank

GenBank alberga una amplia variedad de polinucleótidos, que incluyen:

ADN genómico
ARN genómico
ARN precursor
ARNm (ADNc)
ARN ribosómico
ARN de transferencia
ARN pequeño nuclear (snRNA)
ARN pequeño citoplasmático (scRNA)

5. Tamaño Mínimo de las Secuencias

GenBank acepta secuencias con una longitud mínima de 50 nucleótidos.

6. Divisiones de GenBank

GenBank se organiza en varias divisiones, que se pueden clasificar en dos categorías principales: taxonómicas y funcionales.

Divisiones de GenBank
Taxonómicas		Funcionales
BTC	Bacterias	EST	Expressed sequence tags
ENV	Muestras ambientales	GSS	Genome survey sequences
INV	Invertebrados	HTC	High-throughput cDNA
MAM	Otros mamíferos	HTG	High-throughput genomic
PHG	Bacteriófagos	STS	Sequence tagged sites
PLN	Plantas
PRI	Primates
ROD	Roedores	TSA	Transcriptome shotgun data
SYN	Sintético	WGS	Whole-genome shotgun data
UNA	Sin anotar
VRL	Virus
VRT	Otros vertebrados	PAT	Patented sequences

7. Estructura de un Registro en GenBank

Cada registro en GenBank presenta una estructura estandarizada que comprende las siguientes secciones:

Encabezamiento: Información general sobre el registro.
Referencias bibliográficas: Citas de publicaciones relacionadas con la secuencia.
Tabla de características: Anotaciones detalladas sobre regiones biológicamente relevantes de la secuencia (genes, CDS, etc.).
Secuencia: La secuencia de nucleótidos en sí misma.

8. El Encabezamiento

El encabezamiento es una sección crucial del registro, donde el personal de la base de datos (BD) introduce información general. Es importante destacar que pueden existir ligeras variaciones en el formato del encabezamiento entre GenBank y las otras bases de datos del consorcio INSDC. El encabezado contiene metadatos, como el locus, el tamaño de la secuencia, la fecha de la última modificación, la definición, el número de accesión, la versión, el identificador de la secuencia (GI), las palabras clave, el organismo fuente, y la taxonomía.

Entradas relacionadas:

Etiquetas: