GenBank: Base de Datos de Secuencias de Nucleótidos del NCBI

Clasificado en Biología

Escrito el en español con un tamaño de 5,56 KB

GenBank: La Base de Datos Genómica de Referencia

1. ¿Qué es GenBank?

GenBank es una base de datos pública y exhaustiva que alberga una vasta colección de secuencias de nucleótidos. Estas secuencias provienen de más de 300,000 especies diferentes, lo que la convierte en un recurso fundamental para la investigación en biología molecular y genómica.

2. Gestión y Distribución de GenBank

La gestión y distribución de GenBank recae principalmente en el NCBI (National Center for Biotechnology Information) en los Estados Unidos. El NCBI colabora estrechamente con el ENA (European Nucleotide Archive) y el DDBJ (DNA Data Bank of Japan). Estas tres entidades forman el consorcio INSDC (International Nucleotide Sequence Database Collaboration), garantizando la sincronización y el acceso global a la información genómica.

3. Envío de Secuencias a GenBank

Los investigadores pueden enviar sus secuencias a GenBank utilizando dos herramientas principales:

  • BankIt: Una herramienta basada en la web que facilita el envío de secuencias.
  • Sequin: Un programa independiente que permite la preparación y el envío de secuencias, incluso sin conexión a Internet.

4. Tipos de Polinucleótidos en GenBank

GenBank alberga una amplia variedad de polinucleótidos, que incluyen:

  • ADN genómico
  • ARN genómico
  • ARN precursor
  • ARNm (ADNc)
  • ARN ribosómico
  • ARN de transferencia
  • ARN pequeño nuclear (snRNA)
  • ARN pequeño citoplasmático (scRNA)

5. Tamaño Mínimo de las Secuencias

GenBank acepta secuencias con una longitud mínima de 50 nucleótidos.

6. Divisiones de GenBank

GenBank se organiza en varias divisiones, que se pueden clasificar en dos categorías principales: taxonómicas y funcionales.

Divisiones de GenBank

Taxonómicas

Funcionales

BTC

Bacterias

EST

Expressed sequence tags

ENV

Muestras ambientales

GSS

Genome survey sequences

INV

Invertebrados

HTC

High-throughput cDNA

MAM

Otros mamíferos

HTG

High-throughput genomic

PHG

Bacteriófagos

STS

Sequence tagged sites

PLN

Plantas

PRI

Primates

ROD

Roedores

TSA

Transcriptome shotgun data

SYN

Sintético

WGS

Whole-genome shotgun data

UNA

Sin anotar

VRL

Virus

VRT

Otros vertebrados

PAT

Patented sequences

7. Estructura de un Registro en GenBank

Cada registro en GenBank presenta una estructura estandarizada que comprende las siguientes secciones:

  • Encabezamiento: Información general sobre el registro.
  • Referencias bibliográficas: Citas de publicaciones relacionadas con la secuencia.
  • Tabla de características: Anotaciones detalladas sobre regiones biológicamente relevantes de la secuencia (genes, CDS, etc.).
  • Secuencia: La secuencia de nucleótidos en sí misma.

8. El Encabezamiento

El encabezamiento es una sección crucial del registro, donde el personal de la base de datos (BD) introduce información general. Es importante destacar que pueden existir ligeras variaciones en el formato del encabezamiento entre GenBank y las otras bases de datos del consorcio INSDC. El encabezado contiene metadatos, como el locus, el tamaño de la secuencia, la fecha de la última modificación, la definición, el número de accesión, la versión, el identificador de la secuencia (GI), las palabras clave, el organismo fuente, y la taxonomía.

Entradas relacionadas: