Entendiendo la Tecnología de Imágenes Digitales: CCD, CMOS y Más
Clasificado en Plástica y Educación Artística
Escrito el en español con un tamaño de 28,32 KB
CCD o CMOS: Ambos transforman la luz en señal eléctrica. El CCD es una placa compuesta de un número determinado de fotodiodos o píxeles cuya misión es transformar la luz en electricidad. Cuando un rayo de luz incide en un píxel, se produce una carga eléctrica proporcional a la luz recibida. Cada píxel está compuesto de tres capas de silicio: 1º polosilicio, 2º dióxido de silicio, 3º sustrato de silicio. Hay 3 etapas: Conversión, donde la luz incide y se transforma; Almacenamiento, donde se acumula la carga generada; y Transmisión, donde se transfiere la carga. Lo que diferencia a los CCD es la forma de transferencia. Puede ser CCD de transferencia de cuadro, compuesto por dos zonas: una de captación y otra de almacenaje, esta última protegida de la luz. La secuencia de trabajo es: durante el primer cuadro, la luz incide en la zona de captación y se producen cargas en cada píxel; durante el sincronismo vertical, todas estas cargas se desplazan ordenadamente a la zona de almacenaje; durante el segundo cuadro, la luz vuelve a incidir en la zona de captación y, mientras tanto, las cargas de la zona de almacenaje son enviadas línea a línea a la salida. Este proceso se repite constantemente. El problema principal es la aparición del SMEAR debido al arrastre de las cargas en la zona de captación. El CCD de transferencia interlínea está formado por tiras verticales de fotodiodos intercaladas por otras tiras protegidas de la luz, así que cada píxel transfiere la carga a su píxel de almacenaje, lo cual evita el SMEAR. El CCD de cuadro interlínea mezcla ambos sistemas, tiene una zona de captación con píxeles de captación asociados a cada uno a su píxel de almacenaje, transfiriéndose la carga a una zona estanca a la luz (no le da la luz). Estos pueden incorporar un obturador (mecánico o eléctrico). El CMOS tiene la misma función que el CCD, pero se diferencia en que la digitalización se realiza individualmente en cada píxel, por lo que no se precisa una conversión analógica-digital posterior.
La imagen digital.
El proceso de digitalización sigue tres etapas: Muestreo, Cuantificación y Codificación. Hay una cuarta, la Compresión, pero no es imprescindible.
Muestreo
Consiste en tomar la señal de diferentes puntos de la misma. Hay que diferenciar cada cuánto tiempo se toma la muestra de la señal. Si se deja un intervalo grande, se pierde información al reconstruir y si son muchos, pesaría demasiado. La frecuencia mínima de muestreo ha de ser el doble, como mínimo, de la frecuencia máxima con la que se trabaje (Teorema de Nyquist). Este fija la frecuencia de muestreo para la luminancia en 13,5 MHz y para las señales de color en 6,75.
Cuantificación
Para calcular la duración, como la frecuencia de muestreo es 13,5, se divide 1 entre 13,5 millones, lo que da 0,074 microsegundos, que es lo que dura una muestra. Como son 720 x 0,074 = 53,3 microsegundos. Se fragmenta escalonadamente la señal analógica en un determinado número de niveles. Se divide en 256 niveles para que corresponda a la visión humana. En el nivel 16 está el pico de negro y en el 235 el pico de blanco. La cuantificación es lineal porque de un nivel a otro hay siempre la misma altura.
Codificación: Transformar cada palabra digital mediante el código binario. En la codificación se ha de pasar a 0 y 1 las señales de salida del cuantificador formando palabras de 8 bits. La cuantificación es lineal, lo que significa que todos los escalones son de igual amplitud. A veces se cuantifica a 10 bits para mejorar la relación señal-ruido. El rango del negro se sitúa en el nivel 16 y el blanco en 235, con lo que quedan 224 niveles efectivos.
Duración de una línea digital
Dura lo mismo que la línea analógica, 64 microsegundos, y de ella se toman 864 muestras (13.500.000 frecuencia de muestreo estándar / 15* 625 = 864 número de líneas por segundo), de las cuales 720 son activas, puesto que 132 son para el pórtico anterior y 12 para el posterior. Así, el periodo activo dura 53,33, el pórtico anterior 9,8 y el posterior 0,9.
Flujo binario
Se obtiene sumando las muestras de luminancia, las de rojo y las del azul por 8 (que son los bits de cada palabra) o 10 x 15625 (líneas por segundo).
Flujo Total
El flujo total es 216 Mbits, que se obtiene de multiplicar 864 + 432 + 432 x 8 x 625 x 25. El flujo real para 422 es 720 x 576 x 25 x 8 para la luminancia y 360 x 576 x 25 x 8 para las señales de color, lo que da 166. En el caso de 411, las muestras para líneas de color son 180, lo que da 125.
Compresión
Eliminar información para que el archivo sea más pequeño. Se puede eliminar información de color, ya que el ojo humano no aprecia diferencia. En TV profesional se hace una compresión a 4:2:2, reduciendo el muestreo de color de rojo y azul a la mitad para obtener el flujo real. Y = 720 (sin sincronismos, solo información de imagen), R = 360, A = 360. La compresión intercuadro opera sobre la redundancia temporal y la intracuadro sobre la espacial. Compresión Intracuadro: Dividir la imagen en subimágenes de 8x8, obteniéndose bloques de 64. Después se aplican 3 técnicas: redondeo, que consiste en llevar a 0 los coeficientes inferiores a un valor prefijado; Codificación de longitud variable (VLC), que busca optimizar el número de bits para cada símbolo según su probabilidad de repetición, asignando códigos cortos a los símbolos de mayor probabilidad; y código de trayectoria variable (RLC), que es una lectura en zigzag. Compresión Intercuadro: cada imagen se divide en macrobloques de 16 x 16. Los macrobloques de dos imágenes sucesivas se comparan para deducir la información de los datos diferencias y el vector de movimiento. Con esto se elaboran Imágenes I, que son imágenes enteras a las que ya se ha aplicado la compresión intracuadro. De estas se obtienen imágenes P o predictivas, que se predicen hacia adelante a partir de la última I. De las P se obtienen las B o bidireccionales, que usan cuadros pasados y futuros, prediciendo, por ejemplo, que si un objeto se mueve hacia la derecha, el borde anterior oculta el escenario del fondo y el posterior lo descubre. Por último, para organizar el flujo de salida, se entrelazan las imágenes formando grupos (GOP).
Codificación
La codificación JPEG se utiliza para fotografía y MPEG para video. MPEG 1 abordó la compresión intercuadro. MPEG 2 para televisión. 3 se hizo para televisión de alta definición, pero se integró en el grupo 2. 4 para videoconferencias. 7 metadatos para la edición y el archivo y manejo de material audiovisual. 21 para transacciones comerciales y gestión de derechos.
Multiplexión
- Con los flujos de salida de cada programa (corrientes elementales de video, audio y datos) se realizan paquetes denominados PES y se hace un multiplex por división de tiempo (TDM), que consiste en asignar una fracción de tiempo para cada uno de los 3 paquetes de información.
- Cada paquete se inicia con una cabecera que incluye datos sobre el tipo de carga, información de sincronización y otras.
- Para hacer la multiplexión hay dos posibilidades: 1. Una Mux simple, organizando una corriente de programa, lo que se hace en entornos libres de ruido, como una grabación en DVD, y por tanto no necesita de corrección de errores. 2. Organizar una corriente de transporte cuando el entorno es ruidoso, como es el caso de la difusión de la señal, por cable, terrestre o satélite.
- Si hacemos un mux de corriente de programa (PS), la información se organiza en packs. Cada pack llevará una cabecera de sincronización porque todos ellos han de ser sincrónicos, es decir, tener una base de tiempos común.
- Si hacemos una corriente de transporte (TS), hemos de aplicar un sistema de corrección de errores, por lo que los paquetes han de tener una longitud fija (188 bytes). Como se multiplexan varios programas a la vez, a cada paquete se le añade una tabla de mapa de programa (PMT) para que se sepa a qué programa corresponde, con un PID de identificación propio. A continuación, se introduce una tabla de asociación de programas (PAT), cuya carga son los PIDs que identifican los diversos programas. Para que el receptor identifique esta tabla de otras posibles, a la PAT se le asigna una cabecera de 4 bytes que contiene el PID, que en este caso es siempre 0. Cuando el espectador seleccione un programa, el aparato buscará primero la tabla PAT y la identificará gracias a su PID 0, luego buscará el PID de la PMT y seleccionará todos los paquetes que correspondan a ese número. En la figura 7.8, para el programa 2 será el PID 23, para el 3 el 24, etc. En la carga útil de los paquetes que contengan el PID 23, si ha seleccionado el programa 2, aparecerá la lista completa de PIDs que identifican las corrientes elementales de ese programa, por ejemplo, video 76, audio 77, etc. También se añaden otras tablas, como la de acceso condicional (CAT), con información acerca del cifrado para programas codificados, o la NIT para programas que funcionan en red.
- El diagrama de bloques de la transmisión: primero se codifica la información de audio y video en un codificador MPEG 2. Después se multiplexa cada programa, en tercer lugar se multiplexan varios programas, añadiéndoles las tablas antes descritas. Después se aplica la corrección de errores y, por último, se modula el canal según el tipo de transmisión que sea.
Difusión de la señal
En Europa se aplica el sistema DVB (Digital Video Broadcasting), que organiza el flujo de información partiendo de los TS que proceden de la codificación MPEG 2 y la multiplexión, paquetes de 188 bytes. A continuación, se aplica la corrección de errores en dos etapas: la primera, denominada exterior, mediante el sistema Reed Solomon, que añade 16 bytes a cada paquete, que pasa así a 204; y luego la interior o convolucional. Por último, se llevan los TS al modulador, dependiendo de la modulación de si la señal se transmitirá por satélite (DVDS), por cable (DVDC) o por vía terrestre (DVBT).
1.- La adición de bytes redundantes se basa en la idea de que si el canal es demasiado entrópico, es decir, solo se manda la información útil sin redundancia ninguna, cuando se produzca una perturbación (un drop, una interferencia, etc.) se perderá la información y no se podrá reconstruir. Es como si en un bar ruidoso hablamos solo utilizando las palabras justas; si se pierde una por el ruido, será más difícil reconstruir el mensaje que si repetimos las cosas varias veces. En la compresión hemos eliminado la información redundante para que el flujo sea más bajo; aquí añadimos redundancia por lo dicho. El proceso es en tres etapas: 1.- se detecta el error, 2.- se corrige el error gracias a la redundancia, 3.- cancelación: si no es posible corregir el error, se cancela la palabra errónea y se sustituye por una adyacente.
2.- Los sistemas de corrección checksum y Reed Solomon se explican a continuación en el capítulo 9.
U.T. 6 La señal de televisión.
Una imagen óptica está compuesta por muchos puntos de luz. Todos esos rayos de luz inciden en los CCD (formados por píxeles) y en cada punto se producirá una señal electrónica. Para crear la señal hay que orientar y organizar las cargas, esto se denomina Patrón de lectura. Los patrones de lectura son en el Sistema Americano (NTSC) 575 líneas y 60 campos; en el Sistema Europeo (Secam y Pal) 625 líneas y 50 campos.
Estructura de la señal de video
Cuadro o frame: imagen completa; Campo (mitad de una imagen), hay dos campos: el par 312,5 líneas e impar 312,5 líneas, líneas 625.
La señal de video se compone de una serie de informaciones que, aunque pueden verse por separado, son imprescindibles las unas para las otras.
En primer lugar, está la señal de luminancia, que corresponde a las variaciones de brillo de la escena. La principal dificultad aquí estribó en definir un estándar de luz blanca, un lumen de blanco, adecuado para la tecnología del medio, que sirviera de referencia para los ajustes del sistema. Sabemos que la luz blanca varía en cuanto a su temperatura de color, en cuanto a la proporción de primarios que la forman, y había que definir un estándar de calidad. Este quedó fijado en 30% de rojo, 59% de verde y 11% de azul. Esta composición se ajusta a las características tipo de visión del ojo.
El segundo componente es la crominancia, que contiene la información de color de la escena. Cuando apareció la televisión en color, primó el principio de compatibilidad, esto es, que la transmisión de la señal fuese válida para receptores monocromos y de color. Era preciso, pues, extraer la señal de crominancia de la de luminancia, lo que es posible porque en esta última se dan los tres primarios. Para reducir el número de señales se utilizan dos señales de diferencia de color: rojo menos luminancia y azul menos luminancia. La información del verde se extrae por matrización.
Queda, pues:
1Rojo menos luminancia = 1Rojo – (0,3R + 0,59V + 0,11A)
1Azul menos luminancia = 1Azul – (0,3R + 0,59V + 0,11A)
El valor de las señales según estas fórmulas es:
R – luminancia = 0,7R – 0,59V – 0,11A
A – luminancia = -0,3R – 0,59V + 0,89A
Para su transmisión y recepción, estas señales de diferencia de color han de ser tratadas independientemente de la luminancia (aunque se extraigan de ella). La solución es modularlas con una señal subportadora, que se denomina subportadora de color y cuya frecuencia es de 4,43 MHz. A su vez, cada señal de diferencia de color ha de ser identificada por separado. Sería muy complejo volver a “submodularlas”, por lo que se optó por emitirlas con una diferencia de fase, lo que se denomina modulación en cuadratura. Así, la señal de azul se modula sin desfasar y la de rojo con un desfase de 90 grados. El desfase se consigue retardando una señal con respecto a la otra ¼ de onda.
Queda otro problema por resolver. El receptor de color ha de saber, para activar el circuito de crominancia, si la línea que llega es de blanco y negro o color. Para ello, al principio de cada línea de color se incluye un burst o salva de color. Esta salva tiene una amplitud que puede llegar a 0,15 voltios, por lo que se sitúa en el límite inferior de la señal y se inserta en el pórtico posterior de cada línea, en el que se abre hueco mediante un pulso llamado K. La salva consta de 10 ciclos de subportadora sin modular, lo que da una duración de 2,25 microsegundos.
El tercer componente lo constituyen los impulsos de sincronismo. Ya hemos visto que son estos los que establecen los patrones de lectura línea a línea y campo a campo, garantizando que cada una dura el tiempo exacto que debe durar. En los antiguos televisores de tubo de rayos catódicos, estos impulsos actuaban sobre las bobinas de deflexión, guiando el recorrido del haz de electrones sobre el fósforo de la pantalla. Los sincronismos se dividen en sincronismo horizontal, vertical, de borrado y de burst.
Por último, la señal de televisión incorporará la información de audio, que será tratada por sus circuitos correspondientes. Para transmitir la señal, es necesario vehicularla a una onda portadora, modulándola con esta a la frecuencia de emisión de la cadena.
Composición de la señal analógica.
La señal de televisión tiene una amplitud de 1 voltio. De ella, 0,7 se destina a la información de imagen y 0,3 a los sincronismos. Así, el pico de blanco, máxima luminosidad de la escena, estará en el borde superior y el de negro en el inferior. Por debajo de este se situarán los sincronismos para que no interfieran con la imagen. La estructura de la línea, para los patrones de lectura, se establece en tiempos. Una línea completa dura 64 microsegundos. De ellos, 52 se destinan a la imagen y 12 a los sincronismos. Al final de cada línea se sitúa el pórtico anterior, con una duración de 4,7 ns. Este pórtico es necesario para que la tensión de las líneas que acaban en un pico de blanco, o próximo a él, tenga tiempo de bajar a 0 antes de iniciarse la siguiente línea. Antes del pórtico hay un pequeño tiempo de estabilizado de 1,5 ns. Al final se sitúa el pórtico posterior, con una duración de 5,8 ns, en el que se inserta el burst de color. La amplitud total de los sincronismos es de 0,3 voltios.
Resolución y ancho de banda.
Para determinar la resolución, es necesario tener en cuenta tanto las líneas horizontales como las “verticales”, lo que nos dará el número total de puntos de imagen. Tomando como ejemplo la norma CCIR utilizada en Europa, sabemos que exploramos a 625 líneas. Sin embargo, es necesario el tiempo correspondiente a 50 líneas para el retrazado vertical, por lo que el número queda reducido a 575. Ahora bien, debido a una serie de factores, como el efecto de dispersión del fósforo del mosaico de la pantalla del televisor, o la propia integración ocular del espectador, se produce una pérdida que Kell estimó en un 25%. Así, multiplicamos las 575 líneas por 0,75 (factor de Kell) y obtenemos 432 líneas reales, redondeando 430, de resolución vertical.
En sentido horizontal, podemos establecer igualmente un número de líneas teóricas. Como, tomando como base el formato clásico, la relación de aspecto de la pantalla es de 4:3, el número de líneas en horizontal será de 4/3 x 430 = 574. Así, la resolución máxima real sería de 430 líneas en vertical y 574 en horizontal. La resolución en vertical queda limitada por la frecuencia máxima de video procesable, y la horizontal por el número de líneas en tiempo de vertical del sistema empleado.
Para calcular el ancho de banda necesario, hay que relacionar la frecuencia procesable con la resolución horizontal. En el sistema CCIR, la frecuencia de línea es de 15.625 Hz (625 x 25). Supongamos que queremos averiguar cuántas líneas podemos transmitir con una anchura de banda de 1 MHz. Dividiríamos 1.000.000 entre 15.625, lo que da 64 hercios o ciclos por segundo (1 Hz = 1 ciclo por segundo). Cada ciclo equivale a dos líneas, una blanca y otra negra (correspondiente a su valle y a su cresta), por lo que tenemos 128 líneas. Ahora bien, como en cada línea hay que destinar un tiempo a los sincronismos (casi un 20% del total), los 64 microsegundos de duración de una línea se quedan reducidos a 52 para imagen en pantalla. Estableciendo una regla de 3, el número de líneas queda ahora en 104. Por último, aplicamos el factor Kell (104 x 0,75) y nos quedan 78 líneas (redondeando 80). Así, con una anchura de 1 MHz podremos transmitir 80 líneas. Como nuestro sistema tiene 430 (430 dividido por 80 = 5,375), redondeando, 5,5 MHz que es el ancho necesario. (Para la transmisión comercial se utilizan bandas de seguridad, para evitar las interferencias entre emisoras, con lo que el ancho real queda en 7 MHz para VHF y 8 para UHF.).
La señal de crominancia.
La principal innovación del PAL, desarrollado por Telefunkel, consiste en la alternancia de líneas. El esquema básico es el mismo que el utilizado por el NTSC, esto es, extraer la señal de crominancia de la de luminancia para asegurar la compatibilidad, y a su vez dividirla en dos señales de diferencia de color, una para el rojo y otra para el azul, moduladas con una subportadora en cuadratura. En el PAL, la frecuencia de la subportadora es de 4,43 MHz. Ahora bien, así como se ha dicho, cualquier desfase produce un error de color. El sistema PAL lo solucionó haciendo que se produjera, además, una alternancia de fase entre una línea y la siguiente, lo que da nombre al sistema (Phase Alternation Line).
Entre una línea y la siguiente hay un desfasaje de 180 grados, por lo que en una línea normal el valor de, por ejemplo, la señal de rojo será de 90 grados y en la invertida de 270. Así, en todos los colores se produce una imagen especular en su posición vista en un vectroscopio. Sucede entonces que cualquier error de color en una línea será igual, pero de sentido inverso, en la siguiente, por lo que se anularán uno con otro. De igual manera, la señal del burst o salva de color se invierte, pero aquí a los 180 se le restan 45 en una línea normal y se le suman 45 en la invertida, valiendo en una línea 135 grados y en la siguiente 225.
Sucede que al modular las señales de diferencia de color R y A, con la subportadora, se sobrepasa el nivel del pico de blanco, especialmente en el rojo y el verde, por lo que es preciso atenuarlas. Se determinó que los factores de atenuación sean 0,49 para el azul y 0,88 para el rojo.
Así tenemos:
R – Y = (0,7R, -0,59V, -0,11A) x 0,88 = 0,62R, -0,52V -0,10º
A – Y = (-0,3R, -0,59V, 0,89º) x 0,49 = -0,15R, -0,29V +0,44º
Otro problema consiste en la modulación con la subportadora. La frecuencia de 4,43 se obtuvo multiplicando la frecuencia de línea por 284, que es más o menos el número de líneas activas por campo (descontando las que ocupa el sincronismo vertical). Pero la subportadora se suma a la señal de video, produciendo un cierto patrón de interferencia. Este patrón será mayor si los ciclos de subportadora coinciden en la misma posición en líneas consecutivas, por lo que hay que idear un sistema que vaya desplazando ligeramente la posición de los ciclos de subportadora de una línea a otra.
La frecuencia se obtiene multiplicando 15.625, que es la frecuencia de línea, por 284, lo que da 4.437.500 Hz. Supongamos que a 284 le restamos un cuarto, quedaría:
15.625 x 283,75 = 4.433.593,75 Hz. Con esta frecuencia, los ciclos de subportadora coincidirían cada cuatro líneas y el patrón de interferencia sería aún muy molesto.
Si a 4.433.593,75 le sumamos 25 Hz, es decir, hacemos que en 1/25 de segundo se reparta un ciclo entre toda la señal, que en ese tiempo es un cuadro, es lo mismo que repartir un ciclo entre 625 líneas, con lo que no coincidirán en 625 líneas los ciclos de subportadora. Como ya habíamos hecho que no coincidieran en cuatro líneas, no coincidirán en cuatro cuadros, o lo que es lo mismo, en ocho campos, produciéndose así la famosa secuencia de ocho campos PAL. Los ciclos de subportadora coincidirán cada 2.500 líneas.
La secuencia de ochos campos PAL.
La salva de color (10 ciclos de subportadora) entra aproximadamente 0,15 V dentro de la región de la imagen (de 0 a 0,7 V). Esto produce un patrón de interferencia que será mayor si los ciclos de la subportadora coinciden en el mismo punto en todas las líneas. Para evitar que esto ocurra, se produce un desfase entre la salva de color de las líneas. En primer lugar, se desfasa ¼ de longitud de onda, lo que hace coincidir la subportadora cada 4 líneas. Aun así, el patrón de interferencia sigue siendo muy visible. En segundo lugar, se reparte un ciclo cada 1/25 de segundo, con lo cual repartimos ese ciclo entre 625 líneas. Ahora, la salva de color coincidirá cada 625 líneas, y como antes coincidía cada 4, el resultado será que la salva de color coincidirá cada 2500 líneas (624 x 4), 8 campos.
Señal U y V
Como consecuencia de las diferentes operaciones que se realizan, las señales de diferencia de color Rojo y Azul (R y B) ganan en nivel y han de ser recortadas para no sobrepasar el pico de blanco. Para ello se aplican unos valores de ponderación que son: 0,49 para el azul (Señal U) y 0,88 para el rojo (Señal V).
Vectroscopio
R - Y: 0,70 R - 0,59 V - 0,11 A
A – Y: -0,30 R - 0,59 V + 0,89 A
Ponderado
R - Y: 0,62 R - 0,52 V - 0,10 A
A – Y: -0,15 R - 0,29 V + 0,44 A
Así se sitúan los primarios en el vectroscopio. Para situar los complementarios, se traza una línea opuesta a su primario (en el caso del rojo 0,62 -0,15, cian 0,15 -0,62). Siempre que hay una línea normal, hay una línea invertida. Sus valores se conservan (los del color), pero con el signo contrario. El color se compone de tono, saturación y brillo; en el vectroscopio, el tono define el ángulo del segmento, la separación angular. Y la longitud o la altura del mismo nos da saturación; el brillo lo da la luminancia.
Para calcular la amplitud (la del segmento): A =