Fundamentos de Visión Artificial: Detección de Puntos de Interés y Algoritmos RANSAC/BoW

Escrito el 15 de Octubre de 2025 en español con un tamaño de 4,72 KB

Descriptores Locales Invariantes y Puntos de Interés

Los descriptores locales invariantes definen un conjunto de puntos de interés. Este conjunto de puntos posee las siguientes características:

Son repetibles y distintivos.
Tienen la propiedad de compacidad y eficiencia.
Son locales.

Proceso de Extracción y Emparejamiento de Puntos de Interés

Detección de Puntos de Interés
Consiste en detectar esquinas o manchas (blobs). Una esquina se caracteriza porque los componentes de los gradientes van en diferentes direcciones. Las manchas, además de esta característica, permiten calcular su escala.
- Las esquinas se encuentran calculando el gradiente de cada píxel.
- Las manchas se encuentran calculando los máximos de la segunda derivada.
La dimensión x e y nos da la posición, y theta ($ heta$) el tamaño.
Descripción de los Puntos de Interés
La orientación de la imagen se determina mediante los gradientes, utilizando la escala del operador de la segunda derivada para definir el tamaño de la ventana. Para describir la imagen dentro de la ventana, se utilizan histogramas de gradientes.
Proceso de Descripción
Se proyecta sobre la ventana una malla de 4x4 y cada submalla en una de 5x5. Posteriormente, se calcula el gradiente. Para ello, se debe calcular el sumatorio de los 25 gradientes de cada submalla y luego se multiplicaría por el de la malla de 4x4, obteniendo un vector de 64 elementos.
Emparejamiento de Puntos de Interés
Se realiza mediante un clasificador.

Detección y Reconocimiento de Objetos

Clasificación de Imágenes

La clasificación de imágenes utiliza técnicas de descripción de imágenes y algoritmos de clasificación para reconocer objetos en dichas imágenes.

Problemas Abordados en el Reconocimiento de Objetos

Reconocer un tipo específico de objeto (Ejemplo: Algoritmo RANSAC).
Reconocer categorías de objetos: Es crucial definir muy bien el nivel de abstracción para que los algoritmos se desenvuelvan correctamente (Ejemplo: Algoritmo de la Bolsa de Palabras).

Algoritmo de la Bolsa de Palabras (Bag of Words - BoW)

En este algoritmo se observa la frecuencia de aparición de las palabras visuales, aunque presenta el problema de no considerar la posición geométrica de las palabras.

Fases del Algoritmo BoW

Se extraen y describen los puntos de interés.
Se construye el vocabulario visual.
Se usan las palabras visuales para cuantificar las propiedades.
Se representan las imágenes mediante frecuencias de palabras visuales.

Ventajas y Desventajas de BoW

Ventajas: Es robusto frente a las deformaciones de las imágenes, se obtiene un resumen de los contenidos de la imagen y se consiguen buenos resultados.
Desventajas: No tiene en cuenta la posición geométrica de las palabras, no se garantiza encontrar puntos de interés, y la formación del vocabulario óptimo es un desafío.

Algoritmo RANSAC (Random Sample Consensus)

RANSAC se utiliza para reconocer un objeto dentro de una imagen, almacenando información de las palabras visuales y situándolas en posición. Se trata de un algoritmo robusto, lo que significa que funciona bien incluso cuando hay datos atípicos (outliers).

En este algoritmo se utilizan dos datos, pero es necesario repetir el proceso muchas veces (iteración).

Pasos de RANSAC

Se establece un umbral para los outliers (datos atípicos).
Se seleccionan al azar dos datos.
Se estima el modelo asociado a esos dos datos y se determina el modelo del consenso.
Se itera tantas veces como sea necesario, hasta obtener el mejor resultado.
Una vez que se tiene el mejor resultado, se ajusta por mínimos cuadrados.

Transformación Lineal Proyectiva

Esta transformación se utiliza si la imagen se encuentra deformada o en otra posición. Se necesitan 8 datos (4 pares) para su cálculo.

Aplicación

Se obtienen los datos del modelo.
Se obtienen los datos de las imágenes de entrada (se etiquetan y se indica su posición).
Se aplica el algoritmo RANSAC.

Consideraciones

Ventajas: Es un modelo general de fácil implementación.
Desventajas: Solo sirve para objetos planos, es computacionalmente costoso y la tasa de fallos puede ser mayor del 50 %.

Entradas relacionadas:

Etiquetas: