La matriz de cuantización en la cuantización perceptual

image_pdfimage_print

De entre las etapas de la codificación de imagen y vídeo, la cuantización es la única en la que se produce una pérdida real de información.

Los codificadores basados en bloques utilizan una matriz de cuantización QM (Quantization Matrix) para reducir la precisión de los coeficientes resultantes de la etapa de transformación al dominio de la frecuencia, habitualmente utilizando la transformada DCT.

Suponiendo un bloque de 8×8 de coeficientes \begin{aligned} F(u,v) \end{aligned} resultantes de la transformada DCT o similar, la matriz de cuantización define la cantidad de reducción que se va a aplicar a cada coeficiente para reducir el bit-rate resultante en la compresión. u, v son la frecuencia horizontal y vertical respectivamente. Cuando la cuantización es uniforme, a todos los coeficientes se les aplica el mimso divisor y cuando no lo es, para cada coeficiente la matriz de cuantización tiene divisores diferentes. La cuantización se regiría por la ecuación (1) y la decuantización por la ecuación (2)

(1)   \begin{equation*}  F_Q(u,v)=Round(\frac{F(u,v)}{Q(u,v)}) \end{equation*}

(2)   \begin{equation*}  F'(u,v)=F_Q(u,v)\times Q(u,v) \end{equation*}

Cada uno de los valores \begin{aligned} Q(u,v) \end{aligned} de la matriz de cuantización es un entero entre 1 y 255 que especifica el tamaño del quantization step (QStep) a aplicar en la frecuencia (u,v). El error máximo de cuantización en la reconstrucción de \begin{aligned} F(u,v) \end{aligned} es por tanto \begin{aligned} Q(u,v)/2 \end{aligned}.

El objetivo es reducir la precisiónd e los coeficientes que son perceptualmente insignificantes.

Fundamentalmente hay dos formas de definir la matriz de cuantización:

  1. Utilizando la teoría de rate-distortion.
  2. Utilizando experimentos psico-visuales basados en el HVS.

1) Se obtiene una QM específica para la imagen asignando, de los bits disponibles, cierto número de bits a cada coeficiente DCT utilizando un criterio rate-distortion.

Normalmenta a los coeficientes de baja frecuencia se les asigna más bits dada la compactación de energía de la DCT. El problema de esta técnica  es que la QM generada depende de la imagen y tiene un coste computacional a tener en cuenta. Habitualmente se implementa un algoritmo rate-distortion adaptativo que gerera la QM para cada imagen.

2) La idea es determinar el umbral T para cada coeficiente DCT de forma que idealmente, las distorsiones bajo ese umbral no se perciban. Normalmente los QSteps para coeficientes de alta frecuencia serán mayores que los de baja, lo que producirá mayores distorsiones para las altas frecuencias que para las bajas, lo que concuerda con la sensibilidad del HVS.

 

Publicado en Perceptual Coding, Perceptual Quantization, Quantization.