Chapitre 1 - Cours VA-M2 - ESE (19-20) [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Chapitre 1 : Concepts de base de la Vision Artificielle

Page 1

CONCEPTS DE BASE DE LA VISION ARTIFICIELLE (V.A.) 1.1 1.2 1.3 1.4 1.5

Structure matérielle d’un système de V.A. Structure fonctionnelle d’un système de V.A. Différents types d’images numériques Propriétés d’une image numérique Métriques d’évaluation de la qualité d’une image

Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)

Pr. Abdelhamid LOUKIL

Chapitre 1 : Concepts de base de la Vision Artificielle

Page 2

Un système de vision artificielle comporte en général (voir figure 1.1) : a) une source lumineuse pour éclairer la scène (soleil, lampe, rayonnement spécifique, …) ; b) un ou plusieurs capteurs d’images (caméra, radiomètre, sonar, …) ; c) une carte d'acquisition entre le capteur et l’ordinateur qui convertit l’information analogique en information numérique (actuellement, elle est intégrée dans le capteur lui-même) ; d) une unité de traitement et de visualisation ainsi que des logiciels de traitement d’images. Carte d’acquisition

Capteur d’images (Caméra) Source lumineuse (Eclairage)

Scène à filmer

Unité de traitement et de visualisation

Figure 1.1 : Structure matérielle d’un système de V.A.

Un système de vision artificielle comporte les fonctionnalités suivantes (voir figure 1.2) : a. L’acquisition d’images (capteurs): • Caméra ou Barrette CCD, • Scanner informatique, • Radiomètre satellitaire, FLIR • Echographe, Doppler, IRM,… b. Le Prétraitement (rehaussement et débruitage) • Egalisation, Normalisation, • Filtrage spatial, Filtrage fréquentiel, … c. La Segmentation • Extraction de contours ou régions, • Séparation Background / Foreground • Morphologie mathématique,… d. L’Extraction de caractéristiques – Description • Moments invariants • Coefficients de Fourrier, DCT, … • Coefficients d’ondelettes, … e. La Classification / Comparaison avec modèles • PPV, Réseaux de neurones, SVM, ACP, … f. La Décision – Application • Biométrie, • Reconnaissance de formes (visages, pièces, …); • Tri, Contrôle dimensionnel;…

Acquisition (image ou vidéo)

Prétraitement

Segmentation

B.D. modèles

Extraction de caractéristiques / Description

Classification

Décision / Application (Biométrie, RDF, …)

Figure 1.2 : Structure fonctionnelle d’un système de V.A. Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)

Pr. Abdelhamid LOUKIL

Chapitre 1 : Concepts de base de la Vision Artificielle

Page 3

Une image numérique est la fonction qui à chaque point (appelé pixel – contraction anglaise de « picture element ») I(i,j) du plan image associe l’intensité lumineuse en ce point. Selon les valeurs pouvant être prises par la fonction I, nous distinguons 3 différents types d’images :

1.3.1 IMAGE BINAIRE: Les valeurs prises par cette fonction sont binaires (voir figure 1.3) : I (i,j)  { 0, 1}

Figure 1.3 : Une image binaire

1.3.2 IMAGE EN NIVEAUX DE GRIS : Généralement, la fonction I peut prendre 256 valeurs entières allant de 0 à 255 appelées niveaux de gris (voir figure 1.4) : I(i,j)  [ 0, 255 ].

Figure 1.4 : Une image en niveaux de gris

Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)

Pr. Abdelhamid LOUKIL

Chapitre 1 : Concepts de base de la Vision Artificielle

Page 4

1.3.3 IMAGE RVB 24 BITS (3 X 8 BITS) Dans ce cas, à chaque pixel est associé un vecteur de 3 éléments entiers (Ir,Iv,Ib) pour coder les 3 canaux de couleur ‘canal rouge’, ‘canal vert’ et ‘canal bleu’. Les valeurs possibles prises par chaque canal est de 0 à 255 (voir figure 1.5). Ir(i,j)  [ 0, 255 ] ; Iv(i,j)  [ 0, 255 ] ; Ib(i,j)  [ 0, 255 ] ;

Composante rouge

Composante verte

Composante bleue

Figure 1.5 : Une image couleur RVB

D’autres espaces de couleurs, différents du système RVB, existent tels que :

   

Le système YCbCr ; Le système HSV (Hue / Saturation / Value) ; Le système CMJN (Cyan / Magenta / Jaune / Noir); Et bien d’autres encore …

Dans le domaine de la télédétection (images satellitaires), on retrouve d’autres types d’images :  Les images « multi spectrales » (plusieurs canaux) correspondant à 1 image pour chaque longueur d’onde.  Les images « panchromatiques » (un seul canal) correspondant à 1 image pour une seule plage de longueurs d’ondes.

Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)

Pr. Abdelhamid LOUKIL

Chapitre 1 : Concepts de base de la Vision Artificielle

Page 5

1.4.1 LA "DEFINITION" D’UNE IMAGE On appelle définition le nombre de pixels constituant l'image, c'est-à-dire sa "dimension informatique" (le nombre de colonnes de l'image que multiplie son nombre de lignes). Une image possédant 640 pixels en largeur et 480 pixels en hauteur aura une définition de 640 par 480 pixels, notée « 640480 ».

1.4.2 LA "RESOLUTION" D’UNE IMAGE La résolution, terme souvent confondu avec la "définition", détermine par contre le nombre de points par unité de surface, exprimé en points par pouce (PPP, en anglais DPI pour Dots Per Inch); un pouce représentant 2.54 cm. La résolution permet ainsi d'établir le rapport entre le nombre de pixels d'une image et la taille réelle de sa représentation sur un support physique. Une résolution de 300 dpi signifie donc 300 colonnes et 300 rangées de pixels sur un pouce carré ce qui donne donc 90 000 pixels sur un pouce carré. En imagerie satellitaire, la résolution est exprimée en pixels/m. Par exemple un satellite ayant une résolution de 12m signifie que un (01) pixel de l’image représente 12 mètres au sol (de la terre).

1.4.3 LA DYNAMIQUE D’UNE IMAGE Pour une image en niveaux de gris, la dynamique représente le nombre de niveaux de gris présents dans celle-ci. Pour une image couleur, nous parlons de dynamique par canal. Nous pouvons aussi exprimer la dynamique par le nombre de bits utilisé pour coder le niveau de gris.

1.4.4 LA LUMINANCE D’UNE IMAGE (BRILLANCE) Etant donnée une image en niveau de gris I(M lignes N colonnes), la luminance représente la moyenne statistique de tous les pixels formant l’image et est exprimée par : 𝑁

𝑀

1 𝜇= ∑ ∑ 𝐼(𝑥, 𝑦) 𝑀×𝑁 𝑦=1 𝑥=1

-

I(x,y) représente le niveau de gris du pixel (x , y). Pour une image couleur, nous avons une moyenne par canal.

1.4.5 LE CONTRASTE D’UNE IMAGE Plusieurs formules existent en littérature. Nous choisissons la plus utilisée qui représente l’écarttype des variations des niveaux de gris sur toute l’image: 𝑁

𝑀

1 = √ ∑ ∑(𝐼(𝑥, 𝑦) − 𝜇)2 𝑀×𝑁 𝑦=1 𝑥=1

1.4.6 L’HISTOGRAMME SIMPLE D’UNE IMAGE On appelle histogramme de l’image I, la fonction H définie sur l’ensemble des entiers naturels par : H (k) = Card { P / I (P) = k } C’est à dire que H(k) traduit le nombre d’apparitions du niveau de gris k dans l’image I (voir figure 1.6). L’histogramme est un outil privilégié en analyse d’images car il représente un résumé simple, mais souvent suffisant du contenu de l’image.

Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)

Pr. Abdelhamid LOUKIL

Chapitre 1 : Concepts de base de la Vision Artificielle

Page 6 Histogramme des niveaux de gris

5000 Histogramme des niveaux de gris

Cheikh Ibn-Badis.jpg 5000

4500

Cheikh Ibn-Badis.jpg 4500

4000 4000

3500 3500

3000 3000

2500

2500 2000

2000 1500

1500 1000

500 1000

0

500 0

50

100

150

200

250

Figure 1.6 : Une image en niveaux de gris (à gauche) et son histogramme (à droite) 0

0

50

100

150

200

250

Dans le cas où l’image est en couleurs (RGB, CMJN, HSV, …), nous traçons un histogramme pour chaque canal (pour le codage RVB, nous avons Hr, Hv, Hb).

1.4.7 L’HISTOGRAMME CUMULE D’UNE IMAGE Noté Hc(k) et représente la somme des valeurs de l’histogramme des pixels ayant un niveau de gris inférieur ou égal à k. Il est généralement normalisé (Hcn(k)) en divisant par le nombre total des pixels de l’image (M pixels par ligne × N pixels par colonne). 𝑘

𝐻𝑐(𝑘) = ∑ 𝐻(𝑖)

𝑒𝑡

𝐻𝑐𝑛(𝑘) =

𝑖=0

𝐻𝑐(𝑘) (𝑀 × 𝑁)

1.4.8 L’ENTROPIE D’ORDRE ‘0’ D’UNE IMAGE Soit H(k) la valeur de l’histogramme pour le niveau de gris k. L’estimateur de la probabilité d’apparition du niveau de gris k dans l’image (variable aléatoire de dimension 2) est donnée par : 𝐻(k) 𝐻(𝑘) 𝑝𝑘 = = 𝑇𝑎𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙′𝑖𝑚𝑎𝑔𝑒 (𝑀 × 𝑁) M : nombre de pixels par ligne N : nombre de pixels par colonne Alors, l’entropie E d’ordre ‘0’ de l’image est donnée par: 𝐸 = − ∑ 𝑝𝑘 × 𝑙𝑜𝑔2 (𝑝𝑘 ) 𝑘

L’entropie représente le fondement de tous les algorithmes d’amélioration des images. On cherche toujours à maximiser la valeur de l’entropie d’ordre 0 (énergie).

1.4.9 LE PROFIL D’UNE IMAGE Le profil d’une image représente la courbe de variation des niveaux de gris suivant une ligne ou une colonne ou bien une direction donnée dans l’mage (voir figure 1.7)

Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)

Pr. Abdelhamid LOUKIL

Chapitre 1 : Concepts de base de la Vision Artificielle

Page 7

250

200

150

100

50

0

0

50

100

150 200 Distance along profile

250

300

350

Figure 1.7 : Le tracé du profil de l’image « Ibn_Badis » suivant la ligne 350

1.4.10 AUTRES DEFINITIONS  La distance entre pixels dans une image Tout pixel d’une image est caractérisé par un couple de coordonnées (x, y) qui représentent la position de ce pixel dans l’image. Les distances les plus courantes sont (pour deux pixels P(xp,yp) et Q(xq,yq) de la figure 1.9 ): o

distance de Manhattan :

d1(P,Q) = |xp – xq| + |yp – yq|

o

distance Euclidienne :

d2(P,Q) =

o

distance de l’Echiquier :

d3(P,Q) = Max ( |xp – xq| , |yp – yq| )

(x p  x q ) 2  (y p  y q ) 2

P

Q

Figure 1.9 : Illustration de la distance entre deux pixels P et Q



Voisinage d’un pixel On appelle voisinage d’ordre k du pixel P et l’on note Vk(P) l’ensemble des pixels Q défini par : Vk(Q) = {pixels Q tels que 0< d(P,Q)  k }  Ordre de connexité Il existe principalement deux ordres de connexité : 4 et 8 (voir figure 1.10). Ce nombre correspond à la taille du plus petit voisinage non vide d’un pixel. Un pixel a 4 voisins directes si l’on choisit la distance d1 (Manhattan) , il en a 8 avec la distance d3 (Echiquier).

Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)

Pr. Abdelhamid LOUKIL

Chapitre 1 : Concepts de base de la Vision Artificielle

Page 8

4 voisins directs à une distance d1

8 voisins directs à une distance d3

Figure 1.10 : Les deux types d’ordre de connexité : 4 voisins et 8 voisins.

La mesure de l’amélioration ou de la dégradation de la qualité visuelle d’une image par un traitement quelconque ne peut être que subjective si elle fait par un observateur humain : Dire qu'une méthode fournit une image de meilleure qualité peut varier d'une personne à l'autre. Pour cette raison, il est nécessaire d'établir des mesures quantitatives permettant de comparer les effets des algorithmes de traitement sur la qualité de l'image. Deux métriques largement utilisées en traitement d’images sont : - L’erreur quadratique moyenne (MSE) ; - Le rapport signal/bruit de crête (PSNR).

1.5.1 L’ERREUR QUADRATIQUE MOYENNE (MSE – MEAN SQUARED ERROR) : Etant données l’image d’origine, notée I(i,j) et l’image traitée, notée T(i,j), de mêmes tailles (M×N) pixels. Le MSE représente la moyenne des carrés des différences entre les deux images I et T. 𝑀

𝑁

1 𝑀𝑆𝐸 = ∑ ∑‖𝐼(𝑖, 𝑗) − 𝑇(𝑖, 𝑗)‖2 𝑀. 𝑁 𝑖=1 𝑗=1

1.5.2 LE RAPPORT

SIGNAL/BRUIT DE CRETE (PSNR : PEAK SIGNAL TO NOISE RATIO) : Le terme « rapport signal/bruit de crête » (PSNR) est une expression du rapport entre la valeur maximale possible de l’image (pour une image dont le pixel est codé sur 8 bits, max(I) est égal à 255) et le MSE. Le PSNR est généralement exprimé en termes d’échelle logarithmique en décibels : max(𝐼)2 ) 𝑀𝑆𝐸 Plus le PSNR est élevé, meilleure est le traitement subie par l’image. Cela se produirait parce que nous souhaitons minimiser le MSE entre les images f et g. 𝑃𝑆𝑁𝑅 = 10 log (

Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)

Pr. Abdelhamid LOUKIL