34 0 1MB
Chapitre 1 : Concepts de base de la Vision Artificielle
Page 1
CONCEPTS DE BASE DE LA VISION ARTIFICIELLE (V.A.) 1.1 1.2 1.3 1.4 1.5
Structure matérielle d’un système de V.A. Structure fonctionnelle d’un système de V.A. Différents types d’images numériques Propriétés d’une image numérique Métriques d’évaluation de la qualité d’une image
Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)
Pr. Abdelhamid LOUKIL
Chapitre 1 : Concepts de base de la Vision Artificielle
Page 2
Un système de vision artificielle comporte en général (voir figure 1.1) : a) une source lumineuse pour éclairer la scène (soleil, lampe, rayonnement spécifique, …) ; b) un ou plusieurs capteurs d’images (caméra, radiomètre, sonar, …) ; c) une carte d'acquisition entre le capteur et l’ordinateur qui convertit l’information analogique en information numérique (actuellement, elle est intégrée dans le capteur lui-même) ; d) une unité de traitement et de visualisation ainsi que des logiciels de traitement d’images. Carte d’acquisition
Capteur d’images (Caméra) Source lumineuse (Eclairage)
Scène à filmer
Unité de traitement et de visualisation
Figure 1.1 : Structure matérielle d’un système de V.A.
Un système de vision artificielle comporte les fonctionnalités suivantes (voir figure 1.2) : a. L’acquisition d’images (capteurs): • Caméra ou Barrette CCD, • Scanner informatique, • Radiomètre satellitaire, FLIR • Echographe, Doppler, IRM,… b. Le Prétraitement (rehaussement et débruitage) • Egalisation, Normalisation, • Filtrage spatial, Filtrage fréquentiel, … c. La Segmentation • Extraction de contours ou régions, • Séparation Background / Foreground • Morphologie mathématique,… d. L’Extraction de caractéristiques – Description • Moments invariants • Coefficients de Fourrier, DCT, … • Coefficients d’ondelettes, … e. La Classification / Comparaison avec modèles • PPV, Réseaux de neurones, SVM, ACP, … f. La Décision – Application • Biométrie, • Reconnaissance de formes (visages, pièces, …); • Tri, Contrôle dimensionnel;…
Acquisition (image ou vidéo)
Prétraitement
Segmentation
B.D. modèles
Extraction de caractéristiques / Description
Classification
Décision / Application (Biométrie, RDF, …)
Figure 1.2 : Structure fonctionnelle d’un système de V.A. Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)
Pr. Abdelhamid LOUKIL
Chapitre 1 : Concepts de base de la Vision Artificielle
Page 3
Une image numérique est la fonction qui à chaque point (appelé pixel – contraction anglaise de « picture element ») I(i,j) du plan image associe l’intensité lumineuse en ce point. Selon les valeurs pouvant être prises par la fonction I, nous distinguons 3 différents types d’images :
1.3.1 IMAGE BINAIRE: Les valeurs prises par cette fonction sont binaires (voir figure 1.3) : I (i,j) { 0, 1}
Figure 1.3 : Une image binaire
1.3.2 IMAGE EN NIVEAUX DE GRIS : Généralement, la fonction I peut prendre 256 valeurs entières allant de 0 à 255 appelées niveaux de gris (voir figure 1.4) : I(i,j) [ 0, 255 ].
Figure 1.4 : Une image en niveaux de gris
Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)
Pr. Abdelhamid LOUKIL
Chapitre 1 : Concepts de base de la Vision Artificielle
Page 4
1.3.3 IMAGE RVB 24 BITS (3 X 8 BITS) Dans ce cas, à chaque pixel est associé un vecteur de 3 éléments entiers (Ir,Iv,Ib) pour coder les 3 canaux de couleur ‘canal rouge’, ‘canal vert’ et ‘canal bleu’. Les valeurs possibles prises par chaque canal est de 0 à 255 (voir figure 1.5). Ir(i,j) [ 0, 255 ] ; Iv(i,j) [ 0, 255 ] ; Ib(i,j) [ 0, 255 ] ;
Composante rouge
Composante verte
Composante bleue
Figure 1.5 : Une image couleur RVB
D’autres espaces de couleurs, différents du système RVB, existent tels que :
Le système YCbCr ; Le système HSV (Hue / Saturation / Value) ; Le système CMJN (Cyan / Magenta / Jaune / Noir); Et bien d’autres encore …
Dans le domaine de la télédétection (images satellitaires), on retrouve d’autres types d’images : Les images « multi spectrales » (plusieurs canaux) correspondant à 1 image pour chaque longueur d’onde. Les images « panchromatiques » (un seul canal) correspondant à 1 image pour une seule plage de longueurs d’ondes.
Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)
Pr. Abdelhamid LOUKIL
Chapitre 1 : Concepts de base de la Vision Artificielle
Page 5
1.4.1 LA "DEFINITION" D’UNE IMAGE On appelle définition le nombre de pixels constituant l'image, c'est-à-dire sa "dimension informatique" (le nombre de colonnes de l'image que multiplie son nombre de lignes). Une image possédant 640 pixels en largeur et 480 pixels en hauteur aura une définition de 640 par 480 pixels, notée « 640480 ».
1.4.2 LA "RESOLUTION" D’UNE IMAGE La résolution, terme souvent confondu avec la "définition", détermine par contre le nombre de points par unité de surface, exprimé en points par pouce (PPP, en anglais DPI pour Dots Per Inch); un pouce représentant 2.54 cm. La résolution permet ainsi d'établir le rapport entre le nombre de pixels d'une image et la taille réelle de sa représentation sur un support physique. Une résolution de 300 dpi signifie donc 300 colonnes et 300 rangées de pixels sur un pouce carré ce qui donne donc 90 000 pixels sur un pouce carré. En imagerie satellitaire, la résolution est exprimée en pixels/m. Par exemple un satellite ayant une résolution de 12m signifie que un (01) pixel de l’image représente 12 mètres au sol (de la terre).
1.4.3 LA DYNAMIQUE D’UNE IMAGE Pour une image en niveaux de gris, la dynamique représente le nombre de niveaux de gris présents dans celle-ci. Pour une image couleur, nous parlons de dynamique par canal. Nous pouvons aussi exprimer la dynamique par le nombre de bits utilisé pour coder le niveau de gris.
1.4.4 LA LUMINANCE D’UNE IMAGE (BRILLANCE) Etant donnée une image en niveau de gris I(M lignes N colonnes), la luminance représente la moyenne statistique de tous les pixels formant l’image et est exprimée par : 𝑁
𝑀
1 𝜇= ∑ ∑ 𝐼(𝑥, 𝑦) 𝑀×𝑁 𝑦=1 𝑥=1
-
I(x,y) représente le niveau de gris du pixel (x , y). Pour une image couleur, nous avons une moyenne par canal.
1.4.5 LE CONTRASTE D’UNE IMAGE Plusieurs formules existent en littérature. Nous choisissons la plus utilisée qui représente l’écarttype des variations des niveaux de gris sur toute l’image: 𝑁
𝑀
1 = √ ∑ ∑(𝐼(𝑥, 𝑦) − 𝜇)2 𝑀×𝑁 𝑦=1 𝑥=1
1.4.6 L’HISTOGRAMME SIMPLE D’UNE IMAGE On appelle histogramme de l’image I, la fonction H définie sur l’ensemble des entiers naturels par : H (k) = Card { P / I (P) = k } C’est à dire que H(k) traduit le nombre d’apparitions du niveau de gris k dans l’image I (voir figure 1.6). L’histogramme est un outil privilégié en analyse d’images car il représente un résumé simple, mais souvent suffisant du contenu de l’image.
Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)
Pr. Abdelhamid LOUKIL
Chapitre 1 : Concepts de base de la Vision Artificielle
Page 6 Histogramme des niveaux de gris
5000 Histogramme des niveaux de gris
Cheikh Ibn-Badis.jpg 5000
4500
Cheikh Ibn-Badis.jpg 4500
4000 4000
3500 3500
3000 3000
2500
2500 2000
2000 1500
1500 1000
500 1000
0
500 0
50
100
150
200
250
Figure 1.6 : Une image en niveaux de gris (à gauche) et son histogramme (à droite) 0
0
50
100
150
200
250
Dans le cas où l’image est en couleurs (RGB, CMJN, HSV, …), nous traçons un histogramme pour chaque canal (pour le codage RVB, nous avons Hr, Hv, Hb).
1.4.7 L’HISTOGRAMME CUMULE D’UNE IMAGE Noté Hc(k) et représente la somme des valeurs de l’histogramme des pixels ayant un niveau de gris inférieur ou égal à k. Il est généralement normalisé (Hcn(k)) en divisant par le nombre total des pixels de l’image (M pixels par ligne × N pixels par colonne). 𝑘
𝐻𝑐(𝑘) = ∑ 𝐻(𝑖)
𝑒𝑡
𝐻𝑐𝑛(𝑘) =
𝑖=0
𝐻𝑐(𝑘) (𝑀 × 𝑁)
1.4.8 L’ENTROPIE D’ORDRE ‘0’ D’UNE IMAGE Soit H(k) la valeur de l’histogramme pour le niveau de gris k. L’estimateur de la probabilité d’apparition du niveau de gris k dans l’image (variable aléatoire de dimension 2) est donnée par : 𝐻(k) 𝐻(𝑘) 𝑝𝑘 = = 𝑇𝑎𝑖𝑙𝑙𝑒 𝑑𝑒 𝑙′𝑖𝑚𝑎𝑔𝑒 (𝑀 × 𝑁) M : nombre de pixels par ligne N : nombre de pixels par colonne Alors, l’entropie E d’ordre ‘0’ de l’image est donnée par: 𝐸 = − ∑ 𝑝𝑘 × 𝑙𝑜𝑔2 (𝑝𝑘 ) 𝑘
L’entropie représente le fondement de tous les algorithmes d’amélioration des images. On cherche toujours à maximiser la valeur de l’entropie d’ordre 0 (énergie).
1.4.9 LE PROFIL D’UNE IMAGE Le profil d’une image représente la courbe de variation des niveaux de gris suivant une ligne ou une colonne ou bien une direction donnée dans l’mage (voir figure 1.7)
Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)
Pr. Abdelhamid LOUKIL
Chapitre 1 : Concepts de base de la Vision Artificielle
Page 7
250
200
150
100
50
0
0
50
100
150 200 Distance along profile
250
300
350
Figure 1.7 : Le tracé du profil de l’image « Ibn_Badis » suivant la ligne 350
1.4.10 AUTRES DEFINITIONS La distance entre pixels dans une image Tout pixel d’une image est caractérisé par un couple de coordonnées (x, y) qui représentent la position de ce pixel dans l’image. Les distances les plus courantes sont (pour deux pixels P(xp,yp) et Q(xq,yq) de la figure 1.9 ): o
distance de Manhattan :
d1(P,Q) = |xp – xq| + |yp – yq|
o
distance Euclidienne :
d2(P,Q) =
o
distance de l’Echiquier :
d3(P,Q) = Max ( |xp – xq| , |yp – yq| )
(x p x q ) 2 (y p y q ) 2
P
Q
Figure 1.9 : Illustration de la distance entre deux pixels P et Q
Voisinage d’un pixel On appelle voisinage d’ordre k du pixel P et l’on note Vk(P) l’ensemble des pixels Q défini par : Vk(Q) = {pixels Q tels que 0< d(P,Q) k } Ordre de connexité Il existe principalement deux ordres de connexité : 4 et 8 (voir figure 1.10). Ce nombre correspond à la taille du plus petit voisinage non vide d’un pixel. Un pixel a 4 voisins directes si l’on choisit la distance d1 (Manhattan) , il en a 8 avec la distance d3 (Echiquier).
Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)
Pr. Abdelhamid LOUKIL
Chapitre 1 : Concepts de base de la Vision Artificielle
Page 8
4 voisins directs à une distance d1
8 voisins directs à une distance d3
Figure 1.10 : Les deux types d’ordre de connexité : 4 voisins et 8 voisins.
La mesure de l’amélioration ou de la dégradation de la qualité visuelle d’une image par un traitement quelconque ne peut être que subjective si elle fait par un observateur humain : Dire qu'une méthode fournit une image de meilleure qualité peut varier d'une personne à l'autre. Pour cette raison, il est nécessaire d'établir des mesures quantitatives permettant de comparer les effets des algorithmes de traitement sur la qualité de l'image. Deux métriques largement utilisées en traitement d’images sont : - L’erreur quadratique moyenne (MSE) ; - Le rapport signal/bruit de crête (PSNR).
1.5.1 L’ERREUR QUADRATIQUE MOYENNE (MSE – MEAN SQUARED ERROR) : Etant données l’image d’origine, notée I(i,j) et l’image traitée, notée T(i,j), de mêmes tailles (M×N) pixels. Le MSE représente la moyenne des carrés des différences entre les deux images I et T. 𝑀
𝑁
1 𝑀𝑆𝐸 = ∑ ∑‖𝐼(𝑖, 𝑗) − 𝑇(𝑖, 𝑗)‖2 𝑀. 𝑁 𝑖=1 𝑗=1
1.5.2 LE RAPPORT
SIGNAL/BRUIT DE CRETE (PSNR : PEAK SIGNAL TO NOISE RATIO) : Le terme « rapport signal/bruit de crête » (PSNR) est une expression du rapport entre la valeur maximale possible de l’image (pour une image dont le pixel est codé sur 8 bits, max(I) est égal à 255) et le MSE. Le PSNR est généralement exprimé en termes d’échelle logarithmique en décibels : max(𝐼)2 ) 𝑀𝑆𝐸 Plus le PSNR est élevé, meilleure est le traitement subie par l’image. Cela se produirait parce que nous souhaitons minimiser le MSE entre les images f et g. 𝑃𝑆𝑁𝑅 = 10 log (
Support de cours - Vision Artificielle (Master ESE – Semestre 3 – 2019/2020)
Pr. Abdelhamid LOUKIL