Programme de la r&eacut;union du 09 juin 2005

Approches perceptives et cognitives pour l'élaboration de système d'analyse d'images

Journée coordonnée par : Véronique Eglin - RFV INSA Lyon

Présentation

Le Groupe de Travail "SCATI : Systèmes complexes d'analyse d'images" s'inscrivant dans le GDR-ISIS et I3 a choisi de centrer sa prochaine journée d'échanges scientifiques autour des sytèmes d'analyse d'images bio-inspirés, impliquant les processus perceptifs et cognitifs dans la boucle des traitements.

Cette rencontre vise précisément à mettre en avant les architectures des systèmes capables de simuler le fonctionnement du système visuel humain (focalisation de l'attention, transmission rapide de l'information, capacité de catégorisation, intégration de connaissances de bas niveaux et de niveaux supérieurs...) et de traiter diverses propriétés des stimulii visuels (le contraste, la couleur, les zones de saillance particulière et spontanées, les associations de descripteurs...).

Les méthodes présentées relèveront de la mise en place de systèmes de traitements d'images autour d'applications très diversifiées: repérage d'objets dans une scène, catégorisation d'objets, systèmes d'indexation d'images naturelles, perception et exploration des scènes naturelles, reconnaissance de formes et d'objets, analyse en vision de bas niveau...

Programme de la journée

9h30-9h40 : Accueil et présentation de la journée

9h40-11h20 Présentation Séniors I :

11h20-11h30 Pause

11h30-12h30 Présentation Séniors I (suite) :

12h30-14h00 Repas

14h00-15h30 Présentation Séniors II:

15h30-15h45 Pause

15h45-17h00 Présentation Jeunes Chercheurs

17h00-17h30 : Bilan de la journée - Discussion fin

RESUMES

Simon Thorpe - CERCO, Toulouse

Titre :

Résumé : Non encore disponible


Jeanny Herault - LIS, Grenoble

Titre : Modèles de la perception visuelle : connaître (l'homme) pour reconnaître (les images)

Résumé : Nous vivons dans un monde tridimensionnel, et notre rétine est à deux dimensions. Les intensités lumineuses que nous recevons varient dans une gamme de 1 à 10^12, et nos neurones codent cela en impulsions de une à 100 par seconde. La couleur de l'éclairage varie (soleil de midi, lampe à filament de tungstène, soleil couchant, vitres teintées), et nous devons reconnaître la couleur propre des objets... Notre système visuel est une machine adaptée au monde dans lequel nous vivons : avant de reconnaître un objet, il effectue une série de prétraitements qui permettent de résoudre la variabilité des signaux, il construit des hypothèses de travail basées sur l'habitude et sur le contexte temporel ou spatial. En partant d'exemples commentés de ce que l'on nomme (à tord) illusions visuelles, nous découvrirons les principes fondamentaux de la perception des images et des scènes. Mais avant tout cela, pour apprendre comment nous voyons, fermons les yeux...


Christian Marendaz - UPMF, Grenoble

Titre : Ce que l'énergie des images dit au cerveau

Résumé : 100 ms suffisent pour catégoriser une image. Ce temps est extrèmement bref au regard de l'architecture neuroanatomofonctionnelle du système visuel et des problèmes perceptifs que doit résoudre un système de reconnaissance. Chez le primate, l'évolution a privilégié des voies rétino-cérébrales et cortico-corticales se distinguant par leur façon de traiter le signal visuel au niveau spatio-temporel. Nous développerons l'idée que l'information à la base de la catégorisation pourrait ètre celle résumée dans le spectre d'énergie des images, tel qu'il peut ètre extrait par les cellules simples et complexes du cortex visuel primaire et véhiculé par le circuit magnocellulaire. Nous le montrerons par la modélisation / simulation et l'expérimentation. Puis par la Neuroimagerie et la Neuropsychologie Cognitive (hémianopsie), nous essaierons de comprendre quelles sont les différentes structures cérébrales impliquées dans ce traitement.


Laurence Hafemeister - CERPI/ENSEA, Paris

Titre : Architecture de contrôle neuronale pour la localisation attentionnelle de cibles

Résumé : En s'inspirant de travaux de neurobiologie et de psychophysique, nous proposons une architecture utilisant des mécanismes parallèles d'extraction de l'information et un mécanisme de fusion pour sélectionner les zones de l'image les plus saillantes. Nous montrons qu'il est possible de biaiser cette fusion pour favoriser non pas les caractéristiques isolées ("pop-out") mais les indices visuels les plus pertinents pour la tâche à accomplir. Ce système de vision artificielle permet de résoudre des problèmes industriels complexes de localisation de cibles (grande variété de la cible, distracteurs pouvant partager des caractéristiques avec la cible, ...) mais peut aussi fonctionner pour guider un robot autonome dans un environnement réel. Ainsi différents types d'expérience nous amènerons à nous questionner sur les limites entre focalisation de l'attention et reconnaissance d'objets, sur le statut de la perception, et nous conduirons à souligner l'importance de considérer les dynamiques internes d'un système de vision artificiel et de prendre en compte la dynamique des interactions avec l'environnement pour l'apprentissage et la perception des objets.


David Aleysson - LCAV, Lausanne

Titre : Un exemple d'utilisation de l'approche perceptive pour le traitement d'image : Le demosaïçage par sélection de fréquences.

Résumé : Dans cet exposé nous montrerons un exemple d'algorithme utilisé pour la reconstruction des images couleur dans les caméras numériques dite "mono-ccd", c'est à dire composée d'un seul capteur devant lequel est placé une matrice de filtres couleur. Ce type de caméra échantillonne une seule composante couleur par position spatiale et un algorithme de reconstruction est nécessaire pour produire une image couleur avec trois composantes.
Les approches concurrentes pour cette problématique utilisent des algorithmes non linéaires basés sur le déaliasing. Nous avons pour notre part développé un algorithme à partir d'un modèle d'échantillonnage de la couleur dans la rétine. Ce modèle montre comment se construisent les canaux de luminance et d'opposition chromatique dans la rétine, élément de base à la perception visuelle.
L'algorithme trouvé est linéaire et uniforme donc efficace (cf. biblio en fin), et permet d'une part de prédire les quatre artéfacts inhérent à cette technique et d'autre part d'optimiser le système de choix des filtres de couleur pour une meilleure performance.


Alan Chauvin - CERNEC, Université de Montréal

Titre : Catégorisation rapide de scènes (saillance, gabor, modèle rétine)

Résumé : Les application de la psychophysiques au domaine de l'image ou plutôt à l'utilisation des modèles en psychophysiques.


Corentin Massot - LIS, Grenoble

Titre : Cortex visuel et filtres log-normaux: forme à partir de la texture

Résumé : Nous percevons notre monde en trois dimensions. Le système visuel utilise pour cela différents types de mécanismes: la stéréoscopie, le parallaxe de mouvement, les informations de contour des objets, la perspective, les variations induites dans les textures. Nous nous interessons plus particulièrement a ce dernier type d'indice car c'est l'un des plus importants dans l'analyse d'une scène naturelle. Pour cela nous partons d'un modèle des aires corticales du système visuel, la décomposition en orientation et en fréquence locales de l'image d'entrée (aire V1), pour tenter d'en extraire une information de variation de fréquence locale. Nous introduisons une nouvelle classe de filtres à variables séparables, les filtres log-normaux (bien plus efficaces que les filtres classiques de Gabor). A partir de l'utilisation de ces filtres, une nouvelle méthode d'estimation de la fréquence locale est obtenue. La relation analytique entre la fréquence locale et les paramètres géométriques de la surface, par projection perspective, permet finalement de récupérer les informations d'orientation et de forme de l'image originale. La robustesse de la méthode est évaluée sur différent types de textures, à la fois régulières et irrégulières, de mème que sur des scènes naturelles.


Joseph Machrouh - RD-TECH-LAND Telecom, Lannion

Titre : Exploration située des scènes naturelles

Résumé : Nous présentons dans ce travail un système de vision artificiel capable d'explorer son environnement. Muni de capacités attentionnelles, il a la possibilité de se focaliser sur des points particuliers de la scène, ce qui lui permet d'en analyser des portions réduites. L'architecture de ce système s'inspire des principes de la vision naturelle : traitement différentiel des fréquences spatiales entre centre et périphérie du champ visuel, existence d'un système attentionnel et utilisation de la mémoire pour guider l'exploration de la scène. Nous analysons la façon dont de telles capacités exploratoires peuvent conduire à une identification plus efficace des points d'intérèts de la scène. Afin de démontrer l'efficacité des mécanismes d'explorations guidés, nous avons comparé les performances du système lorsque l'exploration est induite par les saillances naturelles (exploration bottom-up) à ses performances lorsqu'elle est guidé par une information de haut niveau préalablement mémorisée (exploration top-down). Nous montrons que le guidage par une information de haut niveau conduit à une efficacité exploratoire bien supérieure en termes computationnels mais également plus précise en termes de reconnaissance.