Cydral - Doc pour docs

Transcription

Cydral - Doc pour docs
Doc pour docs > Les TICE > Histoire des outils > Cydral
Cydral
samedi 23 avril 2005, par Ghislain Chasme
Cydral est un outil spécialisé dans la recherche d’images. Nous
avons demandé à Aldric Pierrain, son fondateur, de nous en parler...
Pouvez-vous nous présenter
Cydral ?
Localisée en région parisienne (78, Saint-Quentin-En-Yvelines),
la société Cydral développe des solutions informatiques
mettant en œuvre sa brique d’analyse d’images, VisionToPix
(VTP, « De la vision aux pixels »).
Cydral, dont la technologie est exclusivement française, adresse principalement
les trois segments de marché suivants : indexation et recherche d’images
fixes ou animées, modération du contenu (i.e. détection
d’images pornographiques) et reconnaissance de visages.
En 2004, Cydral débute la réalisation d’un
moteur de recherche Web, véritable vitrine technologique pour illustrer
sa capacité à gérer des volumes importants de données
visuelles, et développe des partenariats stratégiques avec des
méta-moteurs pour la fourniture d’une fonction avancée de
recherche d’images sur Internet. En septembre 2004, le site Cydral s’ouvre
au public.
Actuellement, la taille de l’index du moteur de recherche Cydral.com
s’élève à plus de 100 millions d’images et intègre
de nouvelles images régulièrement.
Au travers de ses différents partenariats, Cydral répond chaque
mois à plus d’un million de requêtes.
Qui est derrière la société
Cydral ?
En 2004, Cydral est rapidement devenu le leader de
la recherche visuelle sur Internet en France et s’inscrit résolument
en système de recherche complémentaire aux géants américains
du domaine.
L’ensemble de la technologie Cydral provient des travaux de recherche de son
fondateur, Aldric Pierrain, Ingénieur INSA de formation et spécialiste
du traitement de l’information visuelle.
Cydral est également un éditeur de logiciels et apporte sa compétence
au sein de nombreux projets au côté de grands groupes industriels.
Cydral est par défaut
un outil de recherche d’images ? Pourquoi ce choix ? Quels principes mettez-vous
en jeu pour indexer ces images et pour les proposer ?
Cydral est né de la constatation suivante : les moteurs
Internet du marché se montrent relativement efficaces pour la réalisation
de recherches textuelles mais montrent rapidement leur limite dans le domaine
de la recherche d’images. En effet, ils sous-exploitent totalement ces
données spécifiques en faisant l’impasse sur une caractéristique
capitale de l’image, à savoir son contenu visuel.
La société Cydral a donc conçu un système informatique
original, permettant l’indexation de plusieurs dizaines de millions d’images,
et autorisant leur recherche à la fois par le texte et par le contenu
visuel.
L’indexation est réalisée par le logiciel VisionToPix
et prend en compte plus de 200 paramètres extraits directement de l’aspect
visuel des images. Des éléments additionnels, relatifs au contexte
textuel d’apparition de la donnée visuelle, sont également pris
en compte pour permettre à l’utilisateur d’effectuer des recherches à
l’aide de mots clés.
Pour la recherche textelle, quels
sont les principes qui permettent à Cydral de déterminer la pertinence
d’une page ?
La recherche de pages Web est réalisée grâce
à notre propre technologie de type « meta-crawling » : pour
la présentation des résultats de recherche, nous procédons
à l’agrégation des informations provenant de plusieurs moteurs
de recherche, parmi les principaux utilisés par les Internautes (alltheweb.com,
dir.com, teoma.com et yahoo.com).
L’interface est en français,
mais quelles sont les langues reconnues ? Projettez-vous d’étendre la
recherche à d’autres langues ?
L’interface d’interrogation existe en français
et en anglais. Elle est automatiquement sélectionnée en fonction
de la langue par défaut utilisée par le navigateur Web employé
pour effectuer une recherche. Nous projettons d’étendre prochainement
les langues reconnues à l’allemand, l’espagnol et l’italien.
Cydral se propose d’optimiser
la recherche à l’aide de 2 méthodes : SpellChecker et
la lemmatisation. Pouvez-vous expliquer ?
SpellChecker et le mécanisme de lemmatisation
sont deux outils qui interviennent automatiquement lors de la recherche et ont
pour objet d’améliorer la pertinence des résultats affichés.
Cydral SpellChecker
:
SpellChecker est un processus qui intervient
automatiquement au moment où une requête est envoyée au
moteur Cydral ; les mots clés de la requête sont analysés
afin de déterminer les termes mal orthographiés. Lorsqu’un tel
mot est détecté, le moteur tente d’étendre la recherche
de l’utilisateur en incluant le terme automatiquement corrigé.
Lemmatisation
: afin de fournir les résultats les plus pertinents
possibles, le moteur Cydral procède à la lemmatisation des mots-clés
saisis. Si une recherche est effectuée en saisissant le mot-clé
"chevaux", Cydral recherchera toutes les images associées à
ce terme précis mais augmentera aussi automatiquement la portée
de la recherche aux images associées au mot-clé "cheval".
Comment se passe le référencement
? Est-il entièrement automatique, ou permettez-vous le référencement
spontané, ou payant ?
Le référencement des images s’effectue principalement
de façon automatique, via nos propres robots d’indexation qui ont été
conçus spécifiquement pour l’indexation d’images. Bien que tout
site Web puisse être en théorie indexé, toutes les images
présentes au sein des pages HTML ne sont pas retenues par les robots
Cydral.
Les données visuelles doivent, en effet, répondre
à des critères stricts. Par exemple, les images dont la taille
est inférieure à 100 pixels de côté, ou bien encore
celles ayant une forme de type « bannière publicitaire »,
ne seront pas indexées. L’information colorimétrique intervient
également : une image ne comportant qu’une seule couleur sera automatiquement
rejetée.
Ces mécanismes avancés font du moteur Cydral
un outil unique sur Internet car l’ensemble des systèmes de recherche
d’images concurrents indexent toutes les informations trouvées, sans
aucune considération de qualité. Le moteur Cydral n’ambitionne
pas de fournir des « résultats de masse » mais nous misons
davantage sur la pertinence et la qualité des informations retournées
lors d’une requête.
En outre, le référencement spontané est
possible en transmettant l’URL d’un site dans le titre ou le corps d’un message
électronique à l’adresse [email protected].
L’adresse du site est alors automatiquement ajoutée au pool des URL en
attente d’analyse. Le délai de traitement est variable et dépend
de priorités, définies manuellement par notre équipe, en
fonction de critères d’intérêt pour le moteur : un site
Internet permettant d’ajouter de très nombreuses images à notre
index aura une priorité beaucoup plus élevée par rapport
au site d’un particulier n’offrant que quelques pages Web.
Vous proposez par défaut
un filtre parental. Quelle est son utilité ? Comment fonctionne-t-il
?
Le filtre parental a été, avant tout, créé
pour la partie « Recherche d’images » du moteur Cydral.com,
même si celui-ci peut aussi être activé lors d’une recherche
de pages Web. Ce filtre a pour objet de bloquer l’affichage d’images, dont la
visualisation serait considérée comme inapproprée aux plus
jeunes. En clair, l’idée sous-jacente est d’éviter l’affichage
d’images à contenu pornographique.
A nouveau, cette fonction est unique en son genre, aucun autre
moteur Internet ne proposant un tel système et fait donc de Cydral un
moteur de recherche privilégié pour le particulier, bien sûr,
mais aussi pour une utilisation en milieu institutionnel (i.e. école,
université, centre de recherche documentaire, etc.).
Notre filtre parental ne repose pas exclusivement sur la détection
de certains mots clés. Nous exploitons, pour cela, l’un de nos outils
d’analyse d’images, Cydral ImageFilter, pour la détection d’éléments
pornographiques par classification visuelle. La barre d’outils Cydral Toolbar
et le produit ImageExplorer mettent aussi en œuvre l’élément
technologique ImageFilter pour le filtrage automatique des images à
caractère choquant.
Bien sûr, aucun filtre informatique ne peut être
efficace à 100% et la navigation sur Internet des enfants doit s’effectuer
sous la surveillance d’un adulte, mais il s’agit néanmoins d’un système
de filtrage de premier niveau efficace. Pour une protection améliorée,
nous recommandons vivement l’utilisation conjointement du filtre parental du
moteur de recherche Cydral.com (du moins, lors d’une recherche
d’images) et de la Cydral Toolbar.
Cydral propose 3 outils distincts
: Cydral Toolbar, Cydral ImageExplorer et Cydral-On-Disk ;
pouvez-vous nous les présenter ?
Les produits proposés par Cydral s’articulent
autour des deux métiers principaux de la société, à
savoir la recherche générale d’images par compréhension
automatique du contenu visuel et la classification automatique.
Tous ces produits reposent directement sur la brique technologique VisionToPix
mise au point par Cydral courant 2003. Le moteur VTP permet le calcul de la
signature d’une image par analyse de ses composantes fondamentales : la couleur,
la texture et les formes des objets qui la composent. A partir de ces signatures,
le moteur a la capacité de procéder à la recherche d’images
similaires pour une image connue (c’est à dire préalablement indexée
par l’outil) ou inconnue du système VTP.
Cydral Toolbar : cette barre d’outils vient
directement s’inclure dans le système des barres du navigateur Internet
Explorer et permet à l’utilisateur de paramétrer lui-même
son accès à Internet, en interdisant l’accès aux sites
à caractère pornographique. Lors de la navigation, la Cydral
Toolbar analyse et procède à la classification en temps réel
de contenu textuel et visuel des pages Web et permet ainsi d’empêcher
la consultation de sites Internet jugés par l’outil comme étant
inadaptés à la visualisation par les plus jeunes.
Cet outil est totalement gratuit et peut être utilisé en environnement
privé et professionnel.
cf. site Internet : http://fr.cydral.com/ctoolbar.html
Cydral ImageExplore : ce
logiciel vient compléter l’action de la Cydral Toolbar et s’inscrit
dans le cadre des « Anti-Pornwares », c’est-à-dire des outils
permettant l’analyse des disques durs à la recherche d’images pornographiques.
ImageExplorer a été spécialement conçu
pour la gestion de disques de très grande capacité et est, par
exemple, un logiciel indispensable à l’Administrateur Système
qui souhaite mieux contrôler l’usage de son réseau informatique.
Le produit est vendu en ligne, à partir de notre site, au prix de 29,00€.
cf. site Internet : http://fr.cydral.com/imgexplorer.html
Cydral-On-Disk Personal Edition : CoD est
un logiciel principalement destiné aux professionels et particuliers
disposant d’une base de données d’images importante et confrontés
aux problématiques récurrentes suivantes : détection des
images dupliquées, recherche d’images similaires, gestion et valorisation
des corpus visuels. Ce produit permet d’effectuer des recherches par similarité
visuelle, mais aussi en utilisant les éventuelles informations textuelles
rattachées aux images (données IPTC) ou encore en combinant les
informations textuelles et visuelles. L’outil dispose d’un module d’apprentissage
automatique de concepts utilisateur, de façon à affiner progressivement
la pertinence des résultats affichés, en essayant de privilégier
les dominantes visuelles recherchées.
CoD est vendu en ligne, à partir de notre site, au prix de 25,00€.
cf. site Internet : http://fr.cydral.com/cydralondisk.html
Cydral est avant tout un fournisseur de technologie et réalise
ainsi des produits spécifiques, mettant en œuvre sa technologie
de recherche visuelle. Le produit CoD est avant tout un outil de prospection
et de démonstration de ce que peut apporter la solution Cydral dans le
domaine de la recherche documentaire.
Cydral développe aussi un système pour l’identification de visages
mais ne fournit pas de démonstration grand-public pour cette partie de
son activité.
La barre d’outil est-elle utilisable
avec tout navigateur ? est-elle compatible avec d’autres barres (Yahoo !, Google...?)
La barre d’outils Cydral est parfaitement
compatible avec l’ensemble des barres actuellement disponibles et fonctionne
pour tout navigateur Microsoft Internet Explorer à partir de la version
5.0 sous Windows XP/XP Pro, 2000/2003 et NT. Nous projetons d’étendre
l’utilisation de notre barre d’outils au navigateur Firefox prochainement.
Quelles évolutions souhaiteriez-vous
pour ce type d’outil ? Pensez-vous par exemple à l’indexation de la vidéo
? Avec quelles échéances ?
Oui, de nombreuses évolutions pour
l’ensemble de nos produits sont planifiées pour les prochains mois.
Par exemple, des options supplémentaires seront implémentées
au niveau de la Cydral Toolbar afin de renforcer le système
de filtrage.
Des ajustements de l’algorithme de classement (ranking) du moteur Cydral.com
seront également réalisés prochainement.
Et bien entendu, nous nous intéressons à l’indexation de la vidéo
dont les techniques d’ailleurs se rapprochent de celles utilisées pour
l’indexation des images fixes. Mais le marché ne nous semble pas actuellement
très porteur. En effet, les sites diffusant des vidéos sont encore
peu nombreux ou alors focalisés sur une thématique donnée.
http://www.cydral.com
[email protected]