Cydral - Doc pour docs
Transcription
Cydral - Doc pour docs
Doc pour docs > Les TICE > Histoire des outils > Cydral Cydral samedi 23 avril 2005, par Ghislain Chasme Cydral est un outil spécialisé dans la recherche d’images. Nous avons demandé à Aldric Pierrain, son fondateur, de nous en parler... Pouvez-vous nous présenter Cydral ? Localisée en région parisienne (78, Saint-Quentin-En-Yvelines), la société Cydral développe des solutions informatiques mettant en œuvre sa brique d’analyse d’images, VisionToPix (VTP, « De la vision aux pixels »). Cydral, dont la technologie est exclusivement française, adresse principalement les trois segments de marché suivants : indexation et recherche d’images fixes ou animées, modération du contenu (i.e. détection d’images pornographiques) et reconnaissance de visages. En 2004, Cydral débute la réalisation d’un moteur de recherche Web, véritable vitrine technologique pour illustrer sa capacité à gérer des volumes importants de données visuelles, et développe des partenariats stratégiques avec des méta-moteurs pour la fourniture d’une fonction avancée de recherche d’images sur Internet. En septembre 2004, le site Cydral s’ouvre au public. Actuellement, la taille de l’index du moteur de recherche Cydral.com s’élève à plus de 100 millions d’images et intègre de nouvelles images régulièrement. Au travers de ses différents partenariats, Cydral répond chaque mois à plus d’un million de requêtes. Qui est derrière la société Cydral ? En 2004, Cydral est rapidement devenu le leader de la recherche visuelle sur Internet en France et s’inscrit résolument en système de recherche complémentaire aux géants américains du domaine. L’ensemble de la technologie Cydral provient des travaux de recherche de son fondateur, Aldric Pierrain, Ingénieur INSA de formation et spécialiste du traitement de l’information visuelle. Cydral est également un éditeur de logiciels et apporte sa compétence au sein de nombreux projets au côté de grands groupes industriels. Cydral est par défaut un outil de recherche d’images ? Pourquoi ce choix ? Quels principes mettez-vous en jeu pour indexer ces images et pour les proposer ? Cydral est né de la constatation suivante : les moteurs Internet du marché se montrent relativement efficaces pour la réalisation de recherches textuelles mais montrent rapidement leur limite dans le domaine de la recherche d’images. En effet, ils sous-exploitent totalement ces données spécifiques en faisant l’impasse sur une caractéristique capitale de l’image, à savoir son contenu visuel. La société Cydral a donc conçu un système informatique original, permettant l’indexation de plusieurs dizaines de millions d’images, et autorisant leur recherche à la fois par le texte et par le contenu visuel. L’indexation est réalisée par le logiciel VisionToPix et prend en compte plus de 200 paramètres extraits directement de l’aspect visuel des images. Des éléments additionnels, relatifs au contexte textuel d’apparition de la donnée visuelle, sont également pris en compte pour permettre à l’utilisateur d’effectuer des recherches à l’aide de mots clés. Pour la recherche textelle, quels sont les principes qui permettent à Cydral de déterminer la pertinence d’une page ? La recherche de pages Web est réalisée grâce à notre propre technologie de type « meta-crawling » : pour la présentation des résultats de recherche, nous procédons à l’agrégation des informations provenant de plusieurs moteurs de recherche, parmi les principaux utilisés par les Internautes (alltheweb.com, dir.com, teoma.com et yahoo.com). L’interface est en français, mais quelles sont les langues reconnues ? Projettez-vous d’étendre la recherche à d’autres langues ? L’interface d’interrogation existe en français et en anglais. Elle est automatiquement sélectionnée en fonction de la langue par défaut utilisée par le navigateur Web employé pour effectuer une recherche. Nous projettons d’étendre prochainement les langues reconnues à l’allemand, l’espagnol et l’italien. Cydral se propose d’optimiser la recherche à l’aide de 2 méthodes : SpellChecker et la lemmatisation. Pouvez-vous expliquer ? SpellChecker et le mécanisme de lemmatisation sont deux outils qui interviennent automatiquement lors de la recherche et ont pour objet d’améliorer la pertinence des résultats affichés. Cydral SpellChecker : SpellChecker est un processus qui intervient automatiquement au moment où une requête est envoyée au moteur Cydral ; les mots clés de la requête sont analysés afin de déterminer les termes mal orthographiés. Lorsqu’un tel mot est détecté, le moteur tente d’étendre la recherche de l’utilisateur en incluant le terme automatiquement corrigé. Lemmatisation : afin de fournir les résultats les plus pertinents possibles, le moteur Cydral procède à la lemmatisation des mots-clés saisis. Si une recherche est effectuée en saisissant le mot-clé "chevaux", Cydral recherchera toutes les images associées à ce terme précis mais augmentera aussi automatiquement la portée de la recherche aux images associées au mot-clé "cheval". Comment se passe le référencement ? Est-il entièrement automatique, ou permettez-vous le référencement spontané, ou payant ? Le référencement des images s’effectue principalement de façon automatique, via nos propres robots d’indexation qui ont été conçus spécifiquement pour l’indexation d’images. Bien que tout site Web puisse être en théorie indexé, toutes les images présentes au sein des pages HTML ne sont pas retenues par les robots Cydral. Les données visuelles doivent, en effet, répondre à des critères stricts. Par exemple, les images dont la taille est inférieure à 100 pixels de côté, ou bien encore celles ayant une forme de type « bannière publicitaire », ne seront pas indexées. L’information colorimétrique intervient également : une image ne comportant qu’une seule couleur sera automatiquement rejetée. Ces mécanismes avancés font du moteur Cydral un outil unique sur Internet car l’ensemble des systèmes de recherche d’images concurrents indexent toutes les informations trouvées, sans aucune considération de qualité. Le moteur Cydral n’ambitionne pas de fournir des « résultats de masse » mais nous misons davantage sur la pertinence et la qualité des informations retournées lors d’une requête. En outre, le référencement spontané est possible en transmettant l’URL d’un site dans le titre ou le corps d’un message électronique à l’adresse [email protected]. L’adresse du site est alors automatiquement ajoutée au pool des URL en attente d’analyse. Le délai de traitement est variable et dépend de priorités, définies manuellement par notre équipe, en fonction de critères d’intérêt pour le moteur : un site Internet permettant d’ajouter de très nombreuses images à notre index aura une priorité beaucoup plus élevée par rapport au site d’un particulier n’offrant que quelques pages Web. Vous proposez par défaut un filtre parental. Quelle est son utilité ? Comment fonctionne-t-il ? Le filtre parental a été, avant tout, créé pour la partie « Recherche d’images » du moteur Cydral.com, même si celui-ci peut aussi être activé lors d’une recherche de pages Web. Ce filtre a pour objet de bloquer l’affichage d’images, dont la visualisation serait considérée comme inapproprée aux plus jeunes. En clair, l’idée sous-jacente est d’éviter l’affichage d’images à contenu pornographique. A nouveau, cette fonction est unique en son genre, aucun autre moteur Internet ne proposant un tel système et fait donc de Cydral un moteur de recherche privilégié pour le particulier, bien sûr, mais aussi pour une utilisation en milieu institutionnel (i.e. école, université, centre de recherche documentaire, etc.). Notre filtre parental ne repose pas exclusivement sur la détection de certains mots clés. Nous exploitons, pour cela, l’un de nos outils d’analyse d’images, Cydral ImageFilter, pour la détection d’éléments pornographiques par classification visuelle. La barre d’outils Cydral Toolbar et le produit ImageExplorer mettent aussi en œuvre l’élément technologique ImageFilter pour le filtrage automatique des images à caractère choquant. Bien sûr, aucun filtre informatique ne peut être efficace à 100% et la navigation sur Internet des enfants doit s’effectuer sous la surveillance d’un adulte, mais il s’agit néanmoins d’un système de filtrage de premier niveau efficace. Pour une protection améliorée, nous recommandons vivement l’utilisation conjointement du filtre parental du moteur de recherche Cydral.com (du moins, lors d’une recherche d’images) et de la Cydral Toolbar. Cydral propose 3 outils distincts : Cydral Toolbar, Cydral ImageExplorer et Cydral-On-Disk ; pouvez-vous nous les présenter ? Les produits proposés par Cydral s’articulent autour des deux métiers principaux de la société, à savoir la recherche générale d’images par compréhension automatique du contenu visuel et la classification automatique. Tous ces produits reposent directement sur la brique technologique VisionToPix mise au point par Cydral courant 2003. Le moteur VTP permet le calcul de la signature d’une image par analyse de ses composantes fondamentales : la couleur, la texture et les formes des objets qui la composent. A partir de ces signatures, le moteur a la capacité de procéder à la recherche d’images similaires pour une image connue (c’est à dire préalablement indexée par l’outil) ou inconnue du système VTP. Cydral Toolbar : cette barre d’outils vient directement s’inclure dans le système des barres du navigateur Internet Explorer et permet à l’utilisateur de paramétrer lui-même son accès à Internet, en interdisant l’accès aux sites à caractère pornographique. Lors de la navigation, la Cydral Toolbar analyse et procède à la classification en temps réel de contenu textuel et visuel des pages Web et permet ainsi d’empêcher la consultation de sites Internet jugés par l’outil comme étant inadaptés à la visualisation par les plus jeunes. Cet outil est totalement gratuit et peut être utilisé en environnement privé et professionnel. cf. site Internet : http://fr.cydral.com/ctoolbar.html Cydral ImageExplore : ce logiciel vient compléter l’action de la Cydral Toolbar et s’inscrit dans le cadre des « Anti-Pornwares », c’est-à-dire des outils permettant l’analyse des disques durs à la recherche d’images pornographiques. ImageExplorer a été spécialement conçu pour la gestion de disques de très grande capacité et est, par exemple, un logiciel indispensable à l’Administrateur Système qui souhaite mieux contrôler l’usage de son réseau informatique. Le produit est vendu en ligne, à partir de notre site, au prix de 29,00€. cf. site Internet : http://fr.cydral.com/imgexplorer.html Cydral-On-Disk Personal Edition : CoD est un logiciel principalement destiné aux professionels et particuliers disposant d’une base de données d’images importante et confrontés aux problématiques récurrentes suivantes : détection des images dupliquées, recherche d’images similaires, gestion et valorisation des corpus visuels. Ce produit permet d’effectuer des recherches par similarité visuelle, mais aussi en utilisant les éventuelles informations textuelles rattachées aux images (données IPTC) ou encore en combinant les informations textuelles et visuelles. L’outil dispose d’un module d’apprentissage automatique de concepts utilisateur, de façon à affiner progressivement la pertinence des résultats affichés, en essayant de privilégier les dominantes visuelles recherchées. CoD est vendu en ligne, à partir de notre site, au prix de 25,00€. cf. site Internet : http://fr.cydral.com/cydralondisk.html Cydral est avant tout un fournisseur de technologie et réalise ainsi des produits spécifiques, mettant en œuvre sa technologie de recherche visuelle. Le produit CoD est avant tout un outil de prospection et de démonstration de ce que peut apporter la solution Cydral dans le domaine de la recherche documentaire. Cydral développe aussi un système pour l’identification de visages mais ne fournit pas de démonstration grand-public pour cette partie de son activité. La barre d’outil est-elle utilisable avec tout navigateur ? est-elle compatible avec d’autres barres (Yahoo !, Google...?) La barre d’outils Cydral est parfaitement compatible avec l’ensemble des barres actuellement disponibles et fonctionne pour tout navigateur Microsoft Internet Explorer à partir de la version 5.0 sous Windows XP/XP Pro, 2000/2003 et NT. Nous projetons d’étendre l’utilisation de notre barre d’outils au navigateur Firefox prochainement. Quelles évolutions souhaiteriez-vous pour ce type d’outil ? Pensez-vous par exemple à l’indexation de la vidéo ? Avec quelles échéances ? Oui, de nombreuses évolutions pour l’ensemble de nos produits sont planifiées pour les prochains mois. Par exemple, des options supplémentaires seront implémentées au niveau de la Cydral Toolbar afin de renforcer le système de filtrage. Des ajustements de l’algorithme de classement (ranking) du moteur Cydral.com seront également réalisés prochainement. Et bien entendu, nous nous intéressons à l’indexation de la vidéo dont les techniques d’ailleurs se rapprochent de celles utilisées pour l’indexation des images fixes. Mais le marché ne nous semble pas actuellement très porteur. En effet, les sites diffusant des vidéos sont encore peu nombreux ou alors focalisés sur une thématique donnée. http://www.cydral.com [email protected]