la recherche d`informations sur le web
Transcription
la recherche d`informations sur le web
Présentation : Algo-Web /braik- 28 janv. 2003 Sujet : LA RECHERCHE D'INFORMATIONS SUR LE WEB Sources : 1. PROBLÉMATIQUES DE LA RECHERCHE D'INFORMATION SUR LE WEB LARDY Jean-Pierre : Maître de conférences en 71ème section à l'Université LYON I 2. Algorithmes de recherche d’information dans un réseaux avec menteurs : Nicolas Hanusse : CNRS-LaBRI, Université Bordeaux I, 3. Recherche d’information et veille sur Internet LEGAIT Benoît : Directeur : Ecole des mines de Paris : 4. WWW Introduction : Les métadonnées Le web ne dispose pas de normes facilitant et homogénéisant l'indexation automatique des pages HTML. D’où la necessité de penser à introduire : Les métadonnées Ce sont des rubriques standardisées qui décrivent le contenu de chaque document. HTML a validé les balises META suivantes : <META NAME="Author" CONTENT= " "> <META NAME="Keywords" CONTENT= " "> <META NAME="Description" CONTENT= " "> Malheureusement : près de 50% des sites ne renseignent pas les balises META. L’altérnative : serait la norme XML, qui différencie contenu et forme Les robots d'exploration du Web 1/3 Ces logiciels s'appellent : robot, wanderer, crawler, spider ou worm. Chaque robot a sa méthode (gardée jalousement secréte, d’où la difficulté de trouver de la documentation sur leur algorithmes) : Une fois une liste de liens de départ constituée, le robot visite recursivement ces liens, et indexe les documents trouvés. Certains robots se contentent d'indexer les titres HTML des pages, ou les premiers paragraphes. Actuellement la plupart indexent le texte complet (103 ko/page pour google) en extrayant l'ensemble des mots, parfois eliminant les mots vides. On notera que la plupart des robots ne s'intéressent qu'aux pages HTML et ignorent tous les autres formats de fichiers utilisés. Seul Google indexe les fichiers PDF et depuis peu les formats bureautiques de Microsoft. Beaucoup plus grave, ils sont incapables d'explorer les bases de données utilisées de plus en plus souvent pour stocker l'information des gros sites web, le fameux web invisible. Les robots d'exploration du Web 2/3 Les sites qui ne veulent pas être (visités ) indéxés dans certains repertoires, on doit rajouter le fichier robots.txt sur la racine du serveur web. User-agent: webcrawler Disallow: / # Le robot WebCrawler est exclu # entièrement. User-agent: scooter User-agent: excite Disallow: # Les robots scooter et excite ont # un accès complet User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/private.html # Tous les autres robots on accès à tout # sauf aux répertoires cgi-bin, tmp et # à la page /~joe/private.html. Attention : Cette pratique peux etre dangereuse sur le plan de la securité du site, car elle dévoile des réprtoires qui peuvent être sensibles. Les robots d'exploration du Web 3/3 Une autre méthode employée consiste à ajouter une méta-balise en début de page avec la syntaxe suivante : <META NAME="ROBOTS" CONTENT="NOINDEX"> Et qui demande au robot de ne pas indexer la page courante. De tels sites ont une diffusion plus confidentielle et sont réservés à ceux qui connaissent simplement l’adresse du site (ces adresses se trouvent souvent sur les forums et les listes de diffusion), consituant ainsi le web invisible. Le web Invisible 1/4 Le web invisible est l'ensemble des documents (textes, vidéos, images...) du web qui n'est pas indexé par les moteurs de recherche traditionnels. Ainsi les documents constituant le Web invisible peuvent être dynamiques (non localisables), non référencés (volontairement ou non), ou de nature non indexable (ex. les animations Flash ). Le référencement est l'enregistrement de pages HTML dans les moteurs de recherche, et de sites web dans les annuaires, afin de les faire connaître aux internautes, d'en accroître la visibilité, et d'en augmenter ainsi le nombre de visiteurs. On trouve ainsi : Les annuaires généralistes grand public Les annuaires spécialisés Les moteurs de recherche Quelques exemples : Sites protégés par mots de passe et Intranet. Problème des cadres (Pages avec des frames). Le web Invisible 2/4 Formats de fichiers autres que HTML (A l’exception de goole qui indexe : pdf,doc,ps). Pages interdites de référencement en utilisant un fichier robots.txt Pages HTML dynamiques. Pages tronquée. Les robots stoppent quand ils rencontrent une URL contenant un point dinterrogation. L'absence de liens hypertextes aété mise enévidence par létude dIBM connue sous le nom de la théorie du noeud papillon dIBM. Le web Invisible 3/4 Schéma établit sur la base de la Figure "Distribution des sites Du web invisible ou Deep Web par types de contenu" de l'étude Bright Planet. Le web Invisible 4/4 On estime la taille du web invisible « Deep Web » à 500 fois la taille du web accessible Par les moteurs de recherches Traditionnels (rep. Par le bateau en surface ). Les pages dynamiques Définition : Le développement énorme du web à partir de 1995 a montré les limites de la technologie des pages statiques prévue à l'origine pour le milieu restreint des physiciens, d’où l'idée de gérer l'information non pas dans des fichiers texte mais au moyen d'une base de données s'est imposée depuis quelques années. L'information est diffusée alors à la demande, suite à l'interrogation de la base de données par l'intermédiaire d'un formulaire. Exemples des techniques utilisées : CGI ; langage ASP ; langage PHP ; langage JSP ; CFM; Il existe aussi des solutions de gestion de portail pour les très gros sites gérant de l'information très dynamique Vignette Enterprise Application Portal. Le référencement des pages dynamiques Problème ! Pour les moteurs de recherches : une page dynamique n'a pas de contenu tant que l'utilisateur n'a pas indiqué ce qu'il cherchait grâce au formulaire ! Solution ! 1- soit on créé des pages satellites statiques: solution simple mais fastidieuse . 2- soit la technologie des moteurs de recherche se perfectionne: Lexibot (de Bright Planet ): suit les liens, et est capable de lancer des requetes afin de cerner la taille et le contenu de la base . Strategic Finder (de Digimind ) : Il donne la possibilité de créer des pluggins capable d'interroger des bases de données. La gestion de l'information diffusée sur le web par l'intermédiaire de bases de données est de plus en plus fréquente. Si c'est une solution plus efficace en terme de production, elle a l'inconvénient d'être peu ou pas visible par les moteurs de recherche et constitue de ce fait une partie du web invisible. La taille des principaux outils de recherche 1/3 La taille des bases de données des outils de recherche, sans être une caractéristique essentielle, a son importance. Ce tableau represente le nombre de pages indexées par differents moteurs de recherche. http://www.searchengineshowdown.com) Data from:Dec. 31, 2002 La taille des principaux outils de recherche 2/3 Le graphique suivant montre le classement des moteurs de recherche basé sur le nombre de réponses à une série de questions simples : This analysis used 25 small single word queries. La taille des principaux outils de recherche 3/3 D'autre part de nombreux tests ont montré que les bases des outils de recherche se recouvraient peu comme le montre le graphique ci-dessous : Searches Used: 4 small ones Total Hits:334 Specific Pages:141 C'est un argument de plus pour ne pas hésiter à utiliser plusieurs outils pour une même recherche: Metas-Crawlers Les principes d'interrogation 1/2 Une syntaxe (presque) commune : Les opérateurs de proximité: Dès que l'on recherche dans des documents en texte intégral, l'opérateur ET est insuffisant. Les opérateurs de proximité ou d'adjacence permettent de préciser la position de deux termes l'un par rapport à l'autre. On trouve les opérateurs suivants : Les principes d'interrogation 2/2 La troncature : peux-être parfois utile ! •Attention aux différences ! *)D'un outil de recherche à l'autre existent des différences de traitement : *)Les mots vides peuvent être filtrés ou non ; *) l'opérateur implicite est soit le ET soit le OU ; *) L'ordre des mots de la question peut avoir une importance dans le tri des résultats ; *) La troncature peut être implicite, explicite ou absente ; *) Les majuscules et les minuscules peuvent être différenciées ou non ; les lettres accentuées sont souvent mal gérées sur les outils anglo-saxons. Les méthodes de classement des résultats de recherche Les moteurs de recherche ont développé des méthodes de tri automatique des résultats: 1- Le tri par pertinence : 2- Le tri par popularité: 2.1- LA METHODE BASEE SUR LA CO-CITATION 2.2- LA METHODE BASEE SUR LA MESURE D'AUDIENCE 3- Le tri par calcul dynamique de catégories (clustering ) Remarque : Recherche d’information et veille sur Internet Agents intelligents 1/3. Definition : Un agent intelligent est ainsi un système informatique intégré à un environnement complexe et dynamique. Il analyse et agit en fonction de l'environnement et des objectifs à atteindre. Il modifie son comportement en fonction de l'environnement, et il est capable d'anticiper, autrement dit il est proactif. Sur l’Internet, les agents intelligents sont des logiciels paramétrables sur un ordinateur et dont la rapidité dépend, entre autres, de ce dernier. Le paramétrage s’effectue sur les mots clés des requêtes, le nombre de sources d’informations consultées, la profondeur des liens, la présentation des résultats, le nombre de résultats sauvegardés, la conservation des liens. Recherche d’information et veille sur Internet Agents intelligents 2 /3. Le fonctionnement des agents suit ce processus: 1. Paramétrage des mots clés et des expressions de recherche par l’utilisateur, 2. Choix des sources consultées (Moteur, sites, bases, …), 3. Lancement des recherches sur l’Internet, 4. Sauvegarde des liens, 5. Sélection manuelle ou automatique des liens, 6. Téléchargement automatique des documents, 7. Elimination des documents en doubles provenant de sources différentes, 8. Vérification de l’intégrité des documents : Comparaison des mots clés avec le contenu des documents et filtrage (inclusion et exclusion), 9. Tri et présentation des résultats (par mots clés, par expression, par adresse, par sources, …). Recherche d’information et veille sur Internet Agents intelligents 3/3. Typologie et classification : 1 Les agents mobiles (Mobil Agent, Pull Technology, Offline Searching). : Fonctions principales : Rechercher sur plusieurs sources web les réponses à un profil, Rapatrier toutes les pages trouvées, Classer et gérer les informations, Créer des bases de données thématiques, Créer des résumés à la " volée ", Organiser les résultats par thèmes. Exemple d’algorithme : Algorithmes de recherche d’information dans un reseaux avec menteurs 1/3 L’agent mobile se deplaçe de noeud en noeud dans le reseau. Son objectif est de localiser une information spécifique (appelée cible) qui réside dans un certain noeud Deux techniques sont possibles, soit le parcours est : *) purement déterministe (parcours en profondeur ou recherche en largeur) *) probabiliste (marches aléatoires). L’efficacité de l’algorithme de recherche depends : - Temps nécessaire pour trouver l’information. Et/ou - Quantité de mémoirerequise. Dans l’ exemple suivant , l’efficacité d’un algorithme de recherche pour lequel le conseil donné par chaque noeud est un lien appartenant à un plus court chemin pour aller à la cible. L’agent en prend connaissance quand il arrive à un nœud, mais lors du déplacement de l’agent certains peuvent mentir (indiquent une mauvaise direction. ). Exemple d’algorithme : Algorithmes de recherche d’information dans un reseaux avec menteurs 2/3 Cette Algorithme nomé CHERCHE est sans mémoire (ne memorise pas le chemin parcouru). Principe de l’algorithme : 1. L’agent arrive à un noeud du degré d. S’il découvre la cible, il s’arrête. Sinon, il interroge le noeud; 2. Le noeud répond en indiquant une de ses arêtes incidentes; 3. L’agent fait alors un tirage aléatoire biaisé: avec la probabilité q il suit le conseil. S’ il décide de ne pas suivre le conseil (unévénement de probabilité 1-q ), il fait un autre tirage et choisit uniformément au hasard une autre arête parmi les d-1 arêtes incidentes restantes; 4. Il se déplace alors jusqu’au noeud adjacent de l’arête choisit; 5. Les étapes ci-dessus sont répétées au nouveau noeud. Exemple d’algorithme : Algorithmes de recherche d’information dans un reseaux avec menteurs 3/3 L’idée de l’algorithme : L’agent s’attend, en règle générale, à ce que le conseil soit correct (les nœuds sont fiables). Par conséquent la probabilité q sera considérée supèrieure à 1/2. Cependant, En permettant à l’agent de ne pas faire confiance au conseil avec une certaine probabilité positive, nous pourrions sortir de situations « Dead –lock » (deux nœuds qui se renvoient mutuellement). CONCLUSIONS La tendance de la recherche actuelle s’oriente plutôt vers les agents mobiles, qui est en soit un domaine pleins d’espoires, mais cela n’empêche en rien le develloppemnt des moteurs de recherches traditionnels D’une facon generale les methodes de recherches de l'information sur Internet evoluent tellement vite ce que impose de rester constament à l'écoute : une veille est indispensable.