la recherche d`informations sur le web

Transcription

Présentation : Algo-Web
/braik- 28 janv. 2003
Sujet :
LA RECHERCHE
D'INFORMATIONS SUR LE WEB
Sources :
1. PROBLÉMATIQUES DE LA RECHERCHE D'INFORMATION SUR LE
WEB
LARDY Jean-Pierre : Maître de conférences en 71ème section à l'Université
LYON I
2. Algorithmes de recherche d’information dans un réseaux avec
menteurs :
Nicolas Hanusse : CNRS-LaBRI, Université Bordeaux I,
3. Recherche d’information et veille sur Internet
LEGAIT Benoît : Directeur : Ecole des mines de Paris :
4. WWW
Introduction : Les métadonnées
Le web ne dispose pas de normes facilitant et homogénéisant l'indexation
automatique des pages HTML.
D’où la necessité de penser à introduire : Les métadonnées
Ce sont des rubriques standardisées qui décrivent le contenu de chaque
document. HTML a validé les balises META suivantes :
<META NAME="Author" CONTENT= " ">
<META NAME="Keywords" CONTENT= " ">
<META NAME="Description" CONTENT= " ">
Malheureusement :
près de 50% des sites ne renseignent pas les
balises META.
L’altérnative : serait la norme XML, qui différencie contenu et forme
Les robots d'exploration du Web 1/3
Ces logiciels s'appellent : robot, wanderer, crawler, spider ou worm.
Chaque robot a sa méthode (gardée jalousement secréte, d’où la difficulté
de trouver de la documentation sur leur algorithmes) :
Une fois une liste de liens de départ constituée, le robot visite recursivement
ces liens, et indexe les documents trouvés. Certains robots se contentent
d'indexer les titres HTML des pages, ou les premiers paragraphes.
Actuellement la plupart indexent le texte complet (103 ko/page pour
google) en extrayant l'ensemble des mots, parfois eliminant les mots vides.
On notera que la plupart des robots ne s'intéressent qu'aux pages HTML et
ignorent tous les autres formats de fichiers utilisés. Seul Google indexe les
fichiers PDF et depuis peu les formats bureautiques de Microsoft. Beaucoup
plus grave, ils sont incapables d'explorer les bases de données utilisées de
plus en plus souvent pour stocker l'information des gros sites web, le
fameux web invisible.
Les sites qui ne veulent pas être (visités ) indéxés dans certains repertoires,
on doit rajouter le fichier robots.txt sur la racine du serveur web.
User-agent: webcrawler
Disallow: /
# Le robot WebCrawler est exclu
# entièrement.
User-agent: scooter
User-agent: excite
Disallow:
# Les robots scooter et excite ont
# un accès complet
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/private.html
# Tous les autres robots on accès à tout
# sauf aux répertoires cgi-bin, tmp et
# à la page /~joe/private.html.
Attention : Cette pratique peux etre dangereuse sur le plan de la securité du
site, car elle dévoile des réprtoires qui peuvent être sensibles.
Une autre méthode employée consiste à ajouter une méta-balise en début
de page avec la syntaxe suivante :
<META NAME="ROBOTS" CONTENT="NOINDEX">
Et qui demande au robot de ne pas indexer la page courante.
De tels sites ont une diffusion plus confidentielle et sont réservés à ceux qui
connaissent simplement l’adresse du site (ces adresses se trouvent souvent
sur les forums et les listes de diffusion), consituant ainsi le web invisible.
Le web Invisible 1/4
Le web invisible est l'ensemble des documents (textes, vidéos, images...)
du web qui n'est pas indexé par les moteurs de recherche traditionnels.
Ainsi les documents constituant le Web invisible peuvent être dynamiques
(non localisables), non référencés (volontairement ou non), ou de nature
non indexable (ex. les animations Flash ).
Le référencement est l'enregistrement de pages HTML dans les moteurs de
recherche, et de sites web dans les annuaires, afin de les faire connaître aux
internautes, d'en accroître la visibilité, et d'en augmenter ainsi le nombre de
visiteurs.
On trouve ainsi :
Les annuaires généralistes grand public
Les annuaires spécialisés
Les moteurs de recherche
Quelques exemples :
Sites protégés par mots de passe et Intranet.
Problème des cadres (Pages avec des frames).
Formats de fichiers autres que HTML (A l’exception de goole qui indexe :
pdf,doc,ps).
Pages interdites de référencement en utilisant un fichier robots.txt
Pages HTML dynamiques.
Pages tronquée.
Les robots stoppent quand ils rencontrent une URL contenant un point
dinterrogation. L'absence de liens hypertextes aété mise enévidence par létude
dIBM connue sous le nom de la théorie du noeud papillon dIBM.
Schéma établit sur la base de la
Figure "Distribution des sites
Du web invisible ou Deep Web
par types de contenu"
de l'étude Bright Planet.
On estime la taille du
web invisible « Deep Web » à
500 fois la taille du web accessible
Par les moteurs de recherches
Traditionnels
(rep. Par le bateau en surface ).
Les pages dynamiques
Définition : Le développement énorme du web à partir de 1995 a montré les
limites de la technologie des pages statiques prévue à l'origine pour le
milieu restreint des physiciens, d’où l'idée de gérer l'information non pas
dans des fichiers texte mais au moyen d'une base de données s'est imposée
depuis quelques années. L'information est diffusée alors à la demande, suite
à l'interrogation de la base de données par l'intermédiaire d'un formulaire.
Exemples des techniques utilisées :
CGI ;
langage ASP ;
langage PHP ;
langage JSP ;
CFM;
Il existe aussi des solutions de gestion de portail pour les très gros
sites gérant de l'information très dynamique Vignette Enterprise
Application Portal.
Le référencement des pages dynamiques
Problème !
Pour les moteurs de recherches : une page dynamique n'a pas de contenu
tant que l'utilisateur n'a pas indiqué ce qu'il cherchait grâce au formulaire !
Solution !
1- soit on créé des pages satellites statiques: solution simple mais
fastidieuse .
2- soit la technologie des moteurs de recherche se perfectionne:
Lexibot (de Bright Planet ): suit les liens, et est capable de lancer des
requetes afin de cerner la taille et le contenu de la base .
Strategic Finder (de Digimind ) : Il donne la possibilité de créer des pluggins
capable d'interroger des bases de données.
La gestion de l'information diffusée sur le web par l'intermédiaire de bases
de données est de plus en plus fréquente. Si c'est une solution plus efficace
en terme de production, elle a l'inconvénient d'être peu ou pas visible par
les moteurs de recherche et constitue de ce fait une partie du web invisible.
La taille des principaux outils de recherche
1/3
La taille des bases de données des outils de recherche, sans être une
caractéristique essentielle, a son importance.
Ce tableau represente le nombre de pages indexées par differents moteurs
de recherche.
http://www.searchengineshowdown.com)
Data from:Dec. 31, 2002
2/3
Le graphique suivant montre le classement des moteurs de
recherche basé sur le nombre de réponses à une série de questions
simples :
This analysis used
25 small single word
queries.
3/3
D'autre part de nombreux tests ont montré que les bases des outils de
recherche se
recouvraient peu comme le montre le graphique ci-dessous :
Searches Used: 4 small ones
Total Hits:334
Specific Pages:141
C'est un argument de plus pour
ne pas hésiter à utiliser plusieurs
outils pour une même recherche:
Metas-Crawlers
Les principes d'interrogation 1/2
Une syntaxe (presque)
commune :
Les opérateurs de proximité:
Dès que l'on recherche dans
des documents en texte intégral,
l'opérateur ET est insuffisant.
Les opérateurs de proximité
ou d'adjacence permettent de
préciser la position de deux
termes l'un par rapport à
l'autre. On trouve les
opérateurs suivants :
Les principes d'interrogation 2/2
La troncature : peux-être parfois utile !
•Attention aux différences !
*)D'un outil de recherche à l'autre existent des différences de traitement :
*)Les mots vides peuvent être filtrés ou non ;
*) l'opérateur implicite est soit le ET soit le OU ;
*) L'ordre des mots de la question peut avoir une importance dans le tri des
résultats ;
*) La troncature peut être implicite, explicite ou absente ;
*) Les majuscules et les minuscules peuvent être différenciées ou non ;
les lettres accentuées sont souvent mal gérées sur les outils anglo-saxons.
Les méthodes de classement des résultats
de recherche
Les moteurs de recherche ont développé des méthodes de tri
automatique des résultats:
1- Le tri par pertinence :
2- Le tri par popularité:
2.1- LA METHODE BASEE SUR LA CO-CITATION
2.2- LA METHODE BASEE SUR LA MESURE D'AUDIENCE
3- Le tri par calcul dynamique de catégories (clustering )
Remarque :
Recherche d’information et veille sur
Internet
Agents intelligents 1/3.
Definition :
Un agent intelligent est ainsi un système informatique intégré à un environnement
complexe et dynamique. Il analyse et agit en fonction de l'environnement et des
objectifs à atteindre. Il modifie son comportement en fonction de l'environnement,
et il est capable d'anticiper, autrement dit il est proactif.
Sur l’Internet, les agents intelligents sont des logiciels paramétrables sur un ordinateur et
dont la rapidité dépend, entre autres, de ce dernier. Le paramétrage s’effectue sur les mots
clés des requêtes, le nombre de sources d’informations consultées, la profondeur des liens,
la présentation des résultats, le nombre de résultats sauvegardés, la conservation des liens.
Internet
Agents intelligents 2 /3.
Le fonctionnement des agents suit ce processus:
1. Paramétrage des mots clés et des expressions de recherche par l’utilisateur,
2. Choix des sources consultées (Moteur, sites, bases, …),
3. Lancement des recherches sur l’Internet,
4. Sauvegarde des liens,
5. Sélection manuelle ou automatique des liens,
6. Téléchargement automatique des documents,
7. Elimination des documents en doubles provenant de sources différentes,
8. Vérification de l’intégrité des documents : Comparaison des mots clés avec le
contenu des documents et filtrage (inclusion et exclusion),
9. Tri et présentation des résultats (par mots clés, par expression, par adresse,
par sources, …).
Internet
Agents intelligents 3/3.
Typologie et classification :
1 Les agents mobiles (Mobil Agent, Pull Technology, Offline Searching). :
Fonctions principales :
Rechercher sur plusieurs sources web les réponses à un profil,
Rapatrier toutes les pages trouvées,
Classer et gérer les informations,
Créer des bases de données thématiques,
Créer des résumés à la " volée ",
Organiser les résultats par thèmes.
Exemple d’algorithme :
Algorithmes de recherche d’information dans
un reseaux avec menteurs 1/3
L’agent mobile se deplaçe de noeud en noeud dans le reseau. Son objectif est de
localiser une information spécifique (appelée cible) qui réside dans un certain noeud
Deux techniques sont possibles, soit le parcours est :
*) purement déterministe (parcours en profondeur ou recherche en largeur)
*) probabiliste (marches aléatoires).
L’efficacité de l’algorithme de recherche depends :
- Temps nécessaire pour trouver l’information.
Et/ou
- Quantité de mémoirerequise.
Dans l’ exemple suivant , l’efficacité d’un algorithme de recherche pour lequel
le conseil donné par chaque noeud est un lien appartenant à un plus court chemin pour
aller à la cible. L’agent en prend connaissance quand il arrive à un nœud, mais lors
du déplacement de l’agent certains peuvent mentir (indiquent une mauvaise direction.
).
Cette Algorithme nomé CHERCHE est sans mémoire (ne memorise pas le chemin
parcouru).
Principe de l’algorithme :
1. L’agent arrive à un noeud du degré d. S’il découvre la cible, il s’arrête. Sinon, il
interroge le noeud;
2. Le noeud répond en indiquant une de ses arêtes incidentes;
3. L’agent fait alors un tirage aléatoire biaisé: avec la probabilité q il suit le
conseil. S’ il décide de ne pas suivre le conseil (unévénement de probabilité 1-q
), il fait un autre tirage et choisit uniformément au hasard une autre arête parmi
les d-1 arêtes incidentes restantes;
4. Il se déplace alors jusqu’au noeud adjacent de l’arête choisit;
5. Les étapes ci-dessus sont répétées au nouveau noeud.
L’idée de l’algorithme :
L’agent s’attend, en règle générale, à ce que le conseil soit correct (les nœuds
sont fiables). Par conséquent la probabilité q sera considérée supèrieure à 1/2.
Cependant, En permettant à l’agent de ne pas faire confiance au conseil avec une
certaine probabilité positive, nous pourrions sortir de situations « Dead –lock »
(deux nœuds qui se renvoient mutuellement).
CONCLUSIONS
La tendance de la recherche actuelle s’oriente plutôt vers les agents
mobiles, qui est en soit un domaine pleins d’espoires, mais cela
n’empêche en rien le develloppemnt des moteurs de recherches
traditionnels
D’une facon generale les methodes de recherches de l'information sur
Internet evoluent tellement vite ce que impose de rester constament à
l'écoute : une veille est indispensable.

la recherche d`informations sur le web

Transcription

Documents pareils

LES SECRETS DES MOTEURS DE RECHERCHE SUR LE WEB

RES8

Référencer son site web et créer du trafic

Stratégie de recherche sur internet

Le web invisible - Université Nice Sophia Antipolis

CLUB ROBOTIQUE

RES7

INFORMATIQUE ET CREATION NUMERIQUE

Dans son labo, Sophie danse avec les robots