Géocodage automatique de fichiers d`adresses

Transcription

Géocodage automatique de fichiers d`adresses
DREAL Champagne
Ardenne
Mission Système
d'Information et
Connaissance
Octobre 2011
Géocodage automatique de fichiers
d'adresses
Rapport d'aide et de prise en main
de l'application
Application de géocodage automatique
Table des matières
1 – Généralités..............................................................................2
a) Géocodage en série.......................................................................................................2
b) Géocodage unique .........................................................................................................2
c) Pré-requis, paramétrage................................................................................................2
2 – Géocodage en série : Interface graphique.............................3
a) Etape 1 : sélection du fichier ..........................................................................................3
b) Etape 2 : choix des champs ...........................................................................................3
c) Etape 3 : fichier(s) en sortie...........................................................................................3
3 – Géocodage en série : Étape 1 : fichiers en entrée.................4
a) Format CSV...................................................................................................................4
b) Formats ODS et XLS.....................................................................................................4
c) Ligne d'en tête................................................................................................................4
4 – Géocodage en série : Étape 2 : correspondance des champs,
précision du géocodage................................................................5
a) Champs descriptifs de la commune ...............................................................................5
b) Champs descriptifs de l'adresse ....................................................................................6
5 – Géocodage en série : Étape 3 : structure du fichier final......7
6 – Géocodage unique...................................................................8
7 – Paramétrage............................................................................9
a) La connexion à la base de données ..............................................................................9
b) L'identification des tables PostgreSQL de géocodage ..................................................9
c) Structure des tables.......................................................................................................9
8 – Structuration de la base de données d'adresses.................10
a) Structure des tables.....................................................................................................10
b) Bases de données utilisables ......................................................................................11
9 – Erreurs possibles...................................................................11
a) Impossible d'ouvrir un fichier ODS ou XLS ..................................................................11
b) Impossible d'ouvrir un fichier CSV ...............................................................................11
c) Le géocodage de s'effectue pas, et ce dès la première adresse .................................11
CETE Nord-Picardie – RDT – IGS
1
Octobre 2011
Application de géocodage automatique
1 – Généralités
L'application permet de géocoder des fichiers d'adresses structurées. Le géocodage peut être
effectué à l'adresse ou à la commune.
a) Géocodage en série
Les types de fichiers acceptés en entrée sont :
• les fichiers CSV (texte séparé par des virgules),
• les fichiers tableur OpenOffice ODS
• les fichiers Excel XLS
Le fichier d'entrée doit contenir des champs nécessaires au géocodage. Ces champs doivent
permettre d'identifier une commune et une adresse.
Les fichiers finaux contiennent les informations de géoréférencement (X et Y en Lambert 93),
ainsi qu'un indicateur de précision pour chaque adresse.
b) Géocodage unique
Le géocodage unique permet de tester et améliorer certaines adresses mal saisies dans un
fichier d'entrée. Il permet également de récupérer les coordonnées et l'adresse structurée.
c) Pré-requis, paramétrage
Afin de permettre le géocodage, une base de données d'adresses (communes, voies et lieux
dits, adresses) doit être accessible. L'interface graphique sert uniquement à gérer les
interactions entre les requêtes utilisateurs et la base de données. Le paramétrage de cette base
de données est décrit plus bas.
CETE Nord-Picardie – RDT – IGS
2
Octobre 2011
Application de géocodage automatique
2 – Géocodage en série : Interface
graphique
a) Etape 1 : sélection du fichier
L'ouverture du fichier permet de visualiser le contenu de ses premières lignes.
Si le fichier d'entrée est de format ODS ou XLS, le choix de la feuille est possible.
Important : penser à vérifier si le fichier contient une première ligne d'en-tête. Si c'est le cas,
cocher la case.
b) Etape 2 : choix des champs
Afin de géocoder une adresse, le fichier en entrée doit permettre de distinguer clairement la
commune et l'adresse proprement dite. En effet, le moteur de géocodage doit d'abord identifier
la commune pour ensuite effectuer la recherche de la voie ou du lieu dit au sein de cette
commune.
Le choix de la commune peut se faire selon 3 critères : code INSEE / code postal / nom de
commune. Si ces 3 champs existent dans le fichier d'entrée, le code INSEE est prioritaire.
c) Etape 3 : fichier(s) en sortie
Choisir ici le fichier de sortie sans extension. Les formats CSV et SHP sont générés
automatiquement. L'encodage de ces fichiers est Windows-1252, jeu de caractères par défaut
sous Windows.
CETE Nord-Picardie – RDT – IGS
3
Octobre 2011
Application de géocodage automatique
3 – Géocodage en série : Étape 1 :
fichiers en entrée
a) Format CSV
L'application détecte automatiquement les paramètres du fichier : séparateur de champ,
séparateur de texte.
Pour que le géocodage fonctionne, l'encodage du fichier doit être soit :
• en ASCII, encodage texte simple sans caractères accentués,
• en Windows-1252. C'est l'encodage par défaut des fichiers sous Windows en Europe
occidentale,
• en UTF-8.
L'encodage le plus fréquent des fichiers bureautiques est Windows-1252.
L'application détecte automatiquement l'encodage parmi ces 3. La qualité de cette détection
peut être vérifiée en regardant l'affichage des caractères accentués dans la fenêtre de
prévisualisation.
b) Formats ODS et XLS
Pour que l'import fonctionne, il faut seulement que des données soient présentes dès la
première cellule (coin haut/gauche), et que la matrice de données soit bien rectangulaire (pas
de cellules isolées).
Les fichiers XLS sont conseillés car leur lecture est plus rapide.
REMARQUE IMPORTANTE POUR LES FICHIERS ODS : les cellules ne contenant pas
de données doivent être complètement vides et sans aucun formatage. Sinon, l'import est
impossible (cf paragraphe 9, Erreurs possibles).
c) Ligne d'en tête
Quel que soit le type de fichier en entrée, vous devez spécifier si la première ligne correspond
au nom des champs. Si c'est le cas, celle-ci ne sera logiquement pas géocodée et servira de
première ligne pour le fichier final.
Si ce n'est pas le cas, le géocodage commencera dès cette première ligne.
CETE Nord-Picardie – RDT – IGS
4
Octobre 2011
Application de géocodage automatique
4 – Géocodage en série : Étape 2 :
correspondance
des
champs,
précision du géocodage
Afin de pouvoir géocoder les adresses, certains champs du fichier de départ doivent être
renseignés. 6 champs sont disponibles. 3 pour la commune, 3 pour l'adresse.
Remarque importante : la qualité du géocodage est directement liée à la qualité du contenu de
ces champs. Même si l'application détecte certaines erreurs de saisie, un contenu faux ou
incohérent ne pourra pas forcément être détecté.
a) Champs descriptifs de la commune
Les champs permettant d'identifier la commune sont :
• le code INSEE,
• le code postal seul,
• le nom de commune, ou le code postal suivi du nom de commune.
Afin de déterminer la commune, au moins un de ces champs doit être identifié dans le fichier
initial.
Dans le cas ou plusieurs champs sont renseignés, l'application donne priorité au code INSEE,
au libellé de commune, puis au code postal. Il est donc particulièrement important de vérifier
que le champ code INSEE est bien renseigné.
CETE Nord-Picardie – RDT – IGS
5
Octobre 2011
Application de géocodage automatique
b) Champs descriptifs de l'adresse
L'adresse peut se décomposer selon les 3 éléments suivants : un numéro, un indice de
répétition, un libellé de voie ou un lieu dit.
L'application propose de choisir, suivant le niveau de précision de l'adresse en entrée :
• le numéro seul,
• l'indice de répétition, ou le numéro + l'indice de répétition,
• la voie/lieu dit, ou l'adresse complète.
Le 3ème champ est obligatoire pour géolocaliser à l'adresse.
Si l'adresse ne peut pas être décomposée dans le fichier initial, l'application se charge de le
faire, mais avec certaines limites :
1. afin de "nettoyer" l'adresse, l'application remplace tous les caractères spéciaux par des
espaces, supprime les accents, met en majuscule et supprime les séries d'au moins 2
espaces,
2. l'identification du(des) numéro(s) se fait via une recherche de nombres en début de
chaine. S'il y a plusieurs numéros, ils doivent être séparés uniquement par des espaces
ou des caractères spéciaux,
3. l'indice de répétition n'est trouvé que s'il existe ensuite une lettre seule (sauf R), ou une
chaine ressemblant à BIS, TER, QUA,
4. le reste constitue la voie.
Exemples de corrections :
• "27 C BD-Masséna" => (27), (C), (BD MASSENA)
• "1 r Malus" => (1), (), (R MALUS)
• "4/6 ave mériol" => ([4,6]), (), (AVE MERIOL)
• "5 à 7 square du peuple" => (5), (A), (7 SQUARE DU PEUPLE) => Erreur
d'interprétation !
CETE Nord-Picardie – RDT – IGS
6
Octobre 2011
Application de géocodage automatique
5 – Géocodage en série : Étape 3 :
structure du fichier final
Le géocodeur en série permet de générer des fichiers aux formats tableurs suivants : CSV,
OpenOffice ODS et Excel XLS.
L'application peut également générer des données géographiques aux formats : MapInfo
TAB, ESRI Shapefile SHP, Google KML. Pour ces types de fichiers, la projection peut
également être choisie entre Lambert 93, Lambert 2 étendu et WGS84 (GPS).
Quel que soit le format de sortie, chaque fichier possède une structure identique au fichier
initial, plus les champs de géocodage :
• GC_IDCOM : code INSEE de la commune trouvée (si commune ancienne, code de la
commune actuelle)
• GC_LIBCOM : libellé de commune (si commune ancienne, libellé de l'ancien nom)
• GC_ADR : adresse structurée trouvée dans la base adresse
• GC_SIMILARITY : taux de similarité entre la voie demandée et la voie trouvée
• GC_INDICATEUR : typologie de géocodage
• GC_PRECISION_BDAdr : précision du point BD Adresse
• GC_X_L93 : coordonnée X du point en Lambert 93
• GC_Y_L93 : coordonnée Y du point en Lambert 93
Remarques :
Le taux de similarité représente la correspondance entre 2 chaines de caractères. Plus
les chaines se ressemblent, plus le taux est proche de 100%. Un taux supérieur à 40% est
généralement gage de fiabilité.
La typologie de géocodage donne une indication de correspondance d'adresse :
"Commune", "Voie", "Voie avec mauvais numéro" et "Adresse exacte".
La précision du point BD Adresse est très importante. En effet, chaque point de la BD
Adresse possède une précision allant de la commune à la plaque adresse. A l'issue du
géocodage, on peut très bien trouver une ligne dont la typologie de géocodage est "Adresse
exacte" alors que le point adresse ayant servi à géocoder est précis à la commune.
CETE Nord-Picardie – RDT – IGS
7
Octobre 2011
Application de géocodage automatique
6 – Géocodage unique
L'onglet "géocodage unique" permet d'effectuer des géocodages automatiques à façon.
Cela peut être utile entre autres :
• pour localiser de petites quantités d'adresses,
• pour tester les lignes mal géocodées lors d'un géocodage en série, et ainsi les corriger.
Les méthodologies de géocodage en série et unique sont identiques.
CETE Nord-Picardie – RDT – IGS
8
Octobre 2011
Application de géocodage automatique
7 – Paramétrage
Le paramétrage comprend deux sections techniques : la connexion à la base de données
adresses, et l'identification des tables servant au géocodage.
a) La connexion à la base de données
Les paramètres de connexion à la base de données PostgresSQL sont classiques : adresse du
serveur, nom d'utilisateur, mot de passe, nom de la base, port.
Ces paramètres sont gérés par l'administrateur du poste ou serveur hébergeant la base de
données d'adresses.
Conseil : créer un utilisateur PostgreSQL spécifique pour le géocodage, (par exemple nom :
geocodage, mot de passe : geocodage) n'ayant que les droits en lecture.
b) L'identification des tables PostgreSQL de géocodage
Afin de pouvoir géocoder, l'application doit pouvoir effectuer des requêtes dans 3 tables :
• une table des communes,
• une table des voies et des lieux dits,
• une table des adresses.
Vous devez indiquer le nom complet de ces 3 tables sous la forme
<nom_schema>.<nom_table> (Ex : public.ma_table_commune).
c) Structure des tables
Afin de donner des résultats cohérents, chacune de ces tables doit avoir une structure précise.
Cette structure est décrite dans la section suivante.
CETE Nord-Picardie – RDT – IGS
9
Octobre 2011
Application de géocodage automatique
8 – Structuration de
données d'adresses
la
base
de
a) Structure des tables
Afin de donner des résultats cohérents, chacune de ces tables doit avoir une structure précise.
Cette structure est décrite ci-dessous. Le nom des champs doit avoir la même orthographe, et
être écrit en minuscules.
Pour la table des communes
idcom
texte
iddep
texte
actual
texte
pole
texte
libcom_ss_casse
texte
libcom
texte
ccopos
texte
geometry
geometry
Pour la table des voies
idvoie
texte
idcom
texte
nom_voie
texte
n_adresse
entier
geometry
geometry
Identifiant unique de la voie (clé primaire)
Code INSEE (clé étrangère de la table des communes)
Nom de la voie ou du lieu dit
Nombre d'adresses sur cette voie
Géométrie PostgreSQL (point)
Pour la tables des adresses
idadresse
texte
idvoie
texte
idcom
texte
numero
entier
rep
texte
type_loc_code
entier
geometry
geometry
CETE Nord-Picardie – RDT – IGS
Code INSEE
Code département
Commune actuelle ou non (resp. 1 ou 0)
Si actual=0, code INSEE de la commune actuelle
Libellé de commune sans casse, en majuscule
Libellé de commune avec accents et casse
Code postal
Géométrie PostgreSQL (point)
Identifiant unique de l'adresse voie (clé primaire)
Identifiant de la voie (clé étrangère de la table des voies)
Code INSEE (clé étrangère de la table des communes)
Numéro de rue de l'adresse
Indice de répétition
Type de localisation (cf. ci-dessous)
Géométrie PostgreSQL (point)
10
Octobre 2011
Application de géocodage automatique
Dans la table adresse, chaque point adresse possède un degré de précision, allant de la plaque
adresse jusqu'à la commune. Le champ type_loc_code doit donner de manière ordonnée ces
types de localisation. Ils doivent être compris entre 1 et 6 :
1 : "Projection plaque",
2 : "Projection centroïde",
3 : "Tronçon route",
4 : "Voie",
5 : "Zone adressage",
6 : "Commune"
Ainsi, les numéros importants correspondent à des précisions moindres.
b) Bases de données utilisables
La base utilisable le plus simplement est la BD Adresse. Néanmoins, elle peut être complétée
par la d'autres sources de données : les fichiers fonciers, les toponymes de la BD Topo, etc,...
Pour cela, il suffit de modifier les tables "voies" et "adresses" dans la base PostgreSQL.
9 – Erreurs possibles
a) Impossible d'ouvrir un fichier ODS ou XLS
Les cellules doivent tout avoir un formatage par défaut : pas de gras, pas de police particulière,
pas de couleur, etc. Pour cela, sélectionner l'ensemble des cellules (feuille par feuille), cliquer
droit sur une cellule et sélectionne « Formatage par défaut ».
Les feuilles doivent également avoir un nom.
b) Impossible d'ouvrir un fichier CSV
Cela peut venir de l'encodage du fichier CSV ou de sa structure. Afin de remédier au
problème, l'ouvrir dans OpenOffice, et le ré-enregistrer dans un encodage supporté (ASCII,
Windows-1252, UTF-8), ou directement en ODS ou XLS.
c) Le géocodage de s'effectue pas, et ce dès la première adresse
Cela peut venir du pare feu, qui bloque l'accès au serveur de base de données.
Pour y remédier, il faut rajouter une exception pour l'application, ou désactiver le pare feu (non
recommandé).
CETE Nord-Picardie – RDT – IGS
11
Octobre 2011

Documents pareils