Géocodage automatique de fichiers d`adresses
Transcription
Géocodage automatique de fichiers d`adresses
DREAL Champagne Ardenne Mission Système d'Information et Connaissance Octobre 2011 Géocodage automatique de fichiers d'adresses Rapport d'aide et de prise en main de l'application Application de géocodage automatique Table des matières 1 – Généralités..............................................................................2 a) Géocodage en série.......................................................................................................2 b) Géocodage unique .........................................................................................................2 c) Pré-requis, paramétrage................................................................................................2 2 – Géocodage en série : Interface graphique.............................3 a) Etape 1 : sélection du fichier ..........................................................................................3 b) Etape 2 : choix des champs ...........................................................................................3 c) Etape 3 : fichier(s) en sortie...........................................................................................3 3 – Géocodage en série : Étape 1 : fichiers en entrée.................4 a) Format CSV...................................................................................................................4 b) Formats ODS et XLS.....................................................................................................4 c) Ligne d'en tête................................................................................................................4 4 – Géocodage en série : Étape 2 : correspondance des champs, précision du géocodage................................................................5 a) Champs descriptifs de la commune ...............................................................................5 b) Champs descriptifs de l'adresse ....................................................................................6 5 – Géocodage en série : Étape 3 : structure du fichier final......7 6 – Géocodage unique...................................................................8 7 – Paramétrage............................................................................9 a) La connexion à la base de données ..............................................................................9 b) L'identification des tables PostgreSQL de géocodage ..................................................9 c) Structure des tables.......................................................................................................9 8 – Structuration de la base de données d'adresses.................10 a) Structure des tables.....................................................................................................10 b) Bases de données utilisables ......................................................................................11 9 – Erreurs possibles...................................................................11 a) Impossible d'ouvrir un fichier ODS ou XLS ..................................................................11 b) Impossible d'ouvrir un fichier CSV ...............................................................................11 c) Le géocodage de s'effectue pas, et ce dès la première adresse .................................11 CETE Nord-Picardie – RDT – IGS 1 Octobre 2011 Application de géocodage automatique 1 – Généralités L'application permet de géocoder des fichiers d'adresses structurées. Le géocodage peut être effectué à l'adresse ou à la commune. a) Géocodage en série Les types de fichiers acceptés en entrée sont : • les fichiers CSV (texte séparé par des virgules), • les fichiers tableur OpenOffice ODS • les fichiers Excel XLS Le fichier d'entrée doit contenir des champs nécessaires au géocodage. Ces champs doivent permettre d'identifier une commune et une adresse. Les fichiers finaux contiennent les informations de géoréférencement (X et Y en Lambert 93), ainsi qu'un indicateur de précision pour chaque adresse. b) Géocodage unique Le géocodage unique permet de tester et améliorer certaines adresses mal saisies dans un fichier d'entrée. Il permet également de récupérer les coordonnées et l'adresse structurée. c) Pré-requis, paramétrage Afin de permettre le géocodage, une base de données d'adresses (communes, voies et lieux dits, adresses) doit être accessible. L'interface graphique sert uniquement à gérer les interactions entre les requêtes utilisateurs et la base de données. Le paramétrage de cette base de données est décrit plus bas. CETE Nord-Picardie – RDT – IGS 2 Octobre 2011 Application de géocodage automatique 2 – Géocodage en série : Interface graphique a) Etape 1 : sélection du fichier L'ouverture du fichier permet de visualiser le contenu de ses premières lignes. Si le fichier d'entrée est de format ODS ou XLS, le choix de la feuille est possible. Important : penser à vérifier si le fichier contient une première ligne d'en-tête. Si c'est le cas, cocher la case. b) Etape 2 : choix des champs Afin de géocoder une adresse, le fichier en entrée doit permettre de distinguer clairement la commune et l'adresse proprement dite. En effet, le moteur de géocodage doit d'abord identifier la commune pour ensuite effectuer la recherche de la voie ou du lieu dit au sein de cette commune. Le choix de la commune peut se faire selon 3 critères : code INSEE / code postal / nom de commune. Si ces 3 champs existent dans le fichier d'entrée, le code INSEE est prioritaire. c) Etape 3 : fichier(s) en sortie Choisir ici le fichier de sortie sans extension. Les formats CSV et SHP sont générés automatiquement. L'encodage de ces fichiers est Windows-1252, jeu de caractères par défaut sous Windows. CETE Nord-Picardie – RDT – IGS 3 Octobre 2011 Application de géocodage automatique 3 – Géocodage en série : Étape 1 : fichiers en entrée a) Format CSV L'application détecte automatiquement les paramètres du fichier : séparateur de champ, séparateur de texte. Pour que le géocodage fonctionne, l'encodage du fichier doit être soit : • en ASCII, encodage texte simple sans caractères accentués, • en Windows-1252. C'est l'encodage par défaut des fichiers sous Windows en Europe occidentale, • en UTF-8. L'encodage le plus fréquent des fichiers bureautiques est Windows-1252. L'application détecte automatiquement l'encodage parmi ces 3. La qualité de cette détection peut être vérifiée en regardant l'affichage des caractères accentués dans la fenêtre de prévisualisation. b) Formats ODS et XLS Pour que l'import fonctionne, il faut seulement que des données soient présentes dès la première cellule (coin haut/gauche), et que la matrice de données soit bien rectangulaire (pas de cellules isolées). Les fichiers XLS sont conseillés car leur lecture est plus rapide. REMARQUE IMPORTANTE POUR LES FICHIERS ODS : les cellules ne contenant pas de données doivent être complètement vides et sans aucun formatage. Sinon, l'import est impossible (cf paragraphe 9, Erreurs possibles). c) Ligne d'en tête Quel que soit le type de fichier en entrée, vous devez spécifier si la première ligne correspond au nom des champs. Si c'est le cas, celle-ci ne sera logiquement pas géocodée et servira de première ligne pour le fichier final. Si ce n'est pas le cas, le géocodage commencera dès cette première ligne. CETE Nord-Picardie – RDT – IGS 4 Octobre 2011 Application de géocodage automatique 4 – Géocodage en série : Étape 2 : correspondance des champs, précision du géocodage Afin de pouvoir géocoder les adresses, certains champs du fichier de départ doivent être renseignés. 6 champs sont disponibles. 3 pour la commune, 3 pour l'adresse. Remarque importante : la qualité du géocodage est directement liée à la qualité du contenu de ces champs. Même si l'application détecte certaines erreurs de saisie, un contenu faux ou incohérent ne pourra pas forcément être détecté. a) Champs descriptifs de la commune Les champs permettant d'identifier la commune sont : • le code INSEE, • le code postal seul, • le nom de commune, ou le code postal suivi du nom de commune. Afin de déterminer la commune, au moins un de ces champs doit être identifié dans le fichier initial. Dans le cas ou plusieurs champs sont renseignés, l'application donne priorité au code INSEE, au libellé de commune, puis au code postal. Il est donc particulièrement important de vérifier que le champ code INSEE est bien renseigné. CETE Nord-Picardie – RDT – IGS 5 Octobre 2011 Application de géocodage automatique b) Champs descriptifs de l'adresse L'adresse peut se décomposer selon les 3 éléments suivants : un numéro, un indice de répétition, un libellé de voie ou un lieu dit. L'application propose de choisir, suivant le niveau de précision de l'adresse en entrée : • le numéro seul, • l'indice de répétition, ou le numéro + l'indice de répétition, • la voie/lieu dit, ou l'adresse complète. Le 3ème champ est obligatoire pour géolocaliser à l'adresse. Si l'adresse ne peut pas être décomposée dans le fichier initial, l'application se charge de le faire, mais avec certaines limites : 1. afin de "nettoyer" l'adresse, l'application remplace tous les caractères spéciaux par des espaces, supprime les accents, met en majuscule et supprime les séries d'au moins 2 espaces, 2. l'identification du(des) numéro(s) se fait via une recherche de nombres en début de chaine. S'il y a plusieurs numéros, ils doivent être séparés uniquement par des espaces ou des caractères spéciaux, 3. l'indice de répétition n'est trouvé que s'il existe ensuite une lettre seule (sauf R), ou une chaine ressemblant à BIS, TER, QUA, 4. le reste constitue la voie. Exemples de corrections : • "27 C BD-Masséna" => (27), (C), (BD MASSENA) • "1 r Malus" => (1), (), (R MALUS) • "4/6 ave mériol" => ([4,6]), (), (AVE MERIOL) • "5 à 7 square du peuple" => (5), (A), (7 SQUARE DU PEUPLE) => Erreur d'interprétation ! CETE Nord-Picardie – RDT – IGS 6 Octobre 2011 Application de géocodage automatique 5 – Géocodage en série : Étape 3 : structure du fichier final Le géocodeur en série permet de générer des fichiers aux formats tableurs suivants : CSV, OpenOffice ODS et Excel XLS. L'application peut également générer des données géographiques aux formats : MapInfo TAB, ESRI Shapefile SHP, Google KML. Pour ces types de fichiers, la projection peut également être choisie entre Lambert 93, Lambert 2 étendu et WGS84 (GPS). Quel que soit le format de sortie, chaque fichier possède une structure identique au fichier initial, plus les champs de géocodage : • GC_IDCOM : code INSEE de la commune trouvée (si commune ancienne, code de la commune actuelle) • GC_LIBCOM : libellé de commune (si commune ancienne, libellé de l'ancien nom) • GC_ADR : adresse structurée trouvée dans la base adresse • GC_SIMILARITY : taux de similarité entre la voie demandée et la voie trouvée • GC_INDICATEUR : typologie de géocodage • GC_PRECISION_BDAdr : précision du point BD Adresse • GC_X_L93 : coordonnée X du point en Lambert 93 • GC_Y_L93 : coordonnée Y du point en Lambert 93 Remarques : Le taux de similarité représente la correspondance entre 2 chaines de caractères. Plus les chaines se ressemblent, plus le taux est proche de 100%. Un taux supérieur à 40% est généralement gage de fiabilité. La typologie de géocodage donne une indication de correspondance d'adresse : "Commune", "Voie", "Voie avec mauvais numéro" et "Adresse exacte". La précision du point BD Adresse est très importante. En effet, chaque point de la BD Adresse possède une précision allant de la commune à la plaque adresse. A l'issue du géocodage, on peut très bien trouver une ligne dont la typologie de géocodage est "Adresse exacte" alors que le point adresse ayant servi à géocoder est précis à la commune. CETE Nord-Picardie – RDT – IGS 7 Octobre 2011 Application de géocodage automatique 6 – Géocodage unique L'onglet "géocodage unique" permet d'effectuer des géocodages automatiques à façon. Cela peut être utile entre autres : • pour localiser de petites quantités d'adresses, • pour tester les lignes mal géocodées lors d'un géocodage en série, et ainsi les corriger. Les méthodologies de géocodage en série et unique sont identiques. CETE Nord-Picardie – RDT – IGS 8 Octobre 2011 Application de géocodage automatique 7 – Paramétrage Le paramétrage comprend deux sections techniques : la connexion à la base de données adresses, et l'identification des tables servant au géocodage. a) La connexion à la base de données Les paramètres de connexion à la base de données PostgresSQL sont classiques : adresse du serveur, nom d'utilisateur, mot de passe, nom de la base, port. Ces paramètres sont gérés par l'administrateur du poste ou serveur hébergeant la base de données d'adresses. Conseil : créer un utilisateur PostgreSQL spécifique pour le géocodage, (par exemple nom : geocodage, mot de passe : geocodage) n'ayant que les droits en lecture. b) L'identification des tables PostgreSQL de géocodage Afin de pouvoir géocoder, l'application doit pouvoir effectuer des requêtes dans 3 tables : • une table des communes, • une table des voies et des lieux dits, • une table des adresses. Vous devez indiquer le nom complet de ces 3 tables sous la forme <nom_schema>.<nom_table> (Ex : public.ma_table_commune). c) Structure des tables Afin de donner des résultats cohérents, chacune de ces tables doit avoir une structure précise. Cette structure est décrite dans la section suivante. CETE Nord-Picardie – RDT – IGS 9 Octobre 2011 Application de géocodage automatique 8 – Structuration de données d'adresses la base de a) Structure des tables Afin de donner des résultats cohérents, chacune de ces tables doit avoir une structure précise. Cette structure est décrite ci-dessous. Le nom des champs doit avoir la même orthographe, et être écrit en minuscules. Pour la table des communes idcom texte iddep texte actual texte pole texte libcom_ss_casse texte libcom texte ccopos texte geometry geometry Pour la table des voies idvoie texte idcom texte nom_voie texte n_adresse entier geometry geometry Identifiant unique de la voie (clé primaire) Code INSEE (clé étrangère de la table des communes) Nom de la voie ou du lieu dit Nombre d'adresses sur cette voie Géométrie PostgreSQL (point) Pour la tables des adresses idadresse texte idvoie texte idcom texte numero entier rep texte type_loc_code entier geometry geometry CETE Nord-Picardie – RDT – IGS Code INSEE Code département Commune actuelle ou non (resp. 1 ou 0) Si actual=0, code INSEE de la commune actuelle Libellé de commune sans casse, en majuscule Libellé de commune avec accents et casse Code postal Géométrie PostgreSQL (point) Identifiant unique de l'adresse voie (clé primaire) Identifiant de la voie (clé étrangère de la table des voies) Code INSEE (clé étrangère de la table des communes) Numéro de rue de l'adresse Indice de répétition Type de localisation (cf. ci-dessous) Géométrie PostgreSQL (point) 10 Octobre 2011 Application de géocodage automatique Dans la table adresse, chaque point adresse possède un degré de précision, allant de la plaque adresse jusqu'à la commune. Le champ type_loc_code doit donner de manière ordonnée ces types de localisation. Ils doivent être compris entre 1 et 6 : 1 : "Projection plaque", 2 : "Projection centroïde", 3 : "Tronçon route", 4 : "Voie", 5 : "Zone adressage", 6 : "Commune" Ainsi, les numéros importants correspondent à des précisions moindres. b) Bases de données utilisables La base utilisable le plus simplement est la BD Adresse. Néanmoins, elle peut être complétée par la d'autres sources de données : les fichiers fonciers, les toponymes de la BD Topo, etc,... Pour cela, il suffit de modifier les tables "voies" et "adresses" dans la base PostgreSQL. 9 – Erreurs possibles a) Impossible d'ouvrir un fichier ODS ou XLS Les cellules doivent tout avoir un formatage par défaut : pas de gras, pas de police particulière, pas de couleur, etc. Pour cela, sélectionner l'ensemble des cellules (feuille par feuille), cliquer droit sur une cellule et sélectionne « Formatage par défaut ». Les feuilles doivent également avoir un nom. b) Impossible d'ouvrir un fichier CSV Cela peut venir de l'encodage du fichier CSV ou de sa structure. Afin de remédier au problème, l'ouvrir dans OpenOffice, et le ré-enregistrer dans un encodage supporté (ASCII, Windows-1252, UTF-8), ou directement en ODS ou XLS. c) Le géocodage de s'effectue pas, et ce dès la première adresse Cela peut venir du pare feu, qui bloque l'accès au serveur de base de données. Pour y remédier, il faut rajouter une exception pour l'application, ou désactiver le pare feu (non recommandé). CETE Nord-Picardie – RDT – IGS 11 Octobre 2011