PSPP une alternative à SPSS - Page Web de Thibault Laurent

Transcription

PSPP une alternative à SPSS - Page Web de Thibault Laurent
PSPP une alternative à SPSS ?
Joseph Saint Pierre
rencontre ingénieurs statisticiens 13 mars 2012
PSPP est un logiciel libre dont la première version date de 1998. À l’époque le logiciel se
nommait FIASCO. Le nom PSPP suggéère qu’il s’agit d’un logiciel censé remplacer le logiciel
propriétaire SPSS
SPSS est un logiciel très connu et très utilisé dans le dmaine des sciences sociales, il date
de 1968, première version commerciale. En 2009 SPSS a été racheté par IBM.
Le logiciel SPSS est très fortement utilisé notamment pour l’enseignement des statistiques à l’université du Mirail mais pas seulement. Son coût est devenu beaucoup plus important en 2005.
Le logiciel SPSS est arrivé officiellement au CICT début 1989, à ma demande, peu après
mon recrutement en juillet 1988. J’ai assuré de très nombreuses formations à l’utilisation de
SPSS à l’université du Mirail à partir du moment il y a eu des versions en français por les PC.
Pendant un certain temps le développement de SPSS sur Macintosh et surtout sur les
gros systèmes (Unix par exemple) se sont interrompus. La version disponible pour un serveur Unix en 2005 était la version 6 alors que sur PC la version devait être la 13 ou la 14.
PSPP étant un logiciel libre il était possible de l’installer assez facilement sur divers ordinateurs et notamment sur les serveurs unix sans système complexe de jetons.
J’ai décidé en 2005 d’encadrer un stage pour étudier les possibilités du logiciel PSPP,
d’écrire une documentation et surtout un tutoriel. La documenation a été écrite par Julie
Séguéla stagiaire au CICT sous ma responsabilité de mai à juillet 2006. Cette documentation
a depuis été très largement diffusée, plus de 7000 téléchargements depuis 2006 sur ma page
web et de nombreuses références sur Internet.
Depuis 2006 le logiciel PSPP a évolué est devenu plus facile à utiliser, il y a plus de méthodes statistiques disponibles mais dès 2006 PSPP était déjà très intéressant à utiliser pour
faire des statistiques.
La valeur immense de SPSS, est à mon avis dans des commandes simples concernant la
gestion des données voici quelques commandes très typique du logiciel SPSS
– VARIABLE LABELS donner des noms étendus aux variables
– VALUE LABELS donner des noms étendus au modalités
– AGGREGATE regrouper des données
1
–
–
–
–
–
–
–
AUTORECODE recodage automatique et séquentiel
COMPUTE calculs
COUNT créer une variable par comptage
FLIP interversion lignes colonnes
IF création conditionnnelle
RECODE recodage
SORT CASES tri
Toutes ces commandes sont arrivées très tôt dans PSPP.
La supériorité de SPSS sur PSPP réside dans le nombre de méthodes statistiques très
complexes. Mais est ce vraiment un avantage ? Il n’est pas certain que SPSS soit le meilleur
logiciel pour effectuer des statistiques évoluées.
La comparaison de deux logiciels n’est sans doute pas très pertinente sachant que l’un
des logiciels est propriétaire et l’autre est libre et ouvert. Les logiciels libres ne peuvent pas
vraiment être en conccurrence. PSPP a été développé en utilisant des éléments d’autres
logiciels libres comme la "GNU Scientific Library" pour toutes les fonctions mathématiques
ou "GNU plotutils" pour les graphiques. De même le programme foreign de R se sert de
PSPP pour importer les fichiers au format SPSS.
Comme il est mentionné dans la documentation écrite par Julie Séguéla en 2006 on peut
commencer l’exploration des données avec PSPP et puis transférer facilement les données
sélectionnées, éventuellement recodées vers R pour des méthodes statistiques plus évoluées
ou vers un autre logiciel libre.
Le passage de SPSS vers PSPP peut être un passage vers un monde beaucoup plus vaste
et toujours en évolution celui des logiciels libres.
Peut on envisager l’intégration de PSPP comme un module de R ? Et est ce souhaitable ?
L’apprentissage de l’utilisation de logiciels de statisques ne devrait surtout pas être isolé
de l’enseignement des mathématiques correspondantes à celles qui sont produites par les
logiciels. PSPP peut, être à mon avis être utilisé pour une intiation aux traitement élémentaires de données en particulier pour les sciences sociales, le dépouillement d’une enquête
peut très bien se faire avec PSPP.
L’interface graphique de PSPP me semble avenante et surtout peu déroutante pour un
débutant en statistiques. Si l’accès à des statistiques complexes est très facile par le passage à
un système comme R il me semble pertinent de présenter, au moins dans un premier temps,
l’autonomie d’un logiciel simple et accessible.
Le développement de PSPP peut sembler cahotique ou trop rapide, les informations
disponibles sur la page wikipedia en français consacrée à PSPP sont fausses car elles ne
sont pas à jour. Par exemple il y a des versions de PSPP pour windows sans installer cygwin.
Les informations sur PSPP pour windows se trouvent ici http ://pspp.awardspace.com/ Il y
a une version partiellement en français et sans doute en cours de taduction. Cet apparent
désordre est assez caractéristique du monde des logiciels libres.
L’utilisateur des logiciels libres n’est pas un client c’est le cas pour PSPP. On trouve très
rapidement le message suivant
2
«If you encounter a problem or have suggestions for improvement please report it in
[email protected] »
L’utilisateur de PSPP est invité à participer au développement du logiciel en signalant les
erreurs, les imperfections et en suggérant des améliorations. L’écriture de la documentation
en 2006 et l’utilisation intensive du logiciel a été l’occasion de détecter des défauts qui ont
été signalés aux développeurs de PSPP. L’augmentation du nombre d’utilisateurs du logiciel
est susceptible d’améliorer indirectement le fonctionnement du logiciel.
3