lettre d`actualité n°10 - Informatique de MIA

Transcription

lettre d`actualité n°10 - Informatique de MIA
O CTOBRE 2016, N O 10
L’actualité R4ciam
maic4R étilautca’L
Microsoft R Open (MRAN), anciennement connue sous le nom Revolution R Open (RRO), est une distribution améliorée de R proposée
par Microsoft Corporation.
Comme la distribution localisée sur le CRAN, elle est gratuite, complète et libre. La distribution courante (3.3.1) est basée (et 100%
compatible) sur la R-3.3.1. Elle permet donc l’utilisation de tous les
packages, scripts et applications développées avec R et peut être
installée en parallèle avec la version R du CRAN (sauf sous OSX)
Les ajouts de la distribution, concernent essentiellement l’amélioration des performances et du support pour les plateformes Windows
et Linux. On peut la télécharger ici.
• The R Journal : le numéro 8/1 est en ligne. Très riche, il
contient 27 contributions.
Agenda : ouvrages
R4ciam : nouveaux tutoriels
Pas de nouveau tutoriel sur le site.
• Calcul parallèle avec R. Vincent M IELE et Violaine L OUVET,
Édition EDP (descriptif)
• Stats faciles avec R. Guillaume B ROC et al., Édition, De Boeck
Université (descriptif)
• Biostatistique et analyse informatique des données de santé
avec R. Christophe L ALANNE et Mounir M ESBAH. Edition ISTE
(descriptif).
Agenda : annonces
• C’est la rentrée pour le meetup R Addict Paris : réunion le
mercredi 28 septembre 2016.
• Un nouveau meetup à Nantes R Nantes. Première réunion le
10 octobre 2016.
Focus : un article
Les articles signalant les erreurs liées à l’utilisation des tableurs
comme outils pour effectuer des calculs sont nombreux. Plus
Agenda : séminaires, MOOC, . . .
récemment, des chercheurs se sont intéressés à leur utilisation
comme outils d’enregistrement de données génomiques (doi).
• Début du MOOC « Introduction à la statistique avec R » sur Et là aussi, le constat a été que les tableurs ne sont pas des outils
la plateforme FUN
très fiables.
Les erreurs sont ici liées à des conversions non souhaitées
de format : le nom des gènes pouvant être transformé en date
Agenda : publications
(« SEPT2 » convertit en « 2006/09/02 ») ou en nombre (l’accession
« 2310009E13 » convertit en « 2.31E+13 »).
• Journal of Statistical Software : numéros 71, 72 et un numéro
La validation des données avant leur utilisation est donc partispécial 73.
culièrement importante avant toute analyse.
Focus : un site
Focus : une task view
• Le blog tutoriels-data-mining.blogspot.fr, destiné aux « data
scientist », recense un grand nombre de tutoriels principalement
axés sur le logiciel Tanagra. Il propose aussi une série de tutoriels
autour d’autres logiciels dont R et python
Les Task views sont des compilations de packages R disponibles sur le site du CRAN. Elles regroupent par grands
thèmes/disciplines, les packages R jugés les plus pertinents pour
le thème ou la discipline (voir la fiche Les Task views et le package ctv). Il y a actuellement 33 compilations.
La task view ChemPhys, Chemometrics and Computational
Physics,
maintenue par Katharine M ULLEN, recense les packages
Focus : une fonction
R utiles pour analyser les données issues d’expériences en phyLes fonctions union() et intersect() permettent de réaliser sique/chimie. Elle présente 86 packages dont 7 essentiels (ALS,
l’union et l’intersection de vecteurs en supprimant les doublons. chemCal, Iso, kohonen, nnls, pls, PTAk).
> A <- letters[1:6]; B <- letters[4:10]
> union(A, B)
[1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j"
> intersect(A, B)
[1] "d" "e" "f"
> library("ctv")
> install.views("ChemPhys")
# update.views("ChemPhys")
La fonction setdiff() extrait les éléments du premier vecteur qui ne sont pas présents dans le second.
> setdiff(A, B)
[1] "a" "b" "c"
> setdiff(B, A)
[1] "g" "h" "i" "j"
Focus : un package
Détente : jeu de mots
Le package wfindr propose la fonction scrabble() qui permet de rechercher des mots (en anglais) à partir d’une série de
lettres.
> sample(letters, 7) %>% scrabble(allow=., model="*")
Le package magrittr propose un nouvel opérateur %>% qui per- [1] "ef" "er" "erf" "erg" "fe" "fer" "fey" "fry" "fy" ...
met de chainer à la manière du pipe (|), une série d’instructions [18] "rye" "ryfe" "veg" "very" "ye"
> sample(letters, 7) %>% scrabble(allow=., model=".{3}")
R sans créer d’objets intermédiaires.
[1] "fil" "fit" "fix" "hit" "lit" "til" "wit"
> library(magrittr)
Une autre fonction, anagram(), permet de construire les dif> car_data <férents
anagrammes d’un mot.
+
mtcars %>%
+
subset(subset=hp > 100, select=c(mpg:hp)) %>%
> anagram(allow="python")
+
aggregate(. ~ cyl, data= ., FUN= . %>% mean %>%
[1] "phyton" "python" "typhon"
+
round(1)) %>%
+
transform(kpl=mpg %>% multiply_by(0.4251)) %>%
Enfin, la fonction find_word() permet de trouver des mots
+
round(1) %>% print
correspondant à un motif
cyl mpg disp
hp kpl
> find_word(model="b.{3}x", ban="sv")
1
4 25.9 108.0 111.0 11.0
[1] "beaux" "bemix" "bolix" "borax"
2
6 19.7 183.3 122.3 8.4
> find_word(model="s.mb.")
3
8 15.1 353.1 209.2 6.4
[1] "samba" "sambo"
# Rédaction
> paste(sample(auteurs), collapse=", ")
[1] "F. Dessaint, A. Bouvier, J.-F. Rey"
;-) fortunes::fortune("test")
Knut Krueger: Is there any function available to combine those p values?
Stephan Kolassa: ?"+"
-- Knut Krueger and Stephan Kolassa (about ways to combine p values from different tests)
R-help (July 2010)
Pour nous joindre, proposer une fiche, s’inscrire à la liste de diffusion, . . . une seule adresse : informatique-mia.inra.fr/r4ciam/contact