lettre d`actualité n°10 - Informatique de MIA
Transcription
lettre d`actualité n°10 - Informatique de MIA
O CTOBRE 2016, N O 10 L’actualité R4ciam maic4R étilautca’L Microsoft R Open (MRAN), anciennement connue sous le nom Revolution R Open (RRO), est une distribution améliorée de R proposée par Microsoft Corporation. Comme la distribution localisée sur le CRAN, elle est gratuite, complète et libre. La distribution courante (3.3.1) est basée (et 100% compatible) sur la R-3.3.1. Elle permet donc l’utilisation de tous les packages, scripts et applications développées avec R et peut être installée en parallèle avec la version R du CRAN (sauf sous OSX) Les ajouts de la distribution, concernent essentiellement l’amélioration des performances et du support pour les plateformes Windows et Linux. On peut la télécharger ici. • The R Journal : le numéro 8/1 est en ligne. Très riche, il contient 27 contributions. Agenda : ouvrages R4ciam : nouveaux tutoriels Pas de nouveau tutoriel sur le site. • Calcul parallèle avec R. Vincent M IELE et Violaine L OUVET, Édition EDP (descriptif) • Stats faciles avec R. Guillaume B ROC et al., Édition, De Boeck Université (descriptif) • Biostatistique et analyse informatique des données de santé avec R. Christophe L ALANNE et Mounir M ESBAH. Edition ISTE (descriptif). Agenda : annonces • C’est la rentrée pour le meetup R Addict Paris : réunion le mercredi 28 septembre 2016. • Un nouveau meetup à Nantes R Nantes. Première réunion le 10 octobre 2016. Focus : un article Les articles signalant les erreurs liées à l’utilisation des tableurs comme outils pour effectuer des calculs sont nombreux. Plus Agenda : séminaires, MOOC, . . . récemment, des chercheurs se sont intéressés à leur utilisation comme outils d’enregistrement de données génomiques (doi). • Début du MOOC « Introduction à la statistique avec R » sur Et là aussi, le constat a été que les tableurs ne sont pas des outils la plateforme FUN très fiables. Les erreurs sont ici liées à des conversions non souhaitées de format : le nom des gènes pouvant être transformé en date Agenda : publications (« SEPT2 » convertit en « 2006/09/02 ») ou en nombre (l’accession « 2310009E13 » convertit en « 2.31E+13 »). • Journal of Statistical Software : numéros 71, 72 et un numéro La validation des données avant leur utilisation est donc partispécial 73. culièrement importante avant toute analyse. Focus : un site Focus : une task view • Le blog tutoriels-data-mining.blogspot.fr, destiné aux « data scientist », recense un grand nombre de tutoriels principalement axés sur le logiciel Tanagra. Il propose aussi une série de tutoriels autour d’autres logiciels dont R et python Les Task views sont des compilations de packages R disponibles sur le site du CRAN. Elles regroupent par grands thèmes/disciplines, les packages R jugés les plus pertinents pour le thème ou la discipline (voir la fiche Les Task views et le package ctv). Il y a actuellement 33 compilations. La task view ChemPhys, Chemometrics and Computational Physics, maintenue par Katharine M ULLEN, recense les packages Focus : une fonction R utiles pour analyser les données issues d’expériences en phyLes fonctions union() et intersect() permettent de réaliser sique/chimie. Elle présente 86 packages dont 7 essentiels (ALS, l’union et l’intersection de vecteurs en supprimant les doublons. chemCal, Iso, kohonen, nnls, pls, PTAk). > A <- letters[1:6]; B <- letters[4:10] > union(A, B) [1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" > intersect(A, B) [1] "d" "e" "f" > library("ctv") > install.views("ChemPhys") # update.views("ChemPhys") La fonction setdiff() extrait les éléments du premier vecteur qui ne sont pas présents dans le second. > setdiff(A, B) [1] "a" "b" "c" > setdiff(B, A) [1] "g" "h" "i" "j" Focus : un package Détente : jeu de mots Le package wfindr propose la fonction scrabble() qui permet de rechercher des mots (en anglais) à partir d’une série de lettres. > sample(letters, 7) %>% scrabble(allow=., model="*") Le package magrittr propose un nouvel opérateur %>% qui per- [1] "ef" "er" "erf" "erg" "fe" "fer" "fey" "fry" "fy" ... met de chainer à la manière du pipe (|), une série d’instructions [18] "rye" "ryfe" "veg" "very" "ye" > sample(letters, 7) %>% scrabble(allow=., model=".{3}") R sans créer d’objets intermédiaires. [1] "fil" "fit" "fix" "hit" "lit" "til" "wit" > library(magrittr) Une autre fonction, anagram(), permet de construire les dif> car_data <férents anagrammes d’un mot. + mtcars %>% + subset(subset=hp > 100, select=c(mpg:hp)) %>% > anagram(allow="python") + aggregate(. ~ cyl, data= ., FUN= . %>% mean %>% [1] "phyton" "python" "typhon" + round(1)) %>% + transform(kpl=mpg %>% multiply_by(0.4251)) %>% Enfin, la fonction find_word() permet de trouver des mots + round(1) %>% print correspondant à un motif cyl mpg disp hp kpl > find_word(model="b.{3}x", ban="sv") 1 4 25.9 108.0 111.0 11.0 [1] "beaux" "bemix" "bolix" "borax" 2 6 19.7 183.3 122.3 8.4 > find_word(model="s.mb.") 3 8 15.1 353.1 209.2 6.4 [1] "samba" "sambo" # Rédaction > paste(sample(auteurs), collapse=", ") [1] "F. Dessaint, A. Bouvier, J.-F. Rey" ;-) fortunes::fortune("test") Knut Krueger: Is there any function available to combine those p values? Stephan Kolassa: ?"+" -- Knut Krueger and Stephan Kolassa (about ways to combine p values from different tests) R-help (July 2010) Pour nous joindre, proposer une fiche, s’inscrire à la liste de diffusion, . . . une seule adresse : informatique-mia.inra.fr/r4ciam/contact