Lors de cette séance nous allons apprendre:
A organiser les fichiers dans les dossiers
A organiser les données dans un fichier excel afin que ce soit compatible avec leur import dans R
Etre capable de reproduire vos analyses et de les partager avec d’autres qui peuvent aussi les reproduire est essentiel.
Plusieurs scandales montrent l’importance d’une recherche reproductible et transparente:
Une erreur dans un fichier excel qui change la conclusion d’un papier sur le lien entre niveau d’endettement d’un pays et sa croissance
Une erreur de programmation dans un logiciel qui interverti deux colonnes et change ainsi la structure de protéine déduite à partir de données de cristallographie. 5 articles ont dû être rétractés à cause de cette erreur
Excel qui change les noms de gènes en date (SEPT2 (Septin 2) en sept-02 ou 01/09/2002)
Adapté de ce cours
Vous allez créer beaucoup de fichiers
Ils vont changer au cours du temps.
La relation entre les fichiers va aussi changer au cours du temps.
-> Bien organiser et nommer vos fichiers et dossiers vous évitera bien des problèmes.
Faites le pour vous, et surtout votre futur vous (qui a déjà eu des difficultés à retrouver un ancien fichier?), et aussi pour vos collègues, collaborateurs et encadrants.
Adapté de ce cours
Il est crucial d’avoir des données bien organisées afin de pouvoir les étudier correctement. Bien que formater, nettoyer et organiser les données peut être long et pénible, c’est une étape essentielle pour l’analyse ultérieure des données.
La plupart d’entre nous utilisent à un moment donné ou à un autre, un tableur (“Excel”) pour y enregistrer des données. Nous allons voir dans tableur:
comment éviter les pièges courants quand nous enregistrons des données
les bonnes habitudes pour organiser les données
les différents formats et leur compatibilité avec d’autres programmes (comme R
)
Ne modifiez jamais les données brutes! Toujours travailler sur une copie des données. C’est essentiel, surtout dans un logiciel comme excel, ou les modifications des données ne sont pas enregistrées. Si par exemple vous faites une erreur et ne le réalisez que plus tard (genre, des mois plus tard), c’est très difficile voir impossible de revenir sur les données brutes et de corriger l’erreur.
Notez et conservez l’information des manipulations de vos données. Par exemple, écrivez ces informations dans un document README ou dans un onglet séparé dans excel.
Exercice 2:
Une étude a été faite pour déterminer le sexe et le poids des animaux attrapés dans différentes parcelles expérimentales. L’expérience a été répétées sur deux années.
- Ouvrez le fichier “dataset_messy.xls” situé dans le dossier “session1_organisation/data”. Ce fichier contient les données enregistrées lors de l’étude.
- A partir des bonnes habitudes d’organisation indiquées plus haut, identifiez les problèmes de format dans ces données. Discutez-en
Les données ne doivent pas être éparpillées dans plusieurs tableaux ou onglets
Les données manquantes doivent être indiquées par une cellule vide ou un “NA”. Un zéro doit être utilisé pour les zéros et non pour des données manquantes.
Le formatage (gras, cellules colorées etc) et commentaires ne doivent pas être utilisés. Les données importantes doivent être associées à une variable (par exemple dans le nom de la colonne).
Ne pas utiliser de caractères spéciaux (comme !
, #
, *
).
Pour que ce soit compatible avec R, utiliser _
plutôt que des espaces entre les mots.
Attention aux dates! Cela peut causer des problèmes de format d’un tableur à un autre. Le mieux est de garder le jour, le mois et l’année comme des variables (colonnes) séparées
Bien que excel est souvent utilisé, son format de fichier par défaut n’est malheureusement pas compatible avec d’autres programmes, y compris R
. Pour cela le mieux est d’enregistrer les données tabulaires dans un format texte.
Les deux formats les plus utilisés sont:
CSV (séparateur: virgule (UK, US) ou point-virgule (EU))
TXT (séparateur: tabulation)
Attention: les documents avec un format CSV qui ont un séparateur virgule ou un séparateur point-virgule ne sont pas la même chose. Les confondre peut poser des problèmes lors de l’import des données dans R
. C’est pourquoi nous recommandons de sauver les données en format TXT (séparateur: tabulation) pour ensuite pouvoir les importer dans `R
.
Pour cela, dans excel, choisissez “Enregistrez sous” et ensuite sélectionnez le format TXT (séparateur: tabulation) .
Exercice:
- Ouvrez le fichier “dataset_tidy.xls” dans le dossier “session1_organisation/data”
- Regardez le tableau, est-ce que vous pouvez comprendre ce qu’il contient?
- Exportez les données au format TXT (séparateur: tabulation) et sauvez le dans le dossier “session1_organisation/data”
Comment organiser ses dossiers et fichiers?
Bien organiser ses dossiers
La manière dont vous allez organiser vos dossiers et fichiers va dépendre du type de données que vous générez pour votre projet. Il n’y a donc pas de solution universelle, mais vous pouvez suivre les principes suivants pour que quelqu’un qui n’est pas familier avec votre projet puisse comprendre ce que vous avez fait en regardant vos dossiers et fichiers. A contrario une mauvaise organisation des fichiers et documents peut rendre votre tache plus difficile.
Principes clés:
Décidez de la structure des dossiers et sous-dossiers avant de commencer le projet
Gardez tous les documents d’un projet dans le même dossier
Garder les données brutes séparément et ne les changez jamais (faites un copie que vous pouvez modifier)
Incluez un document README qui contient une courte description des différents documents ainsi que les métadonnées et autres information
Exemple de structure d’un projet
Bien nommer ses fichiers
Les principes principaux pour nommer vos fichiers sont qu’ils doivent être:
Des fichiers lisibles par un ordinateur
C’est important pour pouvoir facilement chercher (et trouver!) des fichiers d’intérêt, filtrer des fichiers en fonction de leur nom et extraire des informations utiles à partir du nom du fichier.
Pour cela:
ordonnez les éléments dans le nom du fichier du plus général au plus spécifique
évitez les caractères spéciaux comme
* : \ / < > | " ? [ ] ; = + & £ $
Ne mettez pas d’espaces pour séparer les éléments dans le nom du fichier
choisissez une convention et tenez vous y:
toutenminuscule, exemple: adjustcolor
separe.par.un.point, exemple: plot.new
separe_par_un_tiret_bas, exemple: numeric_version
camelCase ou CamelCase, exemple: addTaskCallback ou SignatureMethod
Des fichiers lisibles par un humain
Des noms de fichiers lisibles par des humains doivent:
contenir des informations sur ce que le fichier contient
ne pas contenir d’abréviations et codes qui ne sont pas connus de tous
être courts et avoir du sens
contenir la version du fichier (par exemple ajouter v00, v01, v02 etc à la fin d’un fichier pour identifier les différentes modifications effectuées) si un outil de versionnage différentiel n’est pas utilisé.
Des fichiers ordonnés de manière logique dans vos dossiers
Afin que les fichiers soient ordonnés de manière logique dans vos dossiers, commencez le nom du fichier avec un préfixe qui assure un ordonnancement alphabétique qui est logique pour vous. Par exemple:
utilisez un préfixe numérique, en s’assurant d’utiliser un zéro à gauche (01 au lieu de 1)
utilisez un format de date standard de type AAAA-MM-JJ