Pour l’examen blanc, vous allez analyser des données extraites de Chiang et al., 2011.
Il s’agit de données issues d’expériences pour mesurer l’expression de gènes contrôlant la germination chez Arabidopsis thaliana. Pour cela, des plantes génétiquement différentes les unes des autres (variable Ecotype
), ont été mises à germer sous le design expérimental suivant :
Différents traitements en longueur de jours et en température pour la plante qui produit les graines : “LW” (long day, warm), “SW” (short day, warm), “SC” (short day, cold). Cette variable est nommée SeedMaturation.
Les écotypes (variable Ecotype
) choisis sont originaires d’une localisation du “Nord” ou du “Sud” de l’Europe, pour étudier l’effet de la géographie sur la germination (variable Geography
).
Illustration de la provenance des écotypes de l’étude:
Source: Chiang et al., 2011
Différents stades de développement de la silique (capsule entourant les graines) ont été analysés :“Early” et “Late”, encodés dans la variable SiliqueDevelopmentalStage.
L’expression de deux gènes d’intérêt pour la germination, DOG1 et NCED9, normalisée par un gène contrôle, sont rapportés dans chacune des combinaisons des variables précédentes.
La normalisation a été effectuée avec la formule suivante:
\[ log_2(\frac{\text{expression du gène d'intérêt}}{\text{expression du gène contrôle}}) \]
Cette normalisation des données est utilisée car :
La division par l’expression du gène contrôle permet de s’affranchir de biais expérimentaux
Le passage au log permet de resserrer la distribution des valeurs d’expression, qui serait sinon étalée vers des valeurs trop extrêmes. Entre autre, cela permet de faire des visualisations plus claires.
Les valeurs obtenues sont centrées autour de zéro. Pour chaque gènes:
Les valeurs positives indiquent une expression supérieure au gène contrôle
Les valeurs négatives indiquent une expression inférieure au gène contrôle
Replicate
.Chargez les librairies dont vous aurez besoin.
library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.0 ──
## ✔ ggplot2 3.3.6 ✔ purrr 0.3.4
## ✔ tibble 3.1.8 ✔ dplyr 1.0.10
## ✔ tidyr 1.2.1 ✔ stringr 1.4.0
## ✔ readr 1.4.0 ✔ forcats 0.5.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
library(visdat)
Définissez le working directory de R pour être dans le dossier de l’exam.
getwd() #regarder où est le répertoire de travail
setwd("Bureau/Exam-20211209/") #changer le répertoire de travail
Chargez le fichier DOG1_Expression_clean.txt (qui est dans le dossier /data), qui contient les données d’expression, dans R et sauvez le dans un objet.
Aide: Utilisez la fonction appropriée pour le type de données (dans ce cas, des colonnes séparées par une tabulation)
expt1 <- read_tsv("data/DOG1_Expression_clean.txt")
##
## ── Column specification ────────────────────────────────────────────────────────
## cols(
## Ecotype = col_character(),
## SeedMaturation = col_character(),
## Replicate = col_character(),
## Geography = col_character(),
## SiliqueDevelopmentalStage = col_character(),
## DOG1_normControl = col_double(),
## NCED9_normControl = col_double()
## )
Pensez à inspecter ce que retourne cette commande dans la console pour avoir un tout premier aperçu des données et vérifier qu’elles sont encodées correctement.
# Pour inspecter les données, utilisez la fonction
# View(expt1)
Avant d’analyser les données, la première étape consiste à vérifier que le tableau importé dans R contient bien les données attendues.
Y a t il des valeurs manquantes dans les données? Comment le voyez vous?
vis_dat(expt1)
## Warning: `gather_()` was deprecated in tidyr 1.2.0.
## Please use `gather()` instead.
Il n’y a pas de données manquantes dans ce tableau. En utilisant la fonction vis_dat, les données manquantes apparaissent en gris. Nous ne détectons aucune zone grise dans la figure, il n’y a donc pas de données manquantes.
Combien y-a-t-il d’écotypes différents? Donnez la liste des écotypes
distinct(expt1, Ecotype)
## # A tibble: 12 × 1
## Ecotype
## <chr>
## 1 Bil-7
## 2 Ct-1
## 3 Cvi-0
## 4 Edi-0
## 5 Fei-0
## 6 Ge-0
## 7 Lov-5
## 8 Mir-0
## 9 Pro-0
## 10 Sf-2
## 11 Tamm-27
## 12 Ull-2-3
#nous donne la liste des différentes variables contenues dans la colonne ecotype
Il y a 12 écotypes: Bil-7, Ct-1, Cvi-0, Edi-0, Fei-0, Ge-0, Lov-5, Mir-0, Pro-0, Sf-2, Tamm-27 et Ull-2-3.
Faites une figure représentant les niveaux d’expression des deux gènes (DOG1 et NCED9) suivant le stade de développement des siliques, l’origine géographique, et les conditions de maturation des graines, et ce uniquement pour des plantes ayant poussé en jours courts à température élevée.
Aide : Pour cela, filtrez les données pour garder seulement la condition de maturation “SW”. Changez le format du tableau pour passer au format long avec une colonne contenant le nom du gène et une colonne contenant les valeurs d’expression. Puis, réalisez le graphe demandé de l’expression des gènes en fonction de la provenance géographique des plantes. Nous souhaitons une représentation en boxplots colorés suivant le stade de développement des siliques, et avec le gène en facet.
expt1 %>%
filter(SeedMaturation == "SW")%>% #garder uniquement les plantes ayant la condition de maturation SW
gather("gene","expression_value",DOG1_normControl,NCED9_normControl)%>% #passer le tablea au format long
ggplot(aes(x=Geography, y=expression_value, colour = SiliqueDevelopmentalStage))+ #création du graphique
geom_boxplot()+ #forme du graphique
facet_grid(.~gene) #facet en fonction des gènes
Formulez une interprétation complète de ce que nous apprend cette figure quant à l’influence de la géographie, et du stade de développement sur l’expression de nos gènes d’intérêts.
La géographie ne semble pas avoir un impact sur l’expression du gène NCED9. En revanche, au début du stade de développement de la silique, le gène DOG1 est moins exprimé au Nord qu’au Sud. Les 2 gènes semblent plus exprimés à la fin du développement de la silique qu’au début, quelque soit la géographie.
Compte tenu des résultats de l’analyse d’expression des gènes, DOG1 semble être un gène important pour la germination. Nous allons donc nous concentrer sur ce gène pour la suite de l’exam.
Pour vérifier si l’effet du stade de développement de la silique sur l’expression de DOG1 est observé pour tous les génotypes, mesurez la moyenne de l’expression normalisée de DOG1 aux deux stades de développement de la silique pour chaque génotype, et ce uniquement pour des plantes ayant poussé en jours courts à température élevée.
Aide : Pour cela, commencez par filtrer les observations pour garder la condition de maturation “SW”. Groupez les échantillons en fonction de l’écotype et du stade de développement de la silique. Et enfin calculez la moyenne de l’expression de DOG1 pour chaque groupe.
expt2 <-expt1 %>% #création d'un nouvel objet pour voir en entier le tableau contenant les moyennes
filter(SeedMaturation == "SW") %>%
group_by(Ecotype, SiliqueDevelopmentalStage) %>%
summarise(mean.DOG1.expression = mean(DOG1_normControl)) #permet d'obtenir la moyennne de l'expression de DOG
## `summarise()` has grouped output by 'Ecotype'. You can override using the
## `.groups` argument.
expt2
## # A tibble: 24 × 3
## # Groups: Ecotype [12]
## Ecotype SiliqueDevelopmentalStage mean.DOG1.expression
## <chr> <chr> <dbl>
## 1 Bil-7 Early -9.04
## 2 Bil-7 Late -2.34
## 3 Ct-1 Early -2.44
## 4 Ct-1 Late -0.299
## 5 Cvi-0 Early -4.70
## 6 Cvi-0 Late -1.86
## 7 Edi-0 Early -6.39
## 8 Edi-0 Late -0.668
## 9 Fei-0 Early -4.66
## 10 Fei-0 Late -0.847
## # … with 14 more rows
# Pour regarder les résultats pour tous les écotypes, utilisez la fonction
# View(expt2)
Observez vous une différence d’expression en fonction du stade de développement de la silique pour tous les écotypes?
Oui en moyenne, le gène DOG1 est moins exprimé dans les siliques étant au début de leur stade de développement, par rapport à celles étant à la fin de leur stade de développement
Y a t’il des écotypes pour lesquels la différence est faible? Si oui, lesquels?
La différence est faible pour l’écotype Sf-2. L’expression moyenne de DOG1 est de -0.5562486 pour le stade de développement “early” de la silique, contre -0.7920263 pour le stade “late”.
Compte tenu des résultats obtenus jusqu’ici, DOG1 semble être un gène qui peut être important dans la germination des graines d’Arabidopsis thaliana. En utilisant l’application ePlant de BAR de l’Université de Toronto trouvez les informations suivantes sur le gène DOG1:
- Quel est le numéro unique de DOG1 (du format AT1G12345)?
Le numéro unique de DOG1 est AT5G45830.
- Dans quel tissu de la plante est ce que le gène DOG1 est exprimé? Faites un screenshot de la figure de ePlant qui vous a permis de répondre et envoyez le par mail en même temps que votre script R.
Aide: Utilisez le Plant eFP viewer. Pour prendre un screenshot, utilisez l’icône sur l’interface de ePlant ci dessous pour enregistrer l’image dans le répertoire de l’examen, puis envoyez le par mail en même temps que votre script R
Capture d’écran de ePlant pour DOG1
Le gène DOG1 est exprimé dans les graines, en particulier au stade 9 (cotylédons) qui est un stade tardif. Cette observation est en accord avec les résultats des questions 3 et 4 montrant que DOG1 est plus exprimé à un stade tardif du développement de la graine pour la grande majorité des écotypes étudiés.