Description des données

Pour l’examen blanc, vous allez analyser des données extraites de Chiang et al., 2011.

Il s’agit de données issues d’expériences pour mesurer l’expression de gènes contrôlant la germination chez Arabidopsis thaliana. Pour cela, des plantes génétiquement différentes les unes des autres (variable Ecotype), ont été mises à germer sous le design expérimental suivant :

Différents traitements en longueur de jours et en température pour la plante qui produit les graines : “LW” (long day, warm), “SW” (short day, warm), “SC” (short day, cold). Cette variable est nommée SeedMaturation.
Les écotypes (variable Ecotype) choisis sont originaires d’une localisation du “Nord” ou du “Sud” de l’Europe, pour étudier l’effet de la géographie sur la germination (variable Geography).

Illustration de la provenance des écotypes de l’étude:

Source: Chiang et al., 2011

Différents stades de développement de la silique (capsule entourant les graines) ont été analysés :“Early” et “Late”, encodés dans la variable SiliqueDevelopmentalStage.
L’expression de deux gènes d’intérêt pour la germination, DOG1 et NCED9, normalisée par un gène contrôle, sont rapportés dans chacune des combinaisons des variables précédentes.

La normalisation a été effectuée avec la formule suivante:

\[ log_2(\frac{\text{expression du gène d'intérêt}}{\text{expression du gène contrôle}}) \]

Cette normalisation des données est utilisée car :

La division par l’expression du gène contrôle permet de s’affranchir de biais expérimentaux
Le passage au log permet de resserrer la distribution des valeurs d’expression, qui serait sinon étalée vers des valeurs trop extrêmes. Entre autre, cela permet de faire des visualisations plus claires.

Les valeurs obtenues sont centrées autour de zéro. Pour chaque gènes:

Les valeurs positives indiquent une expression supérieure au gène contrôle
Les valeurs négatives indiquent une expression inférieure au gène contrôle

Enfin, plusieurs mesures dans des conditions identiques sont réalisées, c’est ce que représente la variable Replicate.

Préparation de l’environnement de travail

Question 0 # 2 points

Chargez les librairies dont vous aurez besoin.

library(tidyverse)

## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.0 ──

## ✔ ggplot2 3.3.6      ✔ purrr   0.3.4 
## ✔ tibble  3.1.8      ✔ dplyr   1.0.10
## ✔ tidyr   1.2.1      ✔ stringr 1.4.0 
## ✔ readr   1.4.0      ✔ forcats 0.5.2

## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()

library(visdat)

Définissez le working directory de R pour être dans le dossier de l’exam.

getwd() #regarder où est le répertoire de travail
setwd("Bureau/Exam-20211209/") #changer le répertoire de travail

Chargez le fichier DOG1_Expression_clean.txt (qui est dans le dossier /data), qui contient les données d’expression, dans R et sauvez le dans un objet.

Aide: Utilisez la fonction appropriée pour le type de données (dans ce cas, des colonnes séparées par une tabulation)

expt1 <- read_tsv("data/DOG1_Expression_clean.txt")

## 
## ── Column specification ────────────────────────────────────────────────────────
## cols(
##   Ecotype = col_character(),
##   SeedMaturation = col_character(),
##   Replicate = col_character(),
##   Geography = col_character(),
##   SiliqueDevelopmentalStage = col_character(),
##   DOG1_normControl = col_double(),
##   NCED9_normControl = col_double()
## )

Pensez à inspecter ce que retourne cette commande dans la console pour avoir un tout premier aperçu des données et vérifier qu’elles sont encodées correctement.

# Pour inspecter les données, utilisez la fonction 
# View(expt1)

Vérification des données

Avant d’analyser les données, la première étape consiste à vérifier que le tableau importé dans R contient bien les données attendues.

Question 1 1.5 points

Y a t il des valeurs manquantes dans les données? Comment le voyez vous?

vis_dat(expt1)

## Warning: `gather_()` was deprecated in tidyr 1.2.0.
## Please use `gather()` instead.

Il n’y a pas de données manquantes dans ce tableau. En utilisant la fonction vis_dat, les données manquantes apparaissent en gris. Nous ne détectons aucune zone grise dans la figure, il n’y a donc pas de données manquantes.

Question 2 2.5 points

Combien y-a-t-il d’écotypes différents? Donnez la liste des écotypes

distinct(expt1, Ecotype)

## # A tibble: 12 × 1
##    Ecotype
##    <chr>  
##  1 Bil-7  
##  2 Ct-1   
##  3 Cvi-0  
##  4 Edi-0  
##  5 Fei-0  
##  6 Ge-0   
##  7 Lov-5  
##  8 Mir-0  
##  9 Pro-0  
## 10 Sf-2   
## 11 Tamm-27
## 12 Ull-2-3

#nous donne la liste des différentes variables contenues dans la colonne ecotype

Il y a 12 écotypes: Bil-7, Ct-1, Cvi-0, Edi-0, Fei-0, Ge-0, Lov-5, Mir-0, Pro-0, Sf-2, Tamm-27 et Ull-2-3.

Etude de l’expression de gènes d’intérêt pour la germination

Question 3 8 points

Faites une figure représentant les niveaux d’expression des deux gènes (DOG1 et NCED9) suivant le stade de développement des siliques, l’origine géographique, et les conditions de maturation des graines, et ce uniquement pour des plantes ayant poussé en jours courts à température élevée.

Aide : Pour cela, filtrez les données pour garder seulement la condition de maturation “SW”. Changez le format du tableau pour passer au format long avec une colonne contenant le nom du gène et une colonne contenant les valeurs d’expression. Puis, réalisez le graphe demandé de l’expression des gènes en fonction de la provenance géographique des plantes. Nous souhaitons une représentation en boxplots colorés suivant le stade de développement des siliques, et avec le gène en facet.

expt1 %>%
  filter(SeedMaturation == "SW")%>% #garder uniquement les plantes ayant la condition de maturation SW
  gather("gene","expression_value",DOG1_normControl,NCED9_normControl)%>% #passer le tablea au format long
  ggplot(aes(x=Geography, y=expression_value, colour = SiliqueDevelopmentalStage))+ #création du graphique
  geom_boxplot()+ #forme du graphique
  facet_grid(.~gene) #facet en fonction des gènes

Formulez une interprétation complète de ce que nous apprend cette figure quant à l’influence de la géographie, et du stade de développement sur l’expression de nos gènes d’intérêts.

La géographie ne semble pas avoir un impact sur l’expression du gène NCED9. En revanche, au début du stade de développement de la silique, le gène DOG1 est moins exprimé au Nord qu’au Sud. Les 2 gènes semblent plus exprimés à la fin du développement de la silique qu’au début, quelque soit la géographie.

Question 4 4 points

Compte tenu des résultats de l’analyse d’expression des gènes, DOG1 semble être un gène important pour la germination. Nous allons donc nous concentrer sur ce gène pour la suite de l’exam.

Pour vérifier si l’effet du stade de développement de la silique sur l’expression de DOG1 est observé pour tous les génotypes, mesurez la moyenne de l’expression normalisée de DOG1 aux deux stades de développement de la silique pour chaque génotype, et ce uniquement pour des plantes ayant poussé en jours courts à température élevée.

Aide : Pour cela, commencez par filtrer les observations pour garder la condition de maturation “SW”. Groupez les échantillons en fonction de l’écotype et du stade de développement de la silique. Et enfin calculez la moyenne de l’expression de DOG1 pour chaque groupe.

expt2 <-expt1 %>% #création d'un nouvel objet pour voir en entier le tableau contenant les moyennes
  filter(SeedMaturation == "SW") %>%
  group_by(Ecotype, SiliqueDevelopmentalStage) %>%
  summarise(mean.DOG1.expression = mean(DOG1_normControl)) #permet d'obtenir la moyennne de l'expression de DOG

## `summarise()` has grouped output by 'Ecotype'. You can override using the
## `.groups` argument.

expt2

## # A tibble: 24 × 3
## # Groups:   Ecotype [12]
##    Ecotype SiliqueDevelopmentalStage mean.DOG1.expression
##    <chr>   <chr>                                    <dbl>
##  1 Bil-7   Early                                   -9.04 
##  2 Bil-7   Late                                    -2.34 
##  3 Ct-1    Early                                   -2.44 
##  4 Ct-1    Late                                    -0.299
##  5 Cvi-0   Early                                   -4.70 
##  6 Cvi-0   Late                                    -1.86 
##  7 Edi-0   Early                                   -6.39 
##  8 Edi-0   Late                                    -0.668
##  9 Fei-0   Early                                   -4.66 
## 10 Fei-0   Late                                    -0.847
## # … with 14 more rows

# Pour regarder les résultats pour tous les écotypes, utilisez la fonction 
# View(expt2)

Observez vous une différence d’expression en fonction du stade de développement de la silique pour tous les écotypes?

Oui en moyenne, le gène DOG1 est moins exprimé dans les siliques étant au début de leur stade de développement, par rapport à celles étant à la fin de leur stade de développement

Y a t’il des écotypes pour lesquels la différence est faible? Si oui, lesquels?

La différence est faible pour l’écotype Sf-2. L’expression moyenne de DOG1 est de -0.5562486 pour le stade de développement “early” de la silique, contre -0.7920263 pour le stade “late”.

Etude du gène DOG1 en utilisant une base de donnée en ligne

Question 5 3 points

Compte tenu des résultats obtenus jusqu’ici, DOG1 semble être un gène qui peut être important dans la germination des graines d’Arabidopsis thaliana. En utilisant l’application ePlant de BAR de l’Université de Toronto trouvez les informations suivantes sur le gène DOG1:

- Quel est le numéro unique de DOG1 (du format AT1G12345)?

Le numéro unique de DOG1 est AT5G45830.

- Dans quel tissu de la plante est ce que le gène DOG1 est exprimé? Faites un screenshot de la figure de ePlant qui vous a permis de répondre et envoyez le par mail en même temps que votre script R.

Aide: Utilisez le Plant eFP viewer. Pour prendre un screenshot, utilisez l’icône sur l’interface de ePlant ci dessous pour enregistrer l’image dans le répertoire de l’examen, puis envoyez le par mail en même temps que votre script R

Capture d’écran de ePlant pour DOG1

Le gène DOG1 est exprimé dans les graines, en particulier au stade 9 (cotylédons) qui est un stade tardif. Cette observation est en accord avec les résultats des questions 3 et 4 montrant que DOG1 est plus exprimé à un stade tardif du développement de la graine pour la grande majorité des écotypes étudiés.

Solution de l’examen blanc : Introduction à la bioinformatique pour la biologie végétale

Sandra Cortijo, Océane Cassan, Mathieu Ingouff