Analyse statistique

L’analyse statistique doit être conçue dès la formulation de la question de recherche et de la Rédaction du protocole / description du projet. La méthode prévue peut être discutée ou soumise pour expertise à un·e staticien·ne de la Consultation de biostatistique (UCB).

Le choix des outils statistiques dépend de la nature et de la structure du projet de recherche.

Appliquée aux sciences de la vie, la statistique permet de :

  • Organiser des données hétérogènes issues d’observations individuelles ;
  • Décrire les phénomènes à l’aide de paramètres synthétisant ces observations ;
  • Estimer les valeurs de ces paramètres au sein des populations d’origine des échantillons observés ;
  • Comparer ces paramètres entre différentes populations ;
  • Prédire la probabilité de survenue de certains événements.

Pour décrire, mesurer et observer les phénomènes, la statistique s’appuie sur des variables. Celles-ci constituent la base fondamentale de toute démarche statistique.
En réalisant des observations, des essais ou des mesures, on peut mettre en évidence des associations entre variables, découvrir de nouveaux concepts, et formuler des hypothèses ou des théories.

Population, variables, observations et données

Qu’il s’agisse de concevoir un plan d’expérience, de mener une enquête par sondage, d’ajuster un modèle empirique, de tester une hypothèse, de réaliser une prévision ou simplement de représenter graphiquement des séries de données, la méthode statistique repose sur quatre concepts fondamentaux : la population, les variables, les observations et les données.

  • Le concept de population permet de définir précisément le champ du projet de recherche ;
  • Les variables servent à concrétiser les phénomènes à analyser ;
  • L’observation établit le lien entre la réalité et la théorie ;
  • Les données, issues directement ou indirectement des observations, constituent la matière première du traitement statistique.

Description des données et analyse de leur distribution

Une fois les données recueillies (voir les pages Gestion des données: planification et Gestion des données: collecte), l’étape suivante consiste à les décrire de manière synthétique.

Trois méthodes principales permettent de représenter un ensemble de données statistiques ou une distribution :

  • Les tableaux ;
  • Les diagrammes ;
  • Le calcul de paramètres simples résumant l’ensemble de la distribution.

Lorsque les valeurs d’une variable ont été collectées, ordonnées et classées, leur distribution est étudiée, c’est-à-dire la répartition des fréquences des individus dans chaque classe.
Décrire cette distribution constitue l’une des premières étapes de l’analyse.

Parmi les modèles de distribution les plus couramment utilisés, on retrouve ceux régis par la loi binomiale, la loi de Poisson et la loi normale.

Tests et modèles statistiques

Lorsqu’on compare deux ou plusieurs séries de données, on observe presque toujours une certaine différence entre les paramètres mesurés. Le rôle du test statistique est de déterminer si cette différence est simplement le fruit du hasard — autrement dit, des fluctuations d’échantillonnage — ou si elle reflète une différence réelle.

Un test statistique s’inscrit dans une démarche scientifique rigoureuse. Celle-ci commence par la formulation d’hypothèses, fondées sur des observations ou des connaissances antérieures. Ces hypothèses sont ensuite mises à l’épreuve à l’aide de tests statistiques. Selon les résultats obtenus, elles peuvent être acceptées ou rejetées. Ce processus peut alors se poursuivre avec la formulation de nouvelles hypothèses, qui seront à leur tour testées.

Critères de choix d’un test statistique

Le choix d’un test dépend de plusieurs facteurs qu’il importe d’identifier au préalable.

La nature des variables à comparer :

  • Quantitative continue ou discrète ;
  • Qualitative binaire ;
  • Qualitative nominale à plusieurs classes ;
  • Qualitative ordinale

Les grandeurs étudiées :

  • Moyennes
  • Pourcentages
  • Variances
  • Effectifs
  • Rangs

La nature du problème :

  • Comparaison d’un échantillon à une population de référence ;
  • Comparaison de deux échantillons ;
  • Comparaison de plusieurs échantillons ;
  • Liaison entre deux variables

Le type de séries comparées :

  • Indépendantes
  • Appariées

La taille des échantillons

Les conditions d’applications des tests. Selon les cas :

  • Normalité des distributions dans la population d’où est issu l’échantillon ;
  • Égalité des variances
  • Taille minimum des échantillons 

Sauvegardes

Il est important de sauvegarder une version brute des données avant de faire les analyses. De même, il faut conserver et documenter les scripts stata / R. 

Bibliographie:

Liens utiles:

Contacts:

Consultation de biostatistique (UCB)

 

Dernière révision le 07.10.2025