Comprendre les
Données
Ce guide explique le pourquoi derrière chaque règle — pas seulement ce qu'il faut mémoriser, mais comment réfléchir aux données. Travaille chaque section dans l'ordre, essaie chaque question de point de contrôle, puis révèle la réponse pour te vérifier.
Toutes les données ne se ressemblent pas. Avant de choisir un graphique ou de calculer une moyenne, il faut savoir quel type de données on a. Un mauvais choix de graphique peut rendre une analyse complètement trompeuse.
Si tu comptes le nombre d'enfants dans une famille, tu ne peux pas obtenir 2,3 enfants — ce sont des données discrètes. Mais si tu mesures la taille de ces enfants, tu peux obtenir 132,7 cm — des données continues. Ce choix détermine quel type de graphique est approprié : un diagramme à bandes pour le discret, un histogramme pour le continu.
Les quatre types de données
| Type | Description | Exemples |
|---|---|---|
| Qualitatives (catégorielles) | Décrivent une catégorie ou une qualité — pas un nombre | Couleur des yeux, sport préféré, genre |
| Quantitatives | Exprimées sous forme de nombre — mesurées ou comptées | Taille, température, nombre de frères et sœurs |
| Discrètes | Dénombrables, valeurs entières spécifiques seulement | Nombre d'élèves : 0, 1, 2, 3 … |
| Continues | Peuvent prendre n'importe quelle valeur dans un intervalle | Taille : 162,3 cm, temps : 4,72 s |
Population et échantillon
En statistiques, on étudie rarement tout le monde — c'est souvent trop long ou trop coûteux. On utilise alors un échantillon.
Imagine qu'on veuille connaître la taille moyenne de tous les élèves du Québec. Il est impossible de mesurer chaque élève. On choisit donc un sous-groupe représentatif — un échantillon. Si l'échantillon est bien choisi (aléatoire et sans biais), ses résultats se généralisent à toute la population.
- Population : tous les individus du groupe étudié (ex. : tous les élèves du Québec)
- Échantillon : un sous-groupe sélectionné dans la population pour la représenter
- Un bon échantillon est aléatoire et représentatif — sans biais
- Un échantillon biaisé mène à des conclusions peu fiables
Température (°C) → quantitative, continue (mesurée, valeurs décimales possibles)
Nombre de livres lus → quantitative, discrète (comptée, entiers seulement)
Masse (kg) → quantitative, continue (mesurée, ex. : 52,4 kg)
La population est tous les adolescents québécois (trop nombreux pour tous sonder).
L'échantillon est les 400 élèves sondés dans les 10 écoles choisies.
Si les 10 écoles sont toutes dans de grandes villes, les élèves ruraux sont sous-représentés. L'accès aux réseaux sociaux peut différer selon la région. Un échantillon aléatoire provenant de toutes les régions serait plus représentatif.
b) Quelle est la différence entre une population et un échantillon ?
c) Un sondage demande aux élèves d'une seule classe leur couleur préférée, puis prétend représenter toute l'école. Quel problème vois-tu ?
a) Qualitative : matière préférée (mathématiques, français…). Continue : le temps mis pour compléter un examen (ex. : 42,5 minutes).
b) La population est l'ensemble complet des individus étudiés. L'échantillon est un sous-groupe sélectionné pour représenter cette population.
c) L'échantillon n'est pas représentatif — il ne comprend qu'une classe. Les préférences peuvent varier selon l'âge, le groupe, etc. On ne peut pas généraliser à toute l'école.
Quand on a une longue liste de données, il est difficile d'en tirer des conclusions. Un tableau de distribution de fréquences regroupe les données pour les rendre lisibles.
Imagine deux classes : l'une a 25 élèves, l'autre 32. Comparer les fréquences brutes n'a pas de sens (« 10 sur 25 » vs « 10 sur 32 »). Les fréquences relatives (pourcentages) permettent de comparer équitablement des groupes de tailles différentes.
Tableau de distribution de fréquences
Un tableau de fréquences liste chaque valeur (ou intervalle) et le nombre de fois qu'elle apparaît. La fréquence relative est la proportion par rapport au total.
Diagramme à tiges et à feuilles
Le diagramme à tiges et à feuilles affiche les données en ordre tout en conservant les valeurs originales. La tige représente le ou les chiffres de tête ; la feuille est le dernier chiffre.
7 : apparaît 5 fois
8 : apparaît 4 fois
9 : apparaît 2 fois
10 : apparaît 1 fois
Total : 15
7 : 5/15 × 100 % = 33,3 %
8 : 4/15 × 100 % = 26,7 %
9 : 2/15 × 100 % = 13,3 %
10 : 1/15 × 100 % = 6,7 %
Les tiges sont : 2, 3, 4, 5
3 | 3 4 6 8
4 | 1 1 5 8
5 | 2
b) Quelle est la différence entre fréquence et fréquence relative ?
c) Pourquoi trie-t-on les feuilles en ordre croissant dans un diagramme à tiges et à feuilles ?
a) Soccer : 8/20 = 40 % | Basketball : 5/20 = 25 % | Hockey : 4/20 = 20 % | Tennis : 3/20 = 15 %. Total : 100 % ✓
b) La fréquence est le nombre brut d'occurrences (ex. : 8 élèves). La fréquence relative est la proportion par rapport au total, exprimée en fraction ou en pourcentage (ex. : 40 %).
c) Trier les feuilles permet de repérer rapidement la médiane, le mode, et de voir la distribution des données en un coup d'œil.
Une mesure de tendance centrale résume un ensemble de données par une seule valeur représentative. Il en existe trois : la moyenne, la médiane et le mode. Chacune a ses forces et ses faiblesses.
Suppose que 5 amis gagnent ces montants : 20 $, 22 $, 21 $, 19 $, 118 $. La moyenne est (200/5) = 40 $, mais 4 amis sur 5 gagnent autour de 21 $. La valeur de 118 $ « tire » la moyenne vers le haut. La médiane (21 $) représente mieux la situation. Voilà pourquoi le choix de la mesure dépend des données.
Trouver la médiane — méthode détaillée
- Étape 1 : trier toutes les données en ordre croissant
- Étape 2 (n impair) : la médiane est la valeur du milieu — position (n+1)/2
- Étape 2 (n pair) : la médiane est la moyenne des deux valeurs centrales — positions n/2 et n/2+1
3, 4, 5, [6], 6, 8, 9 → médiane = 6
Moyenne = (310 + 315 + 320 + 325 + 330 + 890) / 6 = 2490 / 6 = 415 $
Médiane = (320 + 325) / 2 = 322,50 $
La moyenne (415 $) est beaucoup plus élevée que le salaire de 5 employés sur 6. Le salaire de 890 $ (valeur aberrante) tire la moyenne vers le haut. La médiane (322,50 $) est bien plus représentative du salaire typique.
b) Quand préfère-t-on utiliser la médiane plutôt que la moyenne ?
c) Un ensemble de données peut-il avoir deux modes ? Donne un exemple.
a) Triées : 7, 7, 7, 9, 11, 12, 14, 15 (8 valeurs)
Moyenne = (7+7+7+9+11+12+14+15)/8 = 82/8 = 10,25
Médiane = (9+11)/2 = 10 (4e et 5e valeurs)
Mode = 7 (apparaît 3 fois)
b) On préfère la médiane quand il y a des valeurs aberrantes ou que les données sont asymétriques, car elle n'est pas influencée par les valeurs extrêmes.
c) Oui. Exemple : {2, 3, 3, 5, 5, 7} a deux modes : 3 et 5. On dit que l'ensemble est bimodal.
Deux ensembles de données peuvent avoir la même moyenne, mais des distributions très différentes. Les mesures de dispersion nous donnent une idée de l'étalement des données autour de la valeur centrale.
Classe A : notes de {60, 70, 70, 80} → moyenne = 70. Classe B : notes de {20, 70, 70, 120} → moyenne = 70. Les deux classes ont la même moyenne, mais la classe B est beaucoup plus variée. Sans mesure de dispersion, on manque une information essentielle.
Équipe B : (55+80+62+85+68)/5 = 350/5 = 70
Équipe B : 85 − 55 = 30
Les deux équipes ont la même moyenne (70), mais l'équipe A est beaucoup plus constante (étendue = 4) que l'équipe B (étendue = 30). Sans l'étendue, on ne verrait pas cette différence importante.
b) Deux classes ont une étendue de 40 points. Cela signifie-t-il que leurs résultats sont identiques ? Explique.
c) Pourquoi l'étendue peut-elle être trompeuse si les données contiennent une valeur aberrante ?
a) Maximum = 61, minimum = 29. Étendue = 61 − 29 = 32.
b) Non. Deux classes peuvent avoir la même étendue mais des distributions très différentes. L'étendue indique seulement la plage totale, pas la façon dont les données sont réparties à l'intérieur.
c) Une seule valeur aberrante (très haute ou très basse) peut gonfler l'étendue même si toutes les autres données sont très regroupées. L'étendue est très sensible aux valeurs extrêmes.
Un graphique bien choisi révèle des tendances qu'un tableau ne montre pas. Un graphique mal choisi peut induire en erreur. La clé est de faire correspondre le type de graphique au type de données et à la question posée.
Dans un histogramme, les données continues forment un flux ininterrompu — il n'y a pas d'espace entre « 1,50 m » et « 1,60 m ». Les barres se touchent pour montrer cette continuité. Dans un diagramme à bandes, les catégories (hockey, soccer, tennis) sont séparées et distinctes — les espaces entre les barres symbolisent cette séparation.
Guide de choix du graphique
| Graphique | Idéal pour | Caractéristique principale |
|---|---|---|
| Diagramme à bandes | Comparer des catégories (données qualitatives ou discrètes) | Les barres ne se touchent pas ; hauteur = fréquence |
| Histogramme | Données continues regroupées en intervalles | Les barres se touchent ; pas d'espace entre elles |
| Diagramme brisé | Données dans le temps (montrer des tendances) | Points reliés par des segments de droite |
| Diagramme à secteurs (circulaire) | Parties d'un tout (fréquences relatives) | Angle au centre = (fréq/total) × 360° |
| Diagramme à tiges et à feuilles | Montrer la distribution de petits ensembles de données | Conserve les valeurs originales |
Diagramme à secteurs — calcul de l'angle au centre
Dans un diagramme à secteurs, chaque secteur représente une catégorie. L'angle au centre est proportionnel à la fréquence relative de la catégorie.
Soccer : (9/30) × 360° = 0,3 × 360° = 108°
Basketball : (6/30) × 360° = 0,2 × 360° = 72°
Tennis : (3/30) × 360° = 0,1 × 360° = 36°
a) La température quotidienne de Montréal pendant un mois.
b) La répartition des genres de films préférés par les élèves d'une classe.
c) La distribution des tailles (en cm) de 50 élèves.
Diagramme brisé. On observe l'évolution d'une variable continue dans le temps. Le diagramme brisé montre les tendances et les variations d'un jour à l'autre.
Diagramme à bandes ou diagramme à secteurs. Les genres (action, comédie, horreur…) sont des catégories qualitatives. Le diagramme à bandes compare facilement les fréquences ; le diagramme à secteurs montre les proportions du tout.
Histogramme. La taille est une donnée continue. On regroupera les données en intervalles (ex. : 155–160 cm, 160–165 cm…). Les barres de l'histogramme se touchent pour refléter la continuité.
b) Quelle est la principale différence entre un histogramme et un diagramme à bandes ?
c) Un élève trace un diagramme brisé pour montrer les couleurs préférées de sa classe. Est-ce un bon choix ? Pourquoi ?
a)
Français : (16/40) × 360° = 144°
Mathématiques : (12/40) × 360° = 108°
Sciences : (8/40) × 360° = 72°
Histoire : (4/40) × 360° = 36°
Total : 144 + 108 + 72 + 36 = 360° ✓
b) Un histogramme représente des données continues regroupées en intervalles — ses barres se touchent. Un diagramme à bandes représente des catégories distinctes — ses barres ne se touchent pas, avec des espaces entre elles.
c) Non, c'est un mauvais choix. Le diagramme brisé s'utilise pour des données évoluant dans le temps ou des données ordonnées. Les couleurs préférées sont des catégories sans ordre ni progression temporelle. Un diagramme à bandes ou à secteurs serait plus approprié.