Sec 2 · Statistiques · Étude approfondie

Comprendre les
Données

Ce guide explique le pourquoi derrière chaque règle — pas seulement ce qu'il faut mémoriser, mais comment réfléchir aux données. Travaille chaque section dans l'ordre, essaie chaque question de point de contrôle, puis révèle la réponse pour te vérifier.

5 sections Exemples détaillés avec étapes Points de contrôle Explications intuitives
1
Types de données
Pourquoi on classe les données en catégories

Toutes les données ne se ressemblent pas. Avant de choisir un graphique ou de calculer une moyenne, il faut savoir quel type de données on a. Un mauvais choix de graphique peut rendre une analyse complètement trompeuse.

💭
Pourquoi la distinction discrète / continue est-elle importante ?
Si tu comptes le nombre d'enfants dans une famille, tu ne peux pas obtenir 2,3 enfants — ce sont des données discrètes. Mais si tu mesures la taille de ces enfants, tu peux obtenir 132,7 cm — des données continues. Ce choix détermine quel type de graphique est approprié : un diagramme à bandes pour le discret, un histogramme pour le continu.

Les quatre types de données

TypeDescriptionExemples
Qualitatives (catégorielles)Décrivent une catégorie ou une qualité — pas un nombreCouleur des yeux, sport préféré, genre
QuantitativesExprimées sous forme de nombre — mesurées ou comptéesTaille, température, nombre de frères et sœurs
DiscrètesDénombrables, valeurs entières spécifiques seulementNombre d'élèves : 0, 1, 2, 3 …
ContinuesPeuvent prendre n'importe quelle valeur dans un intervalleTaille : 162,3 cm, temps : 4,72 s
🔑
Truc pour ne pas confondre : Se demander « Est-ce que je peux mesurer ça avec un instrument (règle, balance, chronomètre) ? » Si oui, c'est probablement continu. « Est-ce que je peux seulement le compter ? » Si oui, c'est discret.

Population et échantillon

En statistiques, on étudie rarement tout le monde — c'est souvent trop long ou trop coûteux. On utilise alors un échantillon.

💭
Pourquoi utiliser un échantillon plutôt que la population entière ?
Imagine qu'on veuille connaître la taille moyenne de tous les élèves du Québec. Il est impossible de mesurer chaque élève. On choisit donc un sous-groupe représentatif — un échantillon. Si l'échantillon est bien choisi (aléatoire et sans biais), ses résultats se généralisent à toute la population.
  • Population : tous les individus du groupe étudié (ex. : tous les élèves du Québec)
  • Échantillon : un sous-groupe sélectionné dans la population pour la représenter
  • Un bon échantillon est aléatoire et représentatif — sans biais
  • Un échantillon biaisé mène à des conclusions peu fiables
Facile
Classer des données
Classe chaque donnée : couleur des cheveux, température (°C), nombre de livres lus, masse (kg)
Voir la solution
1
Analyser chaque donnée
Couleur des cheveux → qualitative (catégorie, pas un nombre)
Température (°C) → quantitative, continue (mesurée, valeurs décimales possibles)
Nombre de livres lus → quantitative, discrète (comptée, entiers seulement)
Masse (kg) → quantitative, continue (mesurée, ex. : 52,4 kg)
À retenir : Si on peut mesurer avec un instrument → continue. Si on compte des objets entiers → discrète. Si c'est une catégorie → qualitative.
Intermédiaire
Population ou échantillon ?
Une chercheuse veut savoir combien d'heures par semaine les adolescents québécois passent sur les réseaux sociaux. Elle sonde 400 élèves de secondaire dans 10 écoles différentes à travers le Québec. Identifie la population et l'échantillon. Le résultat pourrait-il être biaisé ?
Voir la solution
1
Identifier la population

La population est tous les adolescents québécois (trop nombreux pour tous sonder).

2
Identifier l'échantillon

L'échantillon est les 400 élèves sondés dans les 10 écoles choisies.

3
Analyser le biais potentiel

Si les 10 écoles sont toutes dans de grandes villes, les élèves ruraux sont sous-représentés. L'accès aux réseaux sociaux peut différer selon la région. Un échantillon aléatoire provenant de toutes les régions serait plus représentatif.

Réponse : Population = tous les ados québécois ; Échantillon = 400 élèves. Biais possible si les régions ne sont pas équilibrées.
Point de contrôle 1
a) Donne un exemple de donnée qualitative et un exemple de donnée quantitative continue tirés de la vie scolaire.
b) Quelle est la différence entre une population et un échantillon ?
c) Un sondage demande aux élèves d'une seule classe leur couleur préférée, puis prétend représenter toute l'école. Quel problème vois-tu ?

a) Qualitative : matière préférée (mathématiques, français…). Continue : le temps mis pour compléter un examen (ex. : 42,5 minutes).

b) La population est l'ensemble complet des individus étudiés. L'échantillon est un sous-groupe sélectionné pour représenter cette population.

c) L'échantillon n'est pas représentatif — il ne comprend qu'une classe. Les préférences peuvent varier selon l'âge, le groupe, etc. On ne peut pas généraliser à toute l'école.

2
Tableaux de fréquences
Organiser les données pour les analyser efficacement

Quand on a une longue liste de données, il est difficile d'en tirer des conclusions. Un tableau de distribution de fréquences regroupe les données pour les rendre lisibles.

💭
Pourquoi utiliser les fréquences relatives ?
Imagine deux classes : l'une a 25 élèves, l'autre 32. Comparer les fréquences brutes n'a pas de sens (« 10 sur 25 » vs « 10 sur 32 »). Les fréquences relatives (pourcentages) permettent de comparer équitablement des groupes de tailles différentes.

Tableau de distribution de fréquences

Un tableau de fréquences liste chaque valeur (ou intervalle) et le nombre de fois qu'elle apparaît. La fréquence relative est la proportion par rapport au total.

Fréquence relative
fréquence relative = fréquence / total × 100 %
Toutes les fréquences relatives doivent totaliser 100 %

Diagramme à tiges et à feuilles

Le diagramme à tiges et à feuilles affiche les données en ordre tout en conservant les valeurs originales. La tige représente le ou les chiffres de tête ; la feuille est le dernier chiffre.

💡
Avantage du diagramme à tiges et à feuilles : contrairement à un histogramme, il conserve chaque valeur individuelle. On peut retrouver la médiane et le mode directement depuis le diagramme une fois les données triées.
Facile
Construire un tableau de fréquences
Les notes d'un test sur 10 pour 15 élèves sont : 6, 7, 8, 7, 9, 6, 8, 8, 7, 10, 6, 9, 7, 8, 7. Construis un tableau de fréquences avec les fréquences relatives.
Voir la solution
1
Compter les occurrences de chaque valeur
6 : apparaît 3 fois
7 : apparaît 5 fois
8 : apparaît 4 fois
9 : apparaît 2 fois
10 : apparaît 1 fois
Total : 15
2
Calculer les fréquences relatives
6 : 3/15 × 100 % = 20 %
7 : 5/15 × 100 % = 33,3 %
8 : 4/15 × 100 % = 26,7 %
9 : 2/15 × 100 % = 13,3 %
10 : 1/15 × 100 % = 6,7 %
3
Vérifier que le total est correct
3 + 5 + 4 + 2 + 1 = 15 ✓    20 + 33,3 + 26,7 + 13,3 + 6,7 = 100 % ✓
À retenir : Toujours vérifier que la somme des fréquences = n et que les fréquences relatives totalisent 100 %.
Intermédiaire
Construire un diagramme à tiges et à feuilles
Données : 34, 41, 27, 38, 45, 29, 33, 41, 52, 36, 48, 27. Construis le diagramme à tiges et à feuilles en ordre croissant.
Voir la solution
1
Identifier les tiges (chiffre des dizaines)

Les tiges sont : 2, 3, 4, 5

2
Placer les feuilles (chiffre des unités) en ordre
2 | 7 7 9
3 | 3 4 6 8
4 | 1 1 5 8
5 | 2
3
Vérifier le nombre total de données
3 + 4 + 4 + 1 = 12 données ✓
À retenir : Toujours indiquer la légende : « tige = dizaines, feuille = unités ». Trier les feuilles en ordre croissant de gauche à droite.
Point de contrôle 2
a) 20 élèves ont répondu à un sondage. 8 préfèrent le soccer, 5 le basketball, 4 le hockey, 3 le tennis. Calcule la fréquence relative de chaque sport.
b) Quelle est la différence entre fréquence et fréquence relative ?
c) Pourquoi trie-t-on les feuilles en ordre croissant dans un diagramme à tiges et à feuilles ?

a) Soccer : 8/20 = 40 %  |  Basketball : 5/20 = 25 %  |  Hockey : 4/20 = 20 %  |  Tennis : 3/20 = 15 %. Total : 100 % ✓

b) La fréquence est le nombre brut d'occurrences (ex. : 8 élèves). La fréquence relative est la proportion par rapport au total, exprimée en fraction ou en pourcentage (ex. : 40 %).

c) Trier les feuilles permet de repérer rapidement la médiane, le mode, et de voir la distribution des données en un coup d'œil.

3
Mesures de tendance centrale
Trouver la valeur « typique » d'un ensemble de données

Une mesure de tendance centrale résume un ensemble de données par une seule valeur représentative. Il en existe trois : la moyenne, la médiane et le mode. Chacune a ses forces et ses faiblesses.

💭
Pourquoi avons-nous besoin de trois mesures différentes ?
Suppose que 5 amis gagnent ces montants : 20 $, 22 $, 21 $, 19 $, 118 $. La moyenne est (200/5) = 40 $, mais 4 amis sur 5 gagnent autour de 21 $. La valeur de 118 $ « tire » la moyenne vers le haut. La médiane (21 $) représente mieux la situation. Voilà pourquoi le choix de la mesure dépend des données.
Moyenne
somme de toutes les valeurs ÷ n
Médiane
valeur centrale (données triées)
Mode
valeur la plus fréquente

Trouver la médiane — méthode détaillée

  • Étape 1 : trier toutes les données en ordre croissant
  • Étape 2 (n impair) : la médiane est la valeur du milieu — position (n+1)/2
  • Étape 2 (n pair) : la médiane est la moyenne des deux valeurs centrales — positions n/2 et n/2+1
⚠️
Erreur classique : ne jamais chercher la médiane sans avoir d'abord trié les données ! Si les données ne sont pas en ordre, on ne peut pas identifier la valeur centrale correcte.
Facile
Calculer les trois mesures de tendance centrale
Données : 4, 8, 6, 5, 3, 9, 6. Calcule la moyenne, la médiane et le mode.
Voir la solution
1
Trier les données
3, 4, 5, 6, 6, 8, 9    (7 valeurs)
2
Calculer la moyenne
moyenne = (3 + 4 + 5 + 6 + 6 + 8 + 9) / 7 = 41 / 7 ≈ 5,86
3
Trouver la médiane
7 valeurs → position centrale = (7+1)/2 = 4e valeur
3, 4, 5, [6], 6, 8, 9 → médiane = 6
4
Trouver le mode
6 apparaît deux fois (toutes les autres valeurs, une fois) → mode = 6
Réponses : Moyenne ≈ 5,86  |  Médiane = 6  |  Mode = 6
Intermédiaire
Choisir la bonne mesure — l'effet des valeurs aberrantes
Les salaires hebdomadaires (en $) de 6 employés d'un café sont : 320, 310, 325, 315, 330, 890. Calcule la moyenne et la médiane. Laquelle représente mieux les salaires typiques ? Pourquoi ?
Voir la solution
1
Trier les données et calculer la moyenne
310, 315, 320, 325, 330, 890
Moyenne = (310 + 315 + 320 + 325 + 330 + 890) / 6 = 2490 / 6 = 415 $
2
Trouver la médiane (n = 6, nombre pair)
Positions centrales : 3e et 4e valeurs = 320 et 325
Médiane = (320 + 325) / 2 = 322,50 $
3
Comparer et interpréter

La moyenne (415 $) est beaucoup plus élevée que le salaire de 5 employés sur 6. Le salaire de 890 $ (valeur aberrante) tire la moyenne vers le haut. La médiane (322,50 $) est bien plus représentative du salaire typique.

Réponse : Médiane = 322,50 $ — elle représente mieux les données en présence d'une valeur aberrante (890 $).
Point de contrôle 3
a) Données : 12, 7, 15, 9, 7, 11, 14, 7. Calcule la moyenne, la médiane et le mode.
b) Quand préfère-t-on utiliser la médiane plutôt que la moyenne ?
c) Un ensemble de données peut-il avoir deux modes ? Donne un exemple.

a) Triées : 7, 7, 7, 9, 11, 12, 14, 15 (8 valeurs)
Moyenne = (7+7+7+9+11+12+14+15)/8 = 82/8 = 10,25
Médiane = (9+11)/2 = 10 (4e et 5e valeurs)
Mode = 7 (apparaît 3 fois)

b) On préfère la médiane quand il y a des valeurs aberrantes ou que les données sont asymétriques, car elle n'est pas influencée par les valeurs extrêmes.

c) Oui. Exemple : {2, 3, 3, 5, 5, 7} a deux modes : 3 et 5. On dit que l'ensemble est bimodal.

4
Mesures de dispersion
À quel point les données sont-elles dispersées ?

Deux ensembles de données peuvent avoir la même moyenne, mais des distributions très différentes. Les mesures de dispersion nous donnent une idée de l'étalement des données autour de la valeur centrale.

💭
Pourquoi la dispersion est-elle importante ?
Classe A : notes de {60, 70, 70, 80} → moyenne = 70. Classe B : notes de {20, 70, 70, 120} → moyenne = 70. Les deux classes ont la même moyenne, mais la classe B est beaucoup plus variée. Sans mesure de dispersion, on manque une information essentielle.
Étendue
étendue = maximum − minimum
Mesure la plage totale des données — simple mais sensible aux valeurs aberrantes
🔑
L'étendue ne dit pas tout : deux ensembles peuvent avoir la même étendue mais une distribution très différente. Par exemple, {1, 5, 5, 5, 9} et {1, 2, 5, 8, 9} ont tous les deux une étendue de 8, mais le premier est bien plus concentré autour de 5.
💡
Bonne pratique : toujours décrire un ensemble de données avec une mesure de tendance centrale (moyenne, médiane ou mode) et une mesure de dispersion (étendue). Ces deux informations ensemble donnent un portrait beaucoup plus complet.
Facile
Calculer l'étendue
Les températures (en °C) relevées pendant une semaine sont : 18, 22, 15, 24, 19, 21, 17. Calcule l'étendue.
Voir la solution
1
Identifier le maximum et le minimum
Maximum = 24 °C    Minimum = 15 °C
2
Calculer l'étendue
Étendue = 24 − 15 = 9 °C
Réponse : Étendue = 9 °C. Les températures varient de 9 degrés sur la semaine.
Intermédiaire
Comparer deux ensembles — même moyenne, étendue différente
Équipe A : {68, 72, 70, 71, 69}. Équipe B : {55, 80, 62, 85, 68}. Calcule la moyenne et l'étendue pour chaque équipe. Que peut-on conclure ?
Voir la solution
1
Calculer la moyenne de chaque équipe
Équipe A : (68+72+70+71+69)/5 = 350/5 = 70
Équipe B : (55+80+62+85+68)/5 = 350/5 = 70
2
Calculer l'étendue de chaque équipe
Équipe A : 72 − 68 = 4
Équipe B : 85 − 55 = 30
3
Interpréter

Les deux équipes ont la même moyenne (70), mais l'équipe A est beaucoup plus constante (étendue = 4) que l'équipe B (étendue = 30). Sans l'étendue, on ne verrait pas cette différence importante.

Conclusion : Même moyenne, mais étendue très différente. L'étendue révèle la variabilité que la moyenne cache.
Point de contrôle 4
a) Données : 45, 38, 52, 61, 29, 47. Calcule l'étendue.
b) Deux classes ont une étendue de 40 points. Cela signifie-t-il que leurs résultats sont identiques ? Explique.
c) Pourquoi l'étendue peut-elle être trompeuse si les données contiennent une valeur aberrante ?

a) Maximum = 61, minimum = 29. Étendue = 61 − 29 = 32.

b) Non. Deux classes peuvent avoir la même étendue mais des distributions très différentes. L'étendue indique seulement la plage totale, pas la façon dont les données sont réparties à l'intérieur.

c) Une seule valeur aberrante (très haute ou très basse) peut gonfler l'étendue même si toutes les autres données sont très regroupées. L'étendue est très sensible aux valeurs extrêmes.

5
Graphiques
Choisir la bonne représentation visuelle pour ses données

Un graphique bien choisi révèle des tendances qu'un tableau ne montre pas. Un graphique mal choisi peut induire en erreur. La clé est de faire correspondre le type de graphique au type de données et à la question posée.

💭
Pourquoi les barres d'un histogramme se touchent-elles, mais pas celles d'un diagramme à bandes ?
Dans un histogramme, les données continues forment un flux ininterrompu — il n'y a pas d'espace entre « 1,50 m » et « 1,60 m ». Les barres se touchent pour montrer cette continuité. Dans un diagramme à bandes, les catégories (hockey, soccer, tennis) sont séparées et distinctes — les espaces entre les barres symbolisent cette séparation.

Guide de choix du graphique

GraphiqueIdéal pourCaractéristique principale
Diagramme à bandesComparer des catégories (données qualitatives ou discrètes)Les barres ne se touchent pas ; hauteur = fréquence
HistogrammeDonnées continues regroupées en intervallesLes barres se touchent ; pas d'espace entre elles
Diagramme briséDonnées dans le temps (montrer des tendances)Points reliés par des segments de droite
Diagramme à secteurs (circulaire)Parties d'un tout (fréquences relatives)Angle au centre = (fréq/total) × 360°
Diagramme à tiges et à feuillesMontrer la distribution de petits ensembles de donnéesConserve les valeurs originales

Diagramme à secteurs — calcul de l'angle au centre

Dans un diagramme à secteurs, chaque secteur représente une catégorie. L'angle au centre est proportionnel à la fréquence relative de la catégorie.

Angle au centre
angle = (fréquence / total) × 360°
La somme de tous les angles au centre doit être exactement 360°
💡
Stratégie de vérification : après avoir calculé tous les angles au centre, additionne-les. Si leur somme n'est pas exactement 360°, tu as fait une erreur dans un calcul. Les petits écarts d'arrondi (±1°) sont acceptables.
Facile
Calculer les angles au centre d'un diagramme à secteurs
30 élèves sont sondés sur leur sport préféré : 12 choisissent le hockey, 9 le soccer, 6 le basketball, 3 le tennis. Calcule l'angle au centre pour chaque sport.
Voir la solution
1
Appliquer la formule pour chaque catégorie
Hockey : (12/30) × 360° = 0,4 × 360° = 144°
Soccer : (9/30) × 360° = 0,3 × 360° = 108°
Basketball : (6/30) × 360° = 0,2 × 360° = 72°
Tennis : (3/30) × 360° = 0,1 × 360° = 36°
2
Vérifier que la somme est 360°
144° + 108° + 72° + 36° = 360° ✓
Réponses : Hockey 144°, Soccer 108°, Basketball 72°, Tennis 36°. Total = 360° ✓
Intermédiaire
Choisir le bon graphique et justifier
Pour chaque situation, indique quel graphique utiliser et pourquoi :
a) La température quotidienne de Montréal pendant un mois.
b) La répartition des genres de films préférés par les élèves d'une classe.
c) La distribution des tailles (en cm) de 50 élèves.
Voir la solution
1
Situation a) — température quotidienne dans le temps

Diagramme brisé. On observe l'évolution d'une variable continue dans le temps. Le diagramme brisé montre les tendances et les variations d'un jour à l'autre.

2
Situation b) — genres de films (catégories)

Diagramme à bandes ou diagramme à secteurs. Les genres (action, comédie, horreur…) sont des catégories qualitatives. Le diagramme à bandes compare facilement les fréquences ; le diagramme à secteurs montre les proportions du tout.

3
Situation c) — tailles continues de 50 élèves

Histogramme. La taille est une donnée continue. On regroupera les données en intervalles (ex. : 155–160 cm, 160–165 cm…). Les barres de l'histogramme se touchent pour refléter la continuité.

Clé : Temps → diagramme brisé. Catégories → barres ou secteurs. Continu/intervalles → histogramme.
Point de contrôle 5
a) 40 élèves ont répondu à un sondage : 16 aiment le français, 12 les mathématiques, 8 les sciences, 4 l'histoire. Calcule l'angle au centre de chaque matière pour un diagramme à secteurs.
b) Quelle est la principale différence entre un histogramme et un diagramme à bandes ?
c) Un élève trace un diagramme brisé pour montrer les couleurs préférées de sa classe. Est-ce un bon choix ? Pourquoi ?

a)
Français : (16/40) × 360° = 144°
Mathématiques : (12/40) × 360° = 108°
Sciences : (8/40) × 360° = 72°
Histoire : (4/40) × 360° = 36°
Total : 144 + 108 + 72 + 36 = 360° ✓

b) Un histogramme représente des données continues regroupées en intervalles — ses barres se touchent. Un diagramme à bandes représente des catégories distinctes — ses barres ne se touchent pas, avec des espaces entre elles.

c) Non, c'est un mauvais choix. Le diagramme brisé s'utilise pour des données évoluant dans le temps ou des données ordonnées. Les couleurs préférées sont des catégories sans ordre ni progression temporelle. Un diagramme à bandes ou à secteurs serait plus approprié.