Skip to main content
🔬 Advanced

Calculateur de Variance - Variance de Population et d Echantillon

Calculez la variance et l ecart-type pour un ensemble de donnees. Prend en charge la variance de population et d echantillon. Calculateur gratuit.

★★★★★ 4.8/5 · 📊 0 calculs · 🔒 Privé et gratuit

Qu'est-ce que la variance ?

La variance mesure l'écart-type d'un ensemble de données — à quel point les valeurs sont-elles éloignées de la moyenne. Une faible variance signifie que les points de données se regroupent près de la moyenne ; une grande variance signifie qu'ils sont éparpillés de manière large.

La variance est calculée comme la moyenne des différences au carré par rapport à la moyenne :

Où xᵢ est chaque point de données, μ (ou x̄) est la moyenne, et N est le nombre de valeurs. La dispersion standard est simplement la racine carrée de la variance — elle est dans les mêmes unités que les données d'origine, ce qui la rend plus interprétable.

Pourquoi les différences sont-elles au carré ? Deux raisons : (1) le carré annule les valeurs négatives de sorte que les écarts au-dessus et en dessous de la moyenne ne se compensent pas, et (2) le carré donne un poids disproportionné aux valeurs extrêmes, ce qui fait que la variance est sensible aux valeurs extrêmes. Cette propriété est à la fois un atout (détecter les valeurs extrêmes) et un inconvénient (sensibilité aux valeurs extrêmes). Pour les données avec des valeurs extrêmes, considérez l'utilisation de la différence absolue médiane (MAD) comme une alternative plus robuste.

Variance de population vs. variance d'échantillon

La différence clé est le dénominateur — N vs. (N−1) — connue sous le nom de correction de Bessel :

TypeDénominateurUtilisationSymbole
Variance de populationNVous avez des données sur la population entièreσ²
Variance d'échantillonN−1Vous avez un échantillon d'une population plus large

En pratique, la plupart des données réelles sont des échantillons. L'utilisation de N−1 (variance d'échantillon) produit une estimation non biaisée de la vraie variance de population. L'utilisation de N (variance de population) sur un échantillon sous-estime systématiquement la vraie variance.

Exemple : Tester un nouveau médicament sur 50 patients signifie utiliser la variance d'échantillon (s²). Analyser tous les étudiants d'une classe signifie utiliser la variance de population (σ²).

Pourquoi la correction de Bessel fonctionne-t-elle ? Lorsque vous calculez la moyenne de l'échantillon, vous utilisez un « degré de liberté » — la moyenne est calculée à partir des données elles-mêmes, donc les écarts par rapport à la moyenne ne sont pas complètement indépendants. Diviser par (N−1) au lieu de N compense cette perte d'un degré de liberté, produisant un estimateur non biaisé de la variance de population. À mesure que N grandit, la différence entre N et N−1 devient négligeable.

Étape par étape de calcul de la variance

Étant donné l'ensemble de données : 4, 7, 13, 2, 8

  1. Calcul de la moyenne : (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
  2. Trouver les écarts par rapport à la moyenne : (4−6,8)=−2,8 ; (7−6,8)=0,2 ; (13−6,8)=6,2 ; (2−6,8)=−4,8 ; (8−6,8)=1,2
  3. Squarer les écarts : 7,84 ; 0,04 ; 38,44 ; 23,04 ; 1,44
  4. La somme des carrés : 7,84+0,04+38,44+23,04+1,44 = 70,8
  5. Variance de population : 70,8 ÷ 5 = 14,16
  6. Variance d'échantillon : 70,8 ÷ 4 = 17,7
  7. Dispersion standard : √14,16 = 3,76 (population) ou √17,7 = 4,21 (échantillon)

Formule raccourcie pour la variance

Il existe une formule équivalente « computationnelle » qui évite de calculer les écarts explicitement, utile lors du calcul à la main ou dans des tableurs :

σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N

Pour la variance d'échantillon : s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)

En utilisant nos données d'exemple (4, 7, 13, 2, 8) :

  1. Σxᵢ = 34, donc (Σxᵢ)² = 1 156
  2. Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
  3. Variance de population = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16
  4. Variance d'échantillon = 70,8 / 4 = 17,7

Cette formule est numériquement identique mais peut souffrir de problèmes de précision des nombres flottants lorsqu'il s'agit de valeurs très grandes. Pour la stabilité numérique, l'algorithme en ligne de Welford (qui traite une valeur à la fois) est préféré dans les implémentations logicielles.

Les Mesures Statistiques Associées

La variance est l'une des plusieurs mesures de dispersion. Chacune a des forces différentes :

MeasureFormuleUnitésRésistance aux OutliersMieux pour
Variance (σ² ou s²)Moyenne des écarts carrésUnités carréesBas — très sensibleStatistiques théoriques, ANOVA
Écart-type (σ ou s)√VarianceMême que les donnéesBasPrésenter la dispersion dans les unités originales
IntervalleMax − MinMême que les donnéesTrès basContrôle rapide, petits échantillons
Intervalle interquartile (IQR)Q3 − Q1Même que les donnéesÉlevéRepartitions asymétriques, graphiques en boîte
Moyenne absolue de la déviation (MAD)Moyenne des |xᵢ − moyenne|Même que les donnéesModerateMeasure intuitive de la dispersion
Coéfficient de variation (CV)(SD / Moyenne) × 100%PourcentageBasComparer la dispersion sur différentes échelles

Pour les distributions normales (courbe de Gauss), la déviation standard a une interprétation spéciale : environ 68 % des données tombent dans ±1 SD de la moyenne, 95 % dans ±2 SD, et 99,7 % dans ±3 SD. C'est la regle empirique (68-95-99,7).

Variance dans les tableurs et les langages de programmation

La plupart des outils ont des fonctions de variance intégrées. Assurez-vous de choisir la version correcte (échantillon vs. population) :

OutilVariance d'échantillonVariance de population
Excel / Google SheetsVAR.S(range) ou VAR(range)VAR.P(range) ou VARP(range)
Python (NumPy)np.var(data, ddof=1)np.var(data)
Python (statistics)statistics.variance(data)statistics.pvariance(data)
Rvar(x)var(x) * (n-1)/n
JavaScriptCalcul manuel (pas intégré)Calcul manuel
SQL (PostgreSQL)VAR_SAMP(column)VAR_POP(column)
MATLABvar(x)var(x, 1)

Remarque : Le NumPy Python par défaut utilise la variance de population (ddof=0), tandis que la fonction var() R par défaut utilise la variance d'échantillon. C'est une source commune de confusion lors de la comparaison des résultats entre langages.

Applications Pratiques de la Variance

DomaineApplicationExemple
FinanceRisque d'investissementHaute variance = rendements boursiers plus volatils
ManufactureContrôle de qualitéFaible variance = dimensions de produits cohérentes
MédecineEssais cliniquesÉvaluation de la variabilité des réponses des patients
Science du sportAnalyse de performanceVariabilité de la performance des athlètes au fil de la saison
ÉducationAnalyse des notes d'examenCompréhension de la dispersion des performances des élèves

Variance en Finance : Risque du Portefeuille

En finance, la variance et l'écart-type mesurent le risque d'investissement. Une variance plus élevée signifie que les rendements fluctuent plus — l'investissement est plus risqué. La Théorie du Portefeuille Moderne de Harry Markowitz (1952, Prix Nobel 1990) utilise la variance comme mesure de risque central.

Pour un portefeuille de deux actifs, la variance combinée dépend des variances individuelles et de la corrélation entre actifs :

σ²portefeuille = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂

Où w = poids, σ² = variance, et ρ = corrélation. Lorsque ρ < 1 (les actifs ne bougent pas en parfait accord), la variance du portefeuille est moins que la moyenne pondérée des variances individuelles. C'est la base mathématique de la diversification — combiner des actifs non corrélés réduit le risque global sans réduire proportionnellement le rendement attendu.

Classe d'actifs (2000-2023)Rendement annuelÉcart-type annuel (Volatilité)
Grand Capital des États-Unis (S&P 500)~7,5%~15%
Capital des Petites Entreprises des États-Unis (Russell 2000)~7,0%~20%
Études développées internationales (EAFE)~4,5%~17%
Emprunts des États-Unis (Agg)~4,0%~4%
Or~8,0%~16%

Un portefeuille combinant actions et emprunts a généralement une déviation standard significativement plus basse que les actions seules, tout en capturant la plupart du rendement des actions.

Variance dans le Contrôle de Qualité (Six Sigma)

La manufacture utilise la variance pour contrôler la qualité des produits. La Méthodologie Six Sigma, développée par Motorola dans les années 1980, vise à réduire la variance du processus jusqu'à ce que presque aucun produit ne tombe en dehors des limites de spécification.

Niveau de Sigma Défauts par Million (DPMO)RendementCapacité de Processus (Cpk)
691 46230,9%0,33
308 53869,1%0,67
66 80793,3%1,00
6 21099,38%1,33
23399,977%1,67
3,499,99966%2,00

Un processus opérationnel à 6σ produit seulement 3,4 défauts par million d'opportunités. L'indice de capacité de processus Cpk se rapporte directement à la variance : Cpk = (USL − moyenne) / (3σ), où USL est la limite supérieure de spécification. La réduction de la variance (par des machines améliorées, une formation ou des matériaux) augmente Cpk et pousse le processus vers la qualité Six Sigma.

Exemples de travail de différents domaines

Ces exemples concrets montrent comment la variance est calculée et interprétée en pratique :

Exemple 1 : Volatilité des rendements de titres

Rendements mensuels d'une action sur 6 mois : +3,2 %, −1,5 %, +4,8 %, −0,7 %, +2,1 %, +1,6 %

  1. Moyenne = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583 %
  2. Déviations : 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
  3. Élevées au carré : 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
  4. Somme des carrés = 27,947
  5. Variance d'échantillon = 27,947/5 = 5,589 (%²)
  6. Écart-type = √5,589 = 2,364 % par mois
  7. Volatilité annuelle ≈ 2,364 % × √12 = 8,19 %

Cette action a une volatilité modérée. Le S&P 500 a historiquement une volatilité annuelle d'environ 15 %, donc cette action est environ la moitié aussi volatile que le marché large.

Exemple 2 : Contrôle de la qualité de la fabrication

Une usine produit des vis avec une longueur cible de 50,00 mm. Un échantillon de 8 vis mesure : 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

  1. Moyenne = 400,05/8 = 50,00625 mm
  2. Variance d'échantillon = 0,000655 mm²
  3. Écart-type = 0,0256 mm
  4. Avec des limites de spécification de 50,00 ± 0,10 mm : Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22

Un Cpk de 1,22 signifie que le processus est capable mais a peu de marge. Le standard industriel cible est Cpk ≥ 1,33 (4σ de capacité), donc ce processus nécessite un contrôle plus serré pour atteindre ce niveau.

Exemple 3 : Notes d'examen des étudiants

Une classe de 10 étudiants obtient : 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 sur un examen.

  1. Moyenne = 810/10 = 81,0
  2. Variance de population (toute la classe) = 72,2
  3. Écart-type = 8,50
  4. Coéfficient de variation = 8,50/81,0 × 100 % = 10,5 %

Un CV de 10,5 % indique une dispersion modérée — la plupart des étudiants ont obtenu des notes dans une fourchette raisonnable de la moyenne. Si le CV dépassait 25 %, l'enseignant pourrait investiguer si les questions de l'examen étaient trop difficiles pour certains étudiants ou si il y avait une distribution bimodale (deux groupes distincts).

Erreurs fréquentes lors du calcul de la variance

Évitez ces erreurs fréquentes :

ErreurPourquoi c'est incorrectCorrection
Utilisation de N au lieu de N−1 pour les échantillonsUnderestime la vraie variance de la populationUtilisez N−1 pour toute donnée qui est un échantillon d'une population plus large
Moyennisation des déviations absolues au lieu de les élever au carréDonne la MAD, et non la varianceÉlevez chaque déviation au carré, puis moyennez. Prenez √ pour l'écart-type
Ignorer de s'élever au carré avant de moyenniserDéviations positives et négatives se compensent, donnant ~0Élevez toujours les déviations au carré
Comparer la variance sur différentes échellesLa variance dépend des unités ; $² ≠ kg²Utilisez le coefficient de variation (CV) pour la comparaison trans-schéma
Assumer que la variance = l'écart-typeLa variance est SD² ; les unités sont au carréPrenez la racine carrée de la variance pour obtenir l'écart-type

ANOVA : Comparer la variance entre les groupes

Analyse de variance (ANOVA) est un test statistique qui compare les moyennes de plusieurs groupes en analysant la variance. Malgré le nom, il s'agit de tester si les moyennes des groupes diffèrent, et non si les variances diffèrent.

L'ANOVA partitionne la variance totale en deux composants :

Le statistique F = Variance entre-groupes / Variance intra-groupes. Un grand F signifie que les groupes sont plus différents les uns des autres que prévu par hasard. Si F dépasse la valeur critique (ou p < 0,05), au moins une moyenne de groupe est significativement différente.

Exemple : Comparaison des notes d'examens des élèves formés par trois méthodes différentes. L'ANOVA vous dit si la méthode d'enseignement compte ; les tests post-hoc (Tukey, Bonferroni) vous disent lesquelles méthodes diffèrent.

💡 Dites-vous ça ?

Questions Fréquentes

Quelle est la différence entre variance et écart-type ?

La variance est la moyenne des écarts carrés par rapport à la moyenne ; l'écart-type est sa racine carrée. L'écart-type est exprimé dans les mêmes unités que les données d'origine (par exemple, dollars, kg, secondes), ce qui le rend plus interprétable. La variance est utile dans les opérations mathématiques (variances de variables indépendantes s'additionnent directement), tandis que l'écart-type est mieux adapté pour décrire la dispersion à un public non technique.

Quand utiliser variance d'échantillon vs. variance de population ?

Utilisez la variance de population lorsque vos données contiennent tous les membres du groupe que vous analysez (par exemple, tous les employés d'une entreprise). Utilisez la variance d'échantillon lorsque vos données sont un sous-ensemble d'un groupe plus large (par exemple, un sondage de 500 électeurs pour estimer les opinions de tous les électeurs). Dans la plupart des recherches et des statistiques réelles, la variance d'échantillon est appropriée.

La variance peut-elle être négative ?

Non. La variance est toujours zéro ou positive car elle est calculée à partir de valeurs au carré. Une variance de 0 ne signifie que les données sont identiques (pas de dispersion). Une variance négative est mathématiquement impossible et indique une erreur de calcul.

Qu'est-ce qu'une "haute" ou "basse" variance ?

Haute et basse sont relatifs à l'échelle et au contexte des données. Une variance de 10 est "basse" pour les hauteurs humaines en cm mais "élevée" pour les hauteurs en mètres. Le coefficient de variation (SD / moyenne × 100 %) est indépendant de l'échelle et permet de comparer des ensembles de données différents. Dans la qualité de contrôle, les spécifications définissent les plages de variance acceptables pour chaque mesure.

Comment la variance se rapporte-t-elle à la distribution normale ?

La distribution normale (Gaussian) est entièrement décrite par deux paramètres seulement : la moyenne (μ) et la variance (σ²). La courbe en cloche familière est plus large lorsque la variance est élevée et plus étroite lorsque la variance est faible. Pour les données normales, la règle empirique tient : 68,3 % dans ±1σ, 95,4 % dans ±2σ et 99,7 % dans ±3σ. De nombreux tests statistiques (test t, ANOVA, régression) supposent que les données suivent une distribution normale ou que les moyennes d'échantillons sont approximativement normales (via le théorème de la limite centrale).

Qu'est-ce que la variance combinée ?

La variance combinée est une moyenne pondérée des variances d'échantillons de deux ou plusieurs groupes, utilisée dans le test t à deux échantillons lorsque vous supposez des variances égales entre groupes. La formule est : s²combiné = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Cela produit une estimation de variance unique qui intègre les informations de tous les échantillons, augmentant ainsi la puissance statistique lorsque l'hypothèse d'égalité de variance est valable.

},{"@type":“Question”,“name”:“La variance peut-elle être négative?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“Non. La variance est toujours zéro ou positive car elle est calculée à partir de valeurs au carré. Variance = 0 seulement lorsque tous les points de données sont identiques.”}},{"@type":“Question”,“name”:“Comment la variance se rapporte-t-elle à la distribution normale?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“La distribution normale est complètement décrite par la moyenne et la variance. Pour les données normales, 68% sont compris entre ±1 écart-type, 95% entre ±2, et 99,7% entre ±3.”}},{"@type":“Question”,“name”:“Qu’est-ce que la variance combinée?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“La variance combinée est une moyenne pondérée des écarts-type de deux ou plusieurs groupes, utilisée dans les tests t à deux échantillons lorsqu’on suppose des variances égales.”}}]}