🔬 Advanced

Calculateur de Variance - Variance de Population et d Echantillon

Calculez la variance et l ecart-type pour un ensemble de donnees. Prend en charge la variance de population et d echantillon. Calculateur gratuit.

★★★★★ 4.8/5 · 📊 0 calculs · 🔒 Privé et gratuit

Qu'est-ce que la variance ?

La variance mesure l'écart-type d'un ensemble de données — à quel point les valeurs sont-elles éloignées de la moyenne. Une faible variance signifie que les points de données se regroupent près de la moyenne ; une grande variance signifie qu'ils sont éparpillés de manière large.

La variance est calculée comme la moyenne des différences au carré par rapport à la moyenne :

Variance de population (σ²) : σ² = Σ(xᵢ − μ)² / N
Variance d'échantillon (s²) : s² = Σ(xᵢ − x̄)² / (N−1)

Où xᵢ est chaque point de données, μ (ou x̄) est la moyenne, et N est le nombre de valeurs. La dispersion standard est simplement la racine carrée de la variance — elle est dans les mêmes unités que les données d'origine, ce qui la rend plus interprétable.

Pourquoi les différences sont-elles au carré ? Deux raisons : (1) le carré annule les valeurs négatives de sorte que les écarts au-dessus et en dessous de la moyenne ne se compensent pas, et (2) le carré donne un poids disproportionné aux valeurs extrêmes, ce qui fait que la variance est sensible aux valeurs extrêmes. Cette propriété est à la fois un atout (détecter les valeurs extrêmes) et un inconvénient (sensibilité aux valeurs extrêmes). Pour les données avec des valeurs extrêmes, considérez l'utilisation de la différence absolue médiane (MAD) comme une alternative plus robuste.

Variance de population vs. variance d'échantillon

La différence clé est le dénominateur — N vs. (N−1) — connue sous le nom de correction de Bessel :

Type	Dénominateur	Utilisation	Symbole
Variance de population	N	Vous avez des données sur la population entière	σ²
Variance d'échantillon	N−1	Vous avez un échantillon d'une population plus large	s²

En pratique, la plupart des données réelles sont des échantillons. L'utilisation de N−1 (variance d'échantillon) produit une estimation non biaisée de la vraie variance de population. L'utilisation de N (variance de population) sur un échantillon sous-estime systématiquement la vraie variance.

Exemple : Tester un nouveau médicament sur 50 patients signifie utiliser la variance d'échantillon (s²). Analyser tous les étudiants d'une classe signifie utiliser la variance de population (σ²).

Pourquoi la correction de Bessel fonctionne-t-elle ? Lorsque vous calculez la moyenne de l'échantillon, vous utilisez un « degré de liberté » — la moyenne est calculée à partir des données elles-mêmes, donc les écarts par rapport à la moyenne ne sont pas complètement indépendants. Diviser par (N−1) au lieu de N compense cette perte d'un degré de liberté, produisant un estimateur non biaisé de la variance de population. À mesure que N grandit, la différence entre N et N−1 devient négligeable.

Étape par étape de calcul de la variance

Étant donné l'ensemble de données : 4, 7, 13, 2, 8

Calcul de la moyenne : (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
Trouver les écarts par rapport à la moyenne : (4−6,8)=−2,8 ; (7−6,8)=0,2 ; (13−6,8)=6,2 ; (2−6,8)=−4,8 ; (8−6,8)=1,2
Squarer les écarts : 7,84 ; 0,04 ; 38,44 ; 23,04 ; 1,44
La somme des carrés : 7,84+0,04+38,44+23,04+1,44 = 70,8
Variance de population : 70,8 ÷ 5 = 14,16
Variance d'échantillon : 70,8 ÷ 4 = 17,7
Dispersion standard : √14,16 = 3,76 (population) ou √17,7 = 4,21 (échantillon)

Formule raccourcie pour la variance

Il existe une formule équivalente « computationnelle » qui évite de calculer les écarts explicitement, utile lors du calcul à la main ou dans des tableurs :

σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N

Pour la variance d'échantillon : s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)

En utilisant nos données d'exemple (4, 7, 13, 2, 8) :

Σxᵢ = 34, donc (Σxᵢ)² = 1 156
Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
Variance de population = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16 ✓
Variance d'échantillon = 70,8 / 4 = 17,7 ✓

Cette formule est numériquement identique mais peut souffrir de problèmes de précision des nombres flottants lorsqu'il s'agit de valeurs très grandes. Pour la stabilité numérique, l'algorithme en ligne de Welford (qui traite une valeur à la fois) est préféré dans les implémentations logicielles.

Les Mesures Statistiques Associées

La variance est l'une des plusieurs mesures de dispersion. Chacune a des forces différentes :

Measure	Formule	Unités	Résistance aux Outliers	Mieux pour
Variance (σ² ou s²)	Moyenne des écarts carrés	Unités carrées	Bas — très sensible	Statistiques théoriques, ANOVA
Écart-type (σ ou s)	√Variance	Même que les données	Bas	Présenter la dispersion dans les unités originales
Intervalle	Max − Min	Même que les données	Très bas	Contrôle rapide, petits échantillons
Intervalle interquartile (IQR)	Q3 − Q1	Même que les données	Élevé	Repartitions asymétriques, graphiques en boîte
Moyenne absolue de la déviation (MAD)	Moyenne des \|xᵢ − moyenne\|	Même que les données	Moderate	Measure intuitive de la dispersion
Coéfficient de variation (CV)	(SD / Moyenne) × 100%	Pourcentage	Bas	Comparer la dispersion sur différentes échelles

Pour les distributions normales (courbe de Gauss), la déviation standard a une interprétation spéciale : environ 68 % des données tombent dans ±1 SD de la moyenne, 95 % dans ±2 SD, et 99,7 % dans ±3 SD. C'est la regle empirique (68-95-99,7).

Variance dans les tableurs et les langages de programmation

La plupart des outils ont des fonctions de variance intégrées. Assurez-vous de choisir la version correcte (échantillon vs. population) :

Outil	Variance d'échantillon	Variance de population
Excel / Google Sheets	`VAR.S(range)` ou `VAR(range)`	`VAR.P(range)` ou `VARP(range)`
Python (NumPy)	`np.var(data, ddof=1)`	`np.var(data)`
Python (statistics)	`statistics.variance(data)`	`statistics.pvariance(data)`
R	`var(x)`	`var(x) * (n-1)/n`
JavaScript	Calcul manuel (pas intégré)	Calcul manuel
SQL (PostgreSQL)	`VAR_SAMP(column)`	`VAR_POP(column)`
MATLAB	`var(x)`	`var(x, 1)`

Remarque : Le NumPy Python par défaut utilise la variance de population (ddof=0), tandis que la fonction var() R par défaut utilise la variance d'échantillon. C'est une source commune de confusion lors de la comparaison des résultats entre langages.

Applications Pratiques de la Variance

Domaine	Application	Exemple
Finance	Risque d'investissement	Haute variance = rendements boursiers plus volatils
Manufacture	Contrôle de qualité	Faible variance = dimensions de produits cohérentes
Médecine	Essais cliniques	Évaluation de la variabilité des réponses des patients
Science du sport	Analyse de performance	Variabilité de la performance des athlètes au fil de la saison
Éducation	Analyse des notes d'examen	Compréhension de la dispersion des performances des élèves

Variance en Finance : Risque du Portefeuille

En finance, la variance et l'écart-type mesurent le risque d'investissement. Une variance plus élevée signifie que les rendements fluctuent plus — l'investissement est plus risqué. La Théorie du Portefeuille Moderne de Harry Markowitz (1952, Prix Nobel 1990) utilise la variance comme mesure de risque central.

Pour un portefeuille de deux actifs, la variance combinée dépend des variances individuelles et de la corrélation entre actifs :

σ²_portefeuille = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂

Où w = poids, σ² = variance, et ρ = corrélation. Lorsque ρ < 1 (les actifs ne bougent pas en parfait accord), la variance du portefeuille est moins que la moyenne pondérée des variances individuelles. C'est la base mathématique de la diversification — combiner des actifs non corrélés réduit le risque global sans réduire proportionnellement le rendement attendu.

Classe d'actifs (2000-2023)	Rendement annuel	Écart-type annuel (Volatilité)
Grand Capital des États-Unis (S&P 500)	~7,5%	~15%
Capital des Petites Entreprises des États-Unis (Russell 2000)	~7,0%	~20%
Études développées internationales (EAFE)	~4,5%	~17%
Emprunts des États-Unis (Agg)	~4,0%	~4%
Or	~8,0%	~16%

Un portefeuille combinant actions et emprunts a généralement une déviation standard significativement plus basse que les actions seules, tout en capturant la plupart du rendement des actions.

Variance dans le Contrôle de Qualité (Six Sigma)

La manufacture utilise la variance pour contrôler la qualité des produits. La Méthodologie Six Sigma, développée par Motorola dans les années 1980, vise à réduire la variance du processus jusqu'à ce que presque aucun produit ne tombe en dehors des limites de spécification.

Niveau de Sigma	Défauts par Million (DPMO)	Rendement	Capacité de Processus (Cpk)
1σ	691 462	30,9%	0,33
2σ	308 538	69,1%	0,67
3σ	66 807	93,3%	1,00
4σ	6 210	99,38%	1,33
5σ	233	99,977%	1,67
6σ	3,4	99,99966%	2,00

Un processus opérationnel à 6σ produit seulement 3,4 défauts par million d'opportunités. L'indice de capacité de processus Cpk se rapporte directement à la variance : Cpk = (USL − moyenne) / (3σ), où USL est la limite supérieure de spécification. La réduction de la variance (par des machines améliorées, une formation ou des matériaux) augmente Cpk et pousse le processus vers la qualité Six Sigma.

Exemples de travail de différents domaines

Ces exemples concrets montrent comment la variance est calculée et interprétée en pratique :

Exemple 1 : Volatilité des rendements de titres

Rendements mensuels d'une action sur 6 mois : +3,2 %, −1,5 %, +4,8 %, −0,7 %, +2,1 %, +1,6 %

Moyenne = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583 %
Déviations : 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
Élevées au carré : 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
Somme des carrés = 27,947
Variance d'échantillon = 27,947/5 = 5,589 (%²)
Écart-type = √5,589 = 2,364 % par mois
Volatilité annuelle ≈ 2,364 % × √12 = 8,19 %

Cette action a une volatilité modérée. Le S&P 500 a historiquement une volatilité annuelle d'environ 15 %, donc cette action est environ la moitié aussi volatile que le marché large.

Exemple 2 : Contrôle de la qualité de la fabrication

Une usine produit des vis avec une longueur cible de 50,00 mm. Un échantillon de 8 vis mesure : 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

Moyenne = 400,05/8 = 50,00625 mm
Variance d'échantillon = 0,000655 mm²
Écart-type = 0,0256 mm
Avec des limites de spécification de 50,00 ± 0,10 mm : Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22

Un Cpk de 1,22 signifie que le processus est capable mais a peu de marge. Le standard industriel cible est Cpk ≥ 1,33 (4σ de capacité), donc ce processus nécessite un contrôle plus serré pour atteindre ce niveau.

Exemple 3 : Notes d'examen des étudiants

Une classe de 10 étudiants obtient : 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 sur un examen.

Moyenne = 810/10 = 81,0
Variance de population (toute la classe) = 72,2
Écart-type = 8,50
Coéfficient de variation = 8,50/81,0 × 100 % = 10,5 %

Un CV de 10,5 % indique une dispersion modérée — la plupart des étudiants ont obtenu des notes dans une fourchette raisonnable de la moyenne. Si le CV dépassait 25 %, l'enseignant pourrait investiguer si les questions de l'examen étaient trop difficiles pour certains étudiants ou si il y avait une distribution bimodale (deux groupes distincts).

Erreurs fréquentes lors du calcul de la variance

Évitez ces erreurs fréquentes :

Erreur	Pourquoi c'est incorrect	Correction
Utilisation de N au lieu de N−1 pour les échantillons	Underestime la vraie variance de la population	Utilisez N−1 pour toute donnée qui est un échantillon d'une population plus large
Moyennisation des déviations absolues au lieu de les élever au carré	Donne la MAD, et non la variance	Élevez chaque déviation au carré, puis moyennez. Prenez √ pour l'écart-type
Ignorer de s'élever au carré avant de moyenniser	Déviations positives et négatives se compensent, donnant ~0	Élevez toujours les déviations au carré
Comparer la variance sur différentes échelles	La variance dépend des unités ; $² ≠ kg²	Utilisez le coefficient de variation (CV) pour la comparaison trans-schéma
Assumer que la variance = l'écart-type	La variance est SD² ; les unités sont au carré	Prenez la racine carrée de la variance pour obtenir l'écart-type

ANOVA : Comparer la variance entre les groupes

Analyse de variance (ANOVA) est un test statistique qui compare les moyennes de plusieurs groupes en analysant la variance. Malgré le nom, il s'agit de tester si les moyennes des groupes diffèrent, et non si les variances diffèrent.

L'ANOVA partitionne la variance totale en deux composants :

Variance entre-groupes : Dans quelle mesure les moyennes des groupes diffèrent de la moyenne globale
Variance intra-groupes : Dans quelle mesure les valeurs individuelles varient dans chaque groupe

Le statistique F = Variance entre-groupes / Variance intra-groupes. Un grand F signifie que les groupes sont plus différents les uns des autres que prévu par hasard. Si F dépasse la valeur critique (ou p < 0,05), au moins une moyenne de groupe est significativement différente.

Exemple : Comparaison des notes d'examens des élèves formés par trois méthodes différentes. L'ANOVA vous dit si la méthode d'enseignement compte ; les tests post-hoc (Tukey, Bonferroni) vous disent lesquelles méthodes diffèrent.

💡 Dites-vous ça ?

La variance a été introduite par Ronald Fisher en 1918 — le même article où il a créé le terme "variance".
En finance, la variance est la base de la théorie des portefeuilles modernes. La variance d'un portefeuille dépend non seulement de la variance individuelle des actifs mais aussi des corrélations entre actifs.
Le coefficient de variation (CV = écart-type / moyenne × 100 %) permet de comparer la variabilité entre des ensembles de données ayant des unités ou des échelles différentes.
L'inégalité de Chebyshev garantit que pour quelconque distribution (pas seulement normale), au moins 75 % des données tombent dans ±2 écart-types et au moins 89 % dans ±3 écart-types. C'est moins fort que la règle empirique mais s'applique universellement.

Questions Fréquentes

Quelle est la différence entre variance et écart-type ?

La variance est la moyenne des écarts carrés par rapport à la moyenne ; l'écart-type est sa racine carrée. L'écart-type est exprimé dans les mêmes unités que les données d'origine (par exemple, dollars, kg, secondes), ce qui le rend plus interprétable. La variance est utile dans les opérations mathématiques (variances de variables indépendantes s'additionnent directement), tandis que l'écart-type est mieux adapté pour décrire la dispersion à un public non technique.

Quand utiliser variance d'échantillon vs. variance de population ?

Utilisez la variance de population lorsque vos données contiennent tous les membres du groupe que vous analysez (par exemple, tous les employés d'une entreprise). Utilisez la variance d'échantillon lorsque vos données sont un sous-ensemble d'un groupe plus large (par exemple, un sondage de 500 électeurs pour estimer les opinions de tous les électeurs). Dans la plupart des recherches et des statistiques réelles, la variance d'échantillon est appropriée.

La variance peut-elle être négative ?

Non. La variance est toujours zéro ou positive car elle est calculée à partir de valeurs au carré. Une variance de 0 ne signifie que les données sont identiques (pas de dispersion). Une variance négative est mathématiquement impossible et indique une erreur de calcul.

Qu'est-ce qu'une "haute" ou "basse" variance ?

Haute et basse sont relatifs à l'échelle et au contexte des données. Une variance de 10 est "basse" pour les hauteurs humaines en cm mais "élevée" pour les hauteurs en mètres. Le coefficient de variation (SD / moyenne × 100 %) est indépendant de l'échelle et permet de comparer des ensembles de données différents. Dans la qualité de contrôle, les spécifications définissent les plages de variance acceptables pour chaque mesure.

Comment la variance se rapporte-t-elle à la distribution normale ?

La distribution normale (Gaussian) est entièrement décrite par deux paramètres seulement : la moyenne (μ) et la variance (σ²). La courbe en cloche familière est plus large lorsque la variance est élevée et plus étroite lorsque la variance est faible. Pour les données normales, la règle empirique tient : 68,3 % dans ±1σ, 95,4 % dans ±2σ et 99,7 % dans ±3σ. De nombreux tests statistiques (test t, ANOVA, régression) supposent que les données suivent une distribution normale ou que les moyennes d'échantillons sont approximativement normales (via le théorème de la limite centrale).

Qu'est-ce que la variance combinée ?

La variance combinée est une moyenne pondérée des variances d'échantillons de deux ou plusieurs groupes, utilisée dans le test t à deux échantillons lorsque vous supposez des variances égales entre groupes. La formule est : s²_combiné = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Cela produit une estimation de variance unique qui intègre les informations de tous les échantillons, augmentant ainsi la puissance statistique lorsque l'hypothèse d'égalité de variance est valable.

},{"@type":“Question”,“name”:“La variance peut-elle être négative?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“Non. La variance est toujours zéro ou positive car elle est calculée à partir de valeurs au carré. Variance = 0 seulement lorsque tous les points de données sont identiques.”}},{"@type":“Question”,“name”:“Comment la variance se rapporte-t-elle à la distribution normale?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“La distribution normale est complètement décrite par la moyenne et la variance. Pour les données normales, 68% sont compris entre ±1 écart-type, 95% entre ±2, et 99,7% entre ±3.”}},{"@type":“Question”,“name”:“Qu’est-ce que la variance combinée?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“La variance combinée est une moyenne pondérée des écarts-type de deux ou plusieurs groupes, utilisée dans les tests t à deux échantillons lorsqu’on suppose des variances égales.”}}]}