Calculateur de Variance - Variance de Population et d Echantillon
Calculez la variance et l ecart-type pour un ensemble de donnees. Prend en charge la variance de population et d echantillon. Calculateur gratuit.
Qu'est-ce que la variance ?
La variance mesure l'écart-type d'un ensemble de données — à quel point les valeurs sont-elles éloignées de la moyenne. Une faible variance signifie que les points de données se regroupent près de la moyenne ; une grande variance signifie qu'ils sont éparpillés de manière large.
La variance est calculée comme la moyenne des différences au carré par rapport à la moyenne :
- Variance de population (σ²) : σ² = Σ(xᵢ − μ)² / N
- Variance d'échantillon (s²) : s² = Σ(xᵢ − x̄)² / (N−1)
Où xᵢ est chaque point de données, μ (ou x̄) est la moyenne, et N est le nombre de valeurs. La dispersion standard est simplement la racine carrée de la variance — elle est dans les mêmes unités que les données d'origine, ce qui la rend plus interprétable.
Pourquoi les différences sont-elles au carré ? Deux raisons : (1) le carré annule les valeurs négatives de sorte que les écarts au-dessus et en dessous de la moyenne ne se compensent pas, et (2) le carré donne un poids disproportionné aux valeurs extrêmes, ce qui fait que la variance est sensible aux valeurs extrêmes. Cette propriété est à la fois un atout (détecter les valeurs extrêmes) et un inconvénient (sensibilité aux valeurs extrêmes). Pour les données avec des valeurs extrêmes, considérez l'utilisation de la différence absolue médiane (MAD) comme une alternative plus robuste.
Variance de population vs. variance d'échantillon
La différence clé est le dénominateur — N vs. (N−1) — connue sous le nom de correction de Bessel :
| Type | Dénominateur | Utilisation | Symbole |
|---|---|---|---|
| Variance de population | N | Vous avez des données sur la population entière | σ² |
| Variance d'échantillon | N−1 | Vous avez un échantillon d'une population plus large | s² |
En pratique, la plupart des données réelles sont des échantillons. L'utilisation de N−1 (variance d'échantillon) produit une estimation non biaisée de la vraie variance de population. L'utilisation de N (variance de population) sur un échantillon sous-estime systématiquement la vraie variance.
Exemple : Tester un nouveau médicament sur 50 patients signifie utiliser la variance d'échantillon (s²). Analyser tous les étudiants d'une classe signifie utiliser la variance de population (σ²).
Pourquoi la correction de Bessel fonctionne-t-elle ? Lorsque vous calculez la moyenne de l'échantillon, vous utilisez un « degré de liberté » — la moyenne est calculée à partir des données elles-mêmes, donc les écarts par rapport à la moyenne ne sont pas complètement indépendants. Diviser par (N−1) au lieu de N compense cette perte d'un degré de liberté, produisant un estimateur non biaisé de la variance de population. À mesure que N grandit, la différence entre N et N−1 devient négligeable.
Étape par étape de calcul de la variance
Étant donné l'ensemble de données : 4, 7, 13, 2, 8
- Calcul de la moyenne : (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
- Trouver les écarts par rapport à la moyenne : (4−6,8)=−2,8 ; (7−6,8)=0,2 ; (13−6,8)=6,2 ; (2−6,8)=−4,8 ; (8−6,8)=1,2
- Squarer les écarts : 7,84 ; 0,04 ; 38,44 ; 23,04 ; 1,44
- La somme des carrés : 7,84+0,04+38,44+23,04+1,44 = 70,8
- Variance de population : 70,8 ÷ 5 = 14,16
- Variance d'échantillon : 70,8 ÷ 4 = 17,7
- Dispersion standard : √14,16 = 3,76 (population) ou √17,7 = 4,21 (échantillon)
Formule raccourcie pour la variance
Il existe une formule équivalente « computationnelle » qui évite de calculer les écarts explicitement, utile lors du calcul à la main ou dans des tableurs :
σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N
Pour la variance d'échantillon : s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)
En utilisant nos données d'exemple (4, 7, 13, 2, 8) :
- Σxᵢ = 34, donc (Σxᵢ)² = 1 156
- Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
- Variance de population = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16 ✓
- Variance d'échantillon = 70,8 / 4 = 17,7 ✓
Cette formule est numériquement identique mais peut souffrir de problèmes de précision des nombres flottants lorsqu'il s'agit de valeurs très grandes. Pour la stabilité numérique, l'algorithme en ligne de Welford (qui traite une valeur à la fois) est préféré dans les implémentations logicielles.
Les Mesures Statistiques Associées
La variance est l'une des plusieurs mesures de dispersion. Chacune a des forces différentes :
| Measure | Formule | Unités | Résistance aux Outliers | Mieux pour |
|---|---|---|---|---|
| Variance (σ² ou s²) | Moyenne des écarts carrés | Unités carrées | Bas — très sensible | Statistiques théoriques, ANOVA |
| Écart-type (σ ou s) | √Variance | Même que les données | Bas | Présenter la dispersion dans les unités originales |
| Intervalle | Max − Min | Même que les données | Très bas | Contrôle rapide, petits échantillons |
| Intervalle interquartile (IQR) | Q3 − Q1 | Même que les données | Élevé | Repartitions asymétriques, graphiques en boîte |
| Moyenne absolue de la déviation (MAD) | Moyenne des |xᵢ − moyenne| | Même que les données | Moderate | Measure intuitive de la dispersion |
| Coéfficient de variation (CV) | (SD / Moyenne) × 100% | Pourcentage | Bas | Comparer la dispersion sur différentes échelles |
Pour les distributions normales (courbe de Gauss), la déviation standard a une interprétation spéciale : environ 68 % des données tombent dans ±1 SD de la moyenne, 95 % dans ±2 SD, et 99,7 % dans ±3 SD. C'est la regle empirique (68-95-99,7).
Variance dans les tableurs et les langages de programmation
La plupart des outils ont des fonctions de variance intégrées. Assurez-vous de choisir la version correcte (échantillon vs. population) :
| Outil | Variance d'échantillon | Variance de population |
|---|---|---|
| Excel / Google Sheets | VAR.S(range) ou VAR(range) | VAR.P(range) ou VARP(range) |
| Python (NumPy) | np.var(data, ddof=1) | np.var(data) |
| Python (statistics) | statistics.variance(data) | statistics.pvariance(data) |
| R | var(x) | var(x) * (n-1)/n |
| JavaScript | Calcul manuel (pas intégré) | Calcul manuel |
| SQL (PostgreSQL) | VAR_SAMP(column) | VAR_POP(column) |
| MATLAB | var(x) | var(x, 1) |
Remarque : Le NumPy Python par défaut utilise la variance de population (ddof=0), tandis que la fonction var() R par défaut utilise la variance d'échantillon. C'est une source commune de confusion lors de la comparaison des résultats entre langages.
Applications Pratiques de la Variance
| Domaine | Application | Exemple |
|---|---|---|
| Finance | Risque d'investissement | Haute variance = rendements boursiers plus volatils |
| Manufacture | Contrôle de qualité | Faible variance = dimensions de produits cohérentes |
| Médecine | Essais cliniques | Évaluation de la variabilité des réponses des patients |
| Science du sport | Analyse de performance | Variabilité de la performance des athlètes au fil de la saison |
| Éducation | Analyse des notes d'examen | Compréhension de la dispersion des performances des élèves |
Variance en Finance : Risque du Portefeuille
En finance, la variance et l'écart-type mesurent le risque d'investissement. Une variance plus élevée signifie que les rendements fluctuent plus — l'investissement est plus risqué. La Théorie du Portefeuille Moderne de Harry Markowitz (1952, Prix Nobel 1990) utilise la variance comme mesure de risque central.
Pour un portefeuille de deux actifs, la variance combinée dépend des variances individuelles et de la corrélation entre actifs :
σ²portefeuille = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂
Où w = poids, σ² = variance, et ρ = corrélation. Lorsque ρ < 1 (les actifs ne bougent pas en parfait accord), la variance du portefeuille est moins que la moyenne pondérée des variances individuelles. C'est la base mathématique de la diversification — combiner des actifs non corrélés réduit le risque global sans réduire proportionnellement le rendement attendu.
| Classe d'actifs (2000-2023) | Rendement annuel | Écart-type annuel (Volatilité) |
|---|---|---|
| Grand Capital des États-Unis (S&P 500) | ~7,5% | ~15% |
| Capital des Petites Entreprises des États-Unis (Russell 2000) | ~7,0% | ~20% |
| Études développées internationales (EAFE) | ~4,5% | ~17% |
| Emprunts des États-Unis (Agg) | ~4,0% | ~4% |
| Or | ~8,0% | ~16% |
Un portefeuille combinant actions et emprunts a généralement une déviation standard significativement plus basse que les actions seules, tout en capturant la plupart du rendement des actions.
Variance dans le Contrôle de Qualité (Six Sigma)
La manufacture utilise la variance pour contrôler la qualité des produits. La Méthodologie Six Sigma, développée par Motorola dans les années 1980, vise à réduire la variance du processus jusqu'à ce que presque aucun produit ne tombe en dehors des limites de spécification.
| Niveau de Sigma | Défauts par Million (DPMO) | Rendement | Capacité de Processus (Cpk) |
|---|---|---|---|
| 1σ | 691 462 | 30,9% | 0,33 |
| 2σ | 308 538 | 69,1% | 0,67 |
| 3σ | 66 807 | 93,3% | 1,00 |
| 4σ | 6 210 | 99,38% | 1,33 |
| 5σ | 233 | 99,977% | 1,67 |
| 6σ | 3,4 | 99,99966% | 2,00 |
Un processus opérationnel à 6σ produit seulement 3,4 défauts par million d'opportunités. L'indice de capacité de processus Cpk se rapporte directement à la variance : Cpk = (USL − moyenne) / (3σ), où USL est la limite supérieure de spécification. La réduction de la variance (par des machines améliorées, une formation ou des matériaux) augmente Cpk et pousse le processus vers la qualité Six Sigma.
Exemples de travail de différents domaines
Ces exemples concrets montrent comment la variance est calculée et interprétée en pratique :
Exemple 1 : Volatilité des rendements de titres
Rendements mensuels d'une action sur 6 mois : +3,2 %, −1,5 %, +4,8 %, −0,7 %, +2,1 %, +1,6 %
- Moyenne = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583 %
- Déviations : 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
- Élevées au carré : 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
- Somme des carrés = 27,947
- Variance d'échantillon = 27,947/5 = 5,589 (%²)
- Écart-type = √5,589 = 2,364 % par mois
- Volatilité annuelle ≈ 2,364 % × √12 = 8,19 %
Cette action a une volatilité modérée. Le S&P 500 a historiquement une volatilité annuelle d'environ 15 %, donc cette action est environ la moitié aussi volatile que le marché large.
Exemple 2 : Contrôle de la qualité de la fabrication
Une usine produit des vis avec une longueur cible de 50,00 mm. Un échantillon de 8 vis mesure : 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.
- Moyenne = 400,05/8 = 50,00625 mm
- Variance d'échantillon = 0,000655 mm²
- Écart-type = 0,0256 mm
- Avec des limites de spécification de 50,00 ± 0,10 mm : Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22
Un Cpk de 1,22 signifie que le processus est capable mais a peu de marge. Le standard industriel cible est Cpk ≥ 1,33 (4σ de capacité), donc ce processus nécessite un contrôle plus serré pour atteindre ce niveau.
Exemple 3 : Notes d'examen des étudiants
Une classe de 10 étudiants obtient : 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 sur un examen.
- Moyenne = 810/10 = 81,0
- Variance de population (toute la classe) = 72,2
- Écart-type = 8,50
- Coéfficient de variation = 8,50/81,0 × 100 % = 10,5 %
Un CV de 10,5 % indique une dispersion modérée — la plupart des étudiants ont obtenu des notes dans une fourchette raisonnable de la moyenne. Si le CV dépassait 25 %, l'enseignant pourrait investiguer si les questions de l'examen étaient trop difficiles pour certains étudiants ou si il y avait une distribution bimodale (deux groupes distincts).
Erreurs fréquentes lors du calcul de la variance
Évitez ces erreurs fréquentes :
| Erreur | Pourquoi c'est incorrect | Correction |
|---|---|---|
| Utilisation de N au lieu de N−1 pour les échantillons | Underestime la vraie variance de la population | Utilisez N−1 pour toute donnée qui est un échantillon d'une population plus large |
| Moyennisation des déviations absolues au lieu de les élever au carré | Donne la MAD, et non la variance | Élevez chaque déviation au carré, puis moyennez. Prenez √ pour l'écart-type |
| Ignorer de s'élever au carré avant de moyenniser | Déviations positives et négatives se compensent, donnant ~0 | Élevez toujours les déviations au carré |
| Comparer la variance sur différentes échelles | La variance dépend des unités ; $² ≠ kg² | Utilisez le coefficient de variation (CV) pour la comparaison trans-schéma |
| Assumer que la variance = l'écart-type | La variance est SD² ; les unités sont au carré | Prenez la racine carrée de la variance pour obtenir l'écart-type |
ANOVA : Comparer la variance entre les groupes
Analyse de variance (ANOVA) est un test statistique qui compare les moyennes de plusieurs groupes en analysant la variance. Malgré le nom, il s'agit de tester si les moyennes des groupes diffèrent, et non si les variances diffèrent.
L'ANOVA partitionne la variance totale en deux composants :
- Variance entre-groupes : Dans quelle mesure les moyennes des groupes diffèrent de la moyenne globale
- Variance intra-groupes : Dans quelle mesure les valeurs individuelles varient dans chaque groupe
Le statistique F = Variance entre-groupes / Variance intra-groupes. Un grand F signifie que les groupes sont plus différents les uns des autres que prévu par hasard. Si F dépasse la valeur critique (ou p < 0,05), au moins une moyenne de groupe est significativement différente.
Exemple : Comparaison des notes d'examens des élèves formés par trois méthodes différentes. L'ANOVA vous dit si la méthode d'enseignement compte ; les tests post-hoc (Tukey, Bonferroni) vous disent lesquelles méthodes diffèrent.
💡 Dites-vous ça ?
- La variance a été introduite par Ronald Fisher en 1918 — le même article où il a créé le terme "variance".
- En finance, la variance est la base de la théorie des portefeuilles modernes. La variance d'un portefeuille dépend non seulement de la variance individuelle des actifs mais aussi des corrélations entre actifs.
- Le coefficient de variation (CV = écart-type / moyenne × 100 %) permet de comparer la variabilité entre des ensembles de données ayant des unités ou des échelles différentes.
- L'inégalité de Chebyshev garantit que pour quelconque distribution (pas seulement normale), au moins 75 % des données tombent dans ±2 écart-types et au moins 89 % dans ±3 écart-types. C'est moins fort que la règle empirique mais s'applique universellement.
Questions Fréquentes
Quelle est la différence entre variance et écart-type ?
La variance est la moyenne des écarts carrés par rapport à la moyenne ; l'écart-type est sa racine carrée. L'écart-type est exprimé dans les mêmes unités que les données d'origine (par exemple, dollars, kg, secondes), ce qui le rend plus interprétable. La variance est utile dans les opérations mathématiques (variances de variables indépendantes s'additionnent directement), tandis que l'écart-type est mieux adapté pour décrire la dispersion à un public non technique.
Quand utiliser variance d'échantillon vs. variance de population ?
Utilisez la variance de population lorsque vos données contiennent tous les membres du groupe que vous analysez (par exemple, tous les employés d'une entreprise). Utilisez la variance d'échantillon lorsque vos données sont un sous-ensemble d'un groupe plus large (par exemple, un sondage de 500 électeurs pour estimer les opinions de tous les électeurs). Dans la plupart des recherches et des statistiques réelles, la variance d'échantillon est appropriée.
La variance peut-elle être négative ?
Non. La variance est toujours zéro ou positive car elle est calculée à partir de valeurs au carré. Une variance de 0 ne signifie que les données sont identiques (pas de dispersion). Une variance négative est mathématiquement impossible et indique une erreur de calcul.
Qu'est-ce qu'une "haute" ou "basse" variance ?
Haute et basse sont relatifs à l'échelle et au contexte des données. Une variance de 10 est "basse" pour les hauteurs humaines en cm mais "élevée" pour les hauteurs en mètres. Le coefficient de variation (SD / moyenne × 100 %) est indépendant de l'échelle et permet de comparer des ensembles de données différents. Dans la qualité de contrôle, les spécifications définissent les plages de variance acceptables pour chaque mesure.
Comment la variance se rapporte-t-elle à la distribution normale ?
La distribution normale (Gaussian) est entièrement décrite par deux paramètres seulement : la moyenne (μ) et la variance (σ²). La courbe en cloche familière est plus large lorsque la variance est élevée et plus étroite lorsque la variance est faible. Pour les données normales, la règle empirique tient : 68,3 % dans ±1σ, 95,4 % dans ±2σ et 99,7 % dans ±3σ. De nombreux tests statistiques (test t, ANOVA, régression) supposent que les données suivent une distribution normale ou que les moyennes d'échantillons sont approximativement normales (via le théorème de la limite centrale).
Qu'est-ce que la variance combinée ?
La variance combinée est une moyenne pondérée des variances d'échantillons de deux ou plusieurs groupes, utilisée dans le test t à deux échantillons lorsque vous supposez des variances égales entre groupes. La formule est : s²combiné = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Cela produit une estimation de variance unique qui intègre les informations de tous les échantillons, augmentant ainsi la puissance statistique lorsque l'hypothèse d'égalité de variance est valable.
},{"@type":“Question”,“name”:“La variance peut-elle être négative?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“Non. La variance est toujours zéro ou positive car elle est calculée à partir de valeurs au carré. Variance = 0 seulement lorsque tous les points de données sont identiques.”}},{"@type":“Question”,“name”:“Comment la variance se rapporte-t-elle à la distribution normale?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“La distribution normale est complètement décrite par la moyenne et la variance. Pour les données normales, 68% sont compris entre ±1 écart-type, 95% entre ±2, et 99,7% entre ±3.”}},{"@type":“Question”,“name”:“Qu’est-ce que la variance combinée?”,“acceptedAnswer”:{"@type":“Answer”,“text”:“La variance combinée est une moyenne pondérée des écarts-type de deux ou plusieurs groupes, utilisée dans les tests t à deux échantillons lorsqu’on suppose des variances égales.”}}]}