Bij data-analyse is het essentieel om inzicht te krijgen in de belangrijkste eigenschappen van je dataset. Basisstatistieken helpen je om trends, patronen, en eventuele problemen in je gegevens te ontdekken. Met Pandas kun je deze berekeningen eenvoudig uitvoeren en krijg je snel overzicht over grote datasets.
In dit hoofdstuk ontdek je hoe je met Pandas basisstatistieken berekent en hoe je deze toepast om je gegevens beter te begrijpen.
Wat zijn basisstatistieken? #
Basisstatistieken zijn berekeningen die je helpen om belangrijke eigenschappen van je data te begrijpen. Enkele veelvoorkomende statistieken zijn:
- Gemiddelde: Het rekenkundig gemiddelde van een kolom.
- Mediaan: De middelste waarde in een gesorteerde lijst.
- Modus: De meest voorkomende waarde in een dataset.
- Standaarddeviatie: Een maatstaf voor hoe ver waarden afwijken van het gemiddelde.
- Variantie: Het kwadraat van de standaarddeviatie, dat de spreiding van data meet.
- Minimaal en Maximaal: De kleinste en grootste waarden in een dataset.
- Percentielen: Delen de data in segmenten, zoals het 25e, 50e (mediaan), en 75e percentiel.
Gebruik van Pandas voor Statistieken #
Met Pandas kun je deze statistieken eenvoudig berekenen. De ingebouwde methoden van Pandas maken het makkelijk om snel inzichten te krijgen.
1. Gemiddelde #
Het gemiddelde wordt berekend met .mean()
.
Voorbeeld:
gemiddelde_leeftijd = data["leeftijd"].mean()
print(f"Gemiddelde leeftijd: {gemiddelde_leeftijd}")
Python2. Mediaan #
De mediaan bereken je met .median()
.
Voorbeeld:
mediaan_leeftijd = data["leeftijd"].median()
print(f"Mediaan leeftijd: {mediaan_leeftijd}")
Python3. Modus #
De modus toont de meest voorkomende waarde in een kolom. Dit is vooral handig voor categorische gegevens.
Voorbeeld:
modus_leeftijd = data["leeftijd"].mode()
print(f"Meest voorkomende leeftijd: {modus_leeftijd[0]}")
Python4. Standaarddeviatie en Variantie #
Met .std()
en .var()
kun je de standaarddeviatie en variantie berekenen.
Voorbeeld:
standaarddeviatie_leeftijd = data["leeftijd"].std()
variantie_leeftijd = data["leeftijd"].var()
print(f"Standaarddeviatie: {standaarddeviatie_leeftijd}")
print(f"Variantie: {variantie_leeftijd}")
Python5. Minimaal en Maximaal #
Met .min()
en .max()
kun je de kleinste en grootste waarde in een kolom vinden.
Voorbeeld:
min_leeftijd = data["leeftijd"].min()
max_leeftijd = data["leeftijd"].max()
print(f"Minimale leeftijd: {min_leeftijd}")
print(f"Maximale leeftijd: {max_leeftijd}")
Python6. Percentielen #
Met .quantile()
kun je percentielen berekenen.
Voorbeeld:
percentiel_25 = data["leeftijd"].quantile(0.25)
percentiel_50 = data["leeftijd"].quantile(0.50)
# Dit is gelijk aan de mediaan
percentiel_75 = data["leeftijd"].quantile(0.75)
print(f"25e percentiel: {percentiel_25}")
print(f"50e percentiel (mediaan): {percentiel_50}")
print(f"75e percentiel: {percentiel_75}")
PythonSamenvatting van Statistieken met .describe()
#
Pandas heeft een handige methode genaamd .describe()
die automatisch de belangrijkste statistieken samenvat voor numerieke kolommen.
Voorbeeld:
print(data.describe())
PythonWat krijg je?
- Count: Het aantal niet-lege waarden.
- Mean: Het gemiddelde.
- Std: De standaarddeviatie.
- Min en Max: De kleinste en grootste waarde.
- 25%, 50%, 75%: Percentielen, inclusief de mediaan (50%).
Geavanceerde Toepassingen #
1. Correlatiematrix berekenen #
Een correlatiematrix laat zien hoe sterk verschillende kolommen in je dataset met elkaar samenhangen. De correlatie wordt berekend met .corr()
.
Voorbeeld:
correlatie_matrix = data.corr()
print(correlatie_matrix)
PythonWat betekent de output?
- Correlatie varieert van -1 (negatieve correlatie) tot 1 (positieve correlatie).
- 0 betekent dat er geen verband is tussen de kolommen.
2. Groeperen en aggregaties #
Met .groupby()
kun je je data groeperen en samenvatten op basis van een bepaalde kolom. Dit is handig voor het analyseren van categorieën.
Voorbeeld:
gemiddelde_per_categorie = data.groupby("categorie")["inkomsten"].mean()
print(gemiddelde_per_categorie)
PythonWat gebeurt hier?
- De data wordt gegroepeerd op de kolom “categorie”.
- Het gemiddelde van de kolom “inkomsten” wordt berekend voor elke categorie.
Waarom Statistieken in Pandas? #
- Snelheid: Met één regel kun je complexe berekeningen uitvoeren.
- Toegankelijkheid: De methoden van Pandas zijn intuïtief en eenvoudig te gebruiken.
- Flexibiliteit: Je kunt statistieken toepassen op specifieke kolommen of hele datasets.
Samenvatting #
Met Pandas kun je moeiteloos basisstatistieken berekenen, zoals gemiddelden, mediaan, en standaarddeviatie. Daarnaast biedt Pandas tools zoals .describe()
en .groupby()
om snel inzicht te krijgen in grote datasets. Door deze technieken te gebruiken, kun je je data effectiever analyseren en betere beslissingen nemen. Experimenteer met de voorbeelden en ontdek hoe gemakkelijk data-analyse kan zijn met Pandas! 🎉🚀