Skip to content
Programmeren in Python, leer de nieuwste technieken
Programmeren in PythonProgrammeren in Python
  • Home
  • Blog
  • Documentatie
  • Cursussen
  • Tools
    • Python Paste
Programmeren in PythonProgrammeren in Python
  • Home
  • Blog
  • Documentatie
  • Cursussen
  • Tools
    • Python Paste

Introductie

3
  • 1.1 Wat is Python?
  • 1.2 Python installatie
  • 1.3 PyCharm Installatie

Basisprogrammering

6
  • 2.1 Python Basis: Variabelen, Datatypes en Operatoren
  • 2.2 Python if else (en elif)
  • 2.3 Python list (Array, Lijsten)
  • 2.4 Python Lussen: for loop, while loop, break, continue
  • 2.5 Python Functies: Definities, Parameters en Terugkeerwaarden
  • 2.6 Foutafhandeling: try, except, else, finally

Datatypes

13
  • 3.1 Introductie tot Geavanceerde Datatypes
  • 3.2 Python Tuple
  • 3.3 Python Set
  • 3.4 Python Dictionary
  • 3.5 Werken met Strings en String-methoden
  • 3.6 Collections Module: Krachtige Tools in Python
  • 3.7 Iterators en Generators
  • 3.8 List Comprehensions
  • 3.9 Geavanceerde Sortering
  • 3.10 Werken met Multi-dimensionale Data
  • 3.11 Typing en Datatypes
  • 3.12 Itertools voor Geavanceerde Iteraties
  • 3.13 Data Conversies

Modules

8
  • 4.1 Wat zijn Modules en Waarom zijn ze Belangrijk?
  • 4.2 Werken met Ingebouwde Modules
  • 4.3 Installeren en Gebruiken van Externe Pakketten
  • 4.4 Eigen Modules Maken
  • 4.5 Introductie tot Pakketten
  • 4.6 Importeren en Namespaces Begrijpen
  • 4.7 Geavanceerd: Relatief Importeren
  • 4.8 Organiseren van Grotere Projecten

Data Analyse

3
  • 5.1 Python Dataframe en Data Opschonen met Pandas
  • 5.2 Python Pandas Basisstatistieken en Data-analyse
  • 5.3 Python Numpy (NpArray): De Kracht van Numerieke Berekeningen

Webontwikkeling

5
  • 7.1 Inleiding tot Webontwikkeling
  • 7.2 HTTP-Verzoeken met requests: Communiceren met het Web
  • 7.3 Webscraping met BeautifulSoup: Data van het Web Halen als er geen APIs zijn
  • 7.4 Python Flask, een webserver & API tutorial
  • 7.5 WSGI & WebOb

Deploy

1
  • Deploy met Supervisor op Ubuntu
View Categories
  • Home
  • Documentatie
  • Data Analyse
  • 5.2 Python Pandas Basisstatistieken en Data-analyse

5.2 Python Pandas Basisstatistieken en Data-analyse

2 minuten leestijd

Bij data-analyse is het essentieel om inzicht te krijgen in de belangrijkste eigenschappen van je dataset. Basisstatistieken helpen je om trends, patronen, en eventuele problemen in je gegevens te ontdekken. Met Pandas kun je deze berekeningen eenvoudig uitvoeren en krijg je snel overzicht over grote datasets.

In dit hoofdstuk ontdek je hoe je met Pandas basisstatistieken berekent en hoe je deze toepast om je gegevens beter te begrijpen.

Wat zijn basisstatistieken? #

Basisstatistieken zijn berekeningen die je helpen om belangrijke eigenschappen van je data te begrijpen. Enkele veelvoorkomende statistieken zijn:

  • Gemiddelde: Het rekenkundig gemiddelde van een kolom.
  • Mediaan: De middelste waarde in een gesorteerde lijst.
  • Modus: De meest voorkomende waarde in een dataset.
  • Standaarddeviatie: Een maatstaf voor hoe ver waarden afwijken van het gemiddelde.
  • Variantie: Het kwadraat van de standaarddeviatie, dat de spreiding van data meet.
  • Minimaal en Maximaal: De kleinste en grootste waarden in een dataset.
  • Percentielen: Delen de data in segmenten, zoals het 25e, 50e (mediaan), en 75e percentiel.

Gebruik van Pandas voor Statistieken #

Met Pandas kun je deze statistieken eenvoudig berekenen. De ingebouwde methoden van Pandas maken het makkelijk om snel inzichten te krijgen.

1. Gemiddelde #

Het gemiddelde wordt berekend met .mean().

Voorbeeld:

gemiddelde_leeftijd = data["leeftijd"].mean()
print(f"Gemiddelde leeftijd: {gemiddelde_leeftijd}")
Python

2. Mediaan #

De mediaan bereken je met .median().

Voorbeeld:

mediaan_leeftijd = data["leeftijd"].median()
print(f"Mediaan leeftijd: {mediaan_leeftijd}")
Python

3. Modus #

De modus toont de meest voorkomende waarde in een kolom. Dit is vooral handig voor categorische gegevens.

Voorbeeld:

modus_leeftijd = data["leeftijd"].mode()
print(f"Meest voorkomende leeftijd: {modus_leeftijd[0]}")
Python

4. Standaarddeviatie en Variantie #

Met .std() en .var() kun je de standaarddeviatie en variantie berekenen.

Voorbeeld:

standaarddeviatie_leeftijd = data["leeftijd"].std()
variantie_leeftijd = data["leeftijd"].var()
print(f"Standaarddeviatie: {standaarddeviatie_leeftijd}")
print(f"Variantie: {variantie_leeftijd}")
Python

5. Minimaal en Maximaal #

Met .min() en .max() kun je de kleinste en grootste waarde in een kolom vinden.

Voorbeeld:

min_leeftijd = data["leeftijd"].min()
max_leeftijd = data["leeftijd"].max()
print(f"Minimale leeftijd: {min_leeftijd}")
print(f"Maximale leeftijd: {max_leeftijd}")
Python

6. Percentielen #

Met .quantile() kun je percentielen berekenen.

Voorbeeld:

percentiel_25 = data["leeftijd"].quantile(0.25)
percentiel_50 = data["leeftijd"].quantile(0.50)  
# Dit is gelijk aan de mediaan
percentiel_75 = data["leeftijd"].quantile(0.75)

print(f"25e percentiel: {percentiel_25}")
print(f"50e percentiel (mediaan): {percentiel_50}")
print(f"75e percentiel: {percentiel_75}")
Python

Samenvatting van Statistieken met .describe() #

Pandas heeft een handige methode genaamd .describe() die automatisch de belangrijkste statistieken samenvat voor numerieke kolommen.

Voorbeeld:

print(data.describe())
Python

Wat krijg je?

  • Count: Het aantal niet-lege waarden.
  • Mean: Het gemiddelde.
  • Std: De standaarddeviatie.
  • Min en Max: De kleinste en grootste waarde.
  • 25%, 50%, 75%: Percentielen, inclusief de mediaan (50%).

Geavanceerde Toepassingen #

1. Correlatiematrix berekenen #

Een correlatiematrix laat zien hoe sterk verschillende kolommen in je dataset met elkaar samenhangen. De correlatie wordt berekend met .corr().

Voorbeeld:

correlatie_matrix = data.corr()
print(correlatie_matrix)
Python

Wat betekent de output?

  • Correlatie varieert van -1 (negatieve correlatie) tot 1 (positieve correlatie).
  • 0 betekent dat er geen verband is tussen de kolommen.

2. Groeperen en aggregaties #

Met .groupby() kun je je data groeperen en samenvatten op basis van een bepaalde kolom. Dit is handig voor het analyseren van categorieën.

Voorbeeld:

gemiddelde_per_categorie = data.groupby("categorie")["inkomsten"].mean()
print(gemiddelde_per_categorie)
Python

Wat gebeurt hier?

  • De data wordt gegroepeerd op de kolom “categorie”.
  • Het gemiddelde van de kolom “inkomsten” wordt berekend voor elke categorie.

Waarom Statistieken in Pandas? #

  • Snelheid: Met één regel kun je complexe berekeningen uitvoeren.
  • Toegankelijkheid: De methoden van Pandas zijn intuïtief en eenvoudig te gebruiken.
  • Flexibiliteit: Je kunt statistieken toepassen op specifieke kolommen of hele datasets.

Samenvatting #

Met Pandas kun je moeiteloos basisstatistieken berekenen, zoals gemiddelden, mediaan, en standaarddeviatie. Daarnaast biedt Pandas tools zoals .describe() en .groupby() om snel inzicht te krijgen in grote datasets. Door deze technieken te gebruiken, kun je je data effectiever analyseren en betere beslissingen nemen. Experimenteer met de voorbeelden en ontdek hoe gemakkelijk data-analyse kan zijn met Pandas! 🎉🚀

Updated on februari 17, 2025

What are your Feelings

5.1 Python Dataframe en Data Opschonen met Pandas5.3 Python Numpy (NpArray): De Kracht van Numerieke Berekeningen
Inhoudsopgave
  • Wat zijn basisstatistieken?
  • Gebruik van Pandas voor Statistieken
    • 1. Gemiddelde
    • 2. Mediaan
    • 3. Modus
    • 4. Standaarddeviatie en Variantie
    • 5. Minimaal en Maximaal
    • 6. Percentielen
  • Samenvatting van Statistieken met .describe()
  • Geavanceerde Toepassingen
    • 1. Correlatiematrix berekenen
    • 2. Groeperen en aggregaties
  • Waarom Statistieken in Pandas?
  • Samenvatting
Programmeren in Python

Leer python op je eigen tempo met mooie interactieve hedendaagse voorbeelden.

© Copyright 2025 Programmeren in Python.
Sign inSign up

Sign in

Don’t have an account? Sign up
Lost your password?

Sign up

Already have an account? Sign in