Data Science

Data Science met Spark

Apache Spark is een krachtige open-source processing engine gebouwd om snelle, gebruiksvriendelijke en geavanceerde analyses te kunnen doen.

Deze driedaagse training wordt in het Engels gegeven en leert je om Spark vanuit Python te gebruiken. De training bestaat uit een combinatie van theoretische kennis en interactieve oefeningen. Zo leer je de tools van Spark die nodig zijn voor het uitoefenen van large-scale data science.

"Machine learning with spark was fun, seeing the new spark language. Getting to learn and get enthusiastic with other people that are data scientists or becoming one." - Data Scientist, KPN

Is de Data Science met Spark training iets voor mij?

  • Ja - want je hebt interesse in Spark en je wilt ermee leren werken
  • Ja - want je bent een data scientist en je wil op schaal werken
  • Ja - want je wilt leren hoe je Spark’s mogelijkheden voor machine learning en streaming kan toepassen

Wat kan ik bereiken met deze training? 

Na de drie dagen heb je alle tools van Spark onder de knie om data science op grote schaal te bedrijven.

Je leert onder andere over deze onderwerpen: 

Spark & het Jupyter notebook (findspark package)

Spark & de Python shell

Spark basis:

  • Spark execution
  • SparkSession
  • Transformations vs Actions
  • Laziness en Lineage: hoe Spark code optimaliseert
  • Gebruiken van de Spark UI

Spark Advanced:

  • Partitionering en hoe Spark data leest en schrijft
  • Shuffling, narrow en wide operations, en hun impact op de prestaties
  • The Catalyst optimalisator
  • Planning en uitvoering van de werkzaamheden
  • Caching en persistence levels

DataFrames:

  • Basis concepten
  • Van Spark DataFrames tot Pandas DataFrames en terug
  • Laden and opslaan van DataFrames
  • De functions API
  • Joining data
  • User Defined Functions en Pandas User Defined Functions (met prestatie implicaties)
  • Window operations

spark.ml:

  • Machine Learning met Spark
  • Preprocessing data en feature engineering
  • Model selectie
  • Pipeline API
  • Advanced onderwerpen

Spark structured streaming

  • Structured Streaming
  • Machine Learning & Streaming
  • Sources & Sink
  • Windows & Aggregations
  • Checkpointing & Watermarking
  • Fault tolerance & Kafka
  • Kafka als een bron en als een sink

Hackathon

  • Je werkt in paren en kiest je eigen opdrachten

Wat moet ik nog meer weten?

Enkele voorwaarden: 

  • Basiskennis van programmeren in Python
  • Bekend zijn met de fundamenten van data manipulatie, SQL, etc.

Het is belangrijk dat je voor deze training jouw eigen laptop meeneemt die aan de volgende eisen voldoet:

  • Minimaal 8GB RAM;
  • 25GB vrije ruimte op je harde schijf 
  • SSH client geïnstalleerd
  • De mogelijkheid om software te installeren

Deze training wordt aangeboden door onze trainingspartner GoDataDriven

Contact opnemen
contact-us

Ons team staat voor je klaar

Stuur ons een bericht!

Of bel +31 (0)35 538 1921