Data Science

Data Science met Spark

Large-scale Data Science, snel en eenvoudig! Deze 3-daagse training maakt van jou een Apache Spark expert en helpt je Data Science op grote schaal uitoefenen.

Geef je Data Science skills een spark!

Data Science biedt eindeloze mogelijkheden om data te analyseren en gebruiken. Maar, hoe doe je dit op grote schaal zonder te vertragen? Apache Spark is een krachtige open-source processing engine gebouwd om snelle, gebruiksvriendelijke en geavanceerde analyses te kunnen doen. In deze 3-daagse training leer je werken met alle Apache Spark tools. Vaardigheden die je direct in de praktijk kunt brengen!

"Machine learning met Spark was te gek, vooral het kennismaken met de Spark taal. We deelden kennis en enthousiasme met deelnemers die al Data Scientist zijn of dit binnenkort worden." - Data Scientist, KPN

Deze Data Science training is perfect voor

Data Science met Spark is perfect voor iedereen die Spark (en de mogelijkheden voor machine learning en streaming) wil leren gebruiken. Ben jij een Data Scientist met een large-scale data uitdaging? Kom dan zeker deze training bij ons volgen! Data Science met Spark is een Professional level training. Om deel te nemen is het belangrijk dat je de basics van programmeren in Python, datamanipulatie en SQL kent. Bekijk hier wat we bedoelen met "de basics van Python".

Wat leer je tijdens de Data Science met Spark training?

Tijdens deze 3-daagse training ga je Spark met Python echt ervaren. De training zit boordevol interactie, ruimte voor discussie, maar vooral veel oefeningen. Je leert werken met de tools die Spark biedt voor large-scale Data Science. We behandelen de Spark basics, Juypter notebooks, Python shell en nog veel meer!

Programma

Spark basics

Je leert:

  • Spark execution
  • SparkSession
  • Transformations vs Actions
  • Laziness en Lineage: hoe Spark code optimaliseert
  • Gebruiken van de Spark UI

Spark Advanced

Je leert:

  • Partitionering en hoe Spark data leest en schrijft
  • Shuffling, narrow en wide operations, en hun impact op de prestaties
  • The Catalyst optimalisator
  • Werkzaamheden plannen en uitvoeren
  • Caching en persistence levels

DataFrames

Je leert:

  • Basis concepten
  • Alles over Spark DataFrames en Pandas DataFrames
  • DataFrames laden en opslaan
  • De functions API
  • Joining data
  • User Defined Functions en Pandas User Defined Functions (met prestatie implicaties)
  • Window operations

Spark.ml

Je leert:

  • Machine Learning met Spark
  • Preprocessing data en feature engineering
  • Model selectie
  • Pipeline API
  • Advanced onderwerpen

Spark structured streaming

Je leert:

  • Structured Streaming
  • Machine Learning & Streaming
  • Sources & Sink
  • Windows & Aggregations
  • Checkpointing & Watermarking
  • Fault tolerance & Kafka
  • Kafka als een bron en als een sink

Hackathon

Je leert:

  • Je werkt in teams en kiest jouw eigen opdrachten

Data Science Trainers

Deze Data Science training wordt verzorgd door onze trainingspartner GoDataDriven. GoDataDriven is voortdurend op zoek naar innovatieve manieren om het meeste uit data te halen en werkt met experts in het vak. Jouw trainer is een data goeroe die zijn of haar ervaring graag deelt om jou te leren werken met de nieuwste tools.

Data Science Learning Journey

Jouw Data Science Learning Journey begint met een Foundation training, zoals Data Science met R, Analytics Translator of de Data Science met Python training. Breid jouw journey uit met de 3-daagse GoDataDriven Deep Learning training op Professional level. Wil je een training volgen op Expert level? Kies dan voor deze 3-daagse Data Science met Spark training, waarin je alles leert over Data Science op grote schaal.

Ja, ik wil meer leren over Spark

Na registratie ontvang je een bevestigingsmail met praktische informatie. Een week voor de training vragen we je naar dieetwensen. Indien voorbereiding gewenst is, krijg je op dit moment ook de literatuur via de mail. Tot dan!

Wat moet ik nog meer weten?

  • Je dient jouw eigen laptop mee te nemen naar de training. Deze voldoet aan de volgende eisen: 8GB RAM minimaal, 25GB vrije ruimte op je harde schijf, SSH client geïnstalleerd en de mogelijkheid om software te installeren.
  • Deze training wordt je aangeboden door onze trainingspartner GoDataDriven. 

Contact opnemen
contact-us

Ons team staat voor je klaar

Stuur ons een bericht!

Of bel +31 (0)35 538 1921