Apache Hadoop: Manipulation and Transformation of Data Performance

Corso

Online

Prezzo da consultare

Chiama il centro

Hai bisogno di un coach per la formazione?

Ti aiuterà a confrontare vari corsi e trovare l'offerta formativa più conveniente.

Descrizione

  • Tipologia

    Corso

  • Metodologia

    Online

  • Inizio

    Scegli data

Questo corso è rivolto a sviluppatori, architetti, esperti di dati o qualsiasi profilo che richiede l'accesso ai dati in modo intensivo o regolare L'obiettivo principale del corso è la manipolazione e la trasformazione dei dati Tra gli strumenti dell'ecosistema Hadoop, questo corso include l'uso di Pig e Hive, entrambi ampiamente utilizzati per la trasformazione e la manipolazione dei dati Questo corso di formazione riguarda anche le metriche relative alle prestazioni e l'ottimizzazione delle prestazioni Il corso è interamente a mano ed è punteggiato da presentazioni degli aspetti teorici .
Machine Translated

Sedi e date

Luogo

Inizio del corso

Online

Inizio del corso

Scegli dataIscrizioni aperte

Profilo del corso

Attendees are not required to have any specific skill as the training is focused on end users skills for both the administration and the manipulation of data under Apache Hadoop

Domande e risposte

Aggiungi la tua domanda

I nostri consulenti e altri utenti potranno risponderti

Chi vuoi che ti risponda?

Inserisci i tuoi dati per ricevere una risposta

Pubblicheremo solo il tuo nome e la domanda

Opinioni

Materie

  • Apache

Programma

1.1Hadoop Concepts 1.1.1HDFS

  • The Design of HDFS
  • Command line interface
  • Hadoop File System
1.1.2Clusters
  • Anatomy of a cluster
  • Mater Node / Slave node
  • Name Node / Data Node
1.2Data Manipulation 1.2.1MapReduce detailed
  • Map phase
  • Reduce phase
  • Shuffle
1.2.2Analytics with Map Reduce
  • Group-By with MapReduce
  • Frequency distributions and sorting with MapReduce
  • Plotting results (GNU Plot)
  • Histograms with MapReduce
  • Scatter plots with MapReduce
  • Parsing complex datasets
  • Counting with MapReduce and Combiners
  • Build reports

1.2.3Data Cleansing
  • Document Cleaning
  • Fuzzy string search
  • Record linkage / data deduplication
  • Transform and sort event dates
  • Validate source reliability
  • Trim Outliers
1.2.4Extracting and Transforming Data
  • Transforming logs
  • Using Apache Pig to filter
  • Using Apache Pig to sort
  • Using Apache Pig to sessionize
1.2.5Advanced Joins
  • Joining data in the Mapper using MapReduce
  • Joining data using Apache Pig replicated join
  • Joining sorted data using Apache Pig merge join
  • Joining skewed data using Apache Pig skewed join
  • Using a map-side join in Apache Hive
  • Using optimized full outer joins in Apache Hive
  • Joining data using an external key value store
1.3Performance Diagnosis and Optimization Techniques
  • Map
    • Investigating spikes in input data
    • Identifying map-side data skew problems
    • Map task throughput
    • Small files
    • Unsplittable files
  • Reduce
    • Too few or too many reducers
    • Reduce-side data skew problems
    • Reduce tasks throughput
    • Slow shuffle and sort
  • Competing jobs and scheduler throttling
  • Stack dumps & unoptimized code
  • Hardware failures
  • CPU contention
  • Tasks
    • Extracting and visualizing task execution times
    • Profiling your map and reduce tasks
  • Avoid the reducer
  • Filter and project
  • Using the combiner
  • Fast sorting with comparators
  • Collecting skewed data
  • Reduce skew mitigation

Chiama il centro

Hai bisogno di un coach per la formazione?

Ti aiuterà a confrontare vari corsi e trovare l'offerta formativa più conveniente.

Apache Hadoop: Manipulation and Transformation of Data Performance

Prezzo da consultare