Strumenti di gestione dei dati distribuiti (Hadoop, Spark).

Corso

Online

250 € IVA inc.

Chiama il centro

Hai bisogno di un coach per la formazione?

Ti aiuterà a confrontare vari corsi e trovare l'offerta formativa più conveniente.

Descrizione

  • Tipologia

    Corso

  • Metodologia

    Online

  • Inizio

    Scegli data

La figura del ”data scientist” è un professionista che analizza e interpreta grandi quantità di dati per estrarre informazioni utili e supportare decisioni strategiche. Il suo lavoro combina competenze in statistica, matematica, programmazione e conoscenza dei business o dei settori specifici. I data scientist utilizzano strumenti avanzati, come machine learning e intelligenza artificiale, per costruire modelli predittivi e risolvere problemi complessi. La loro attività può spaziare dall'analisi dei dati aziendali per migliorare l'efficienza operativa, alla creazione di algoritmi per migliorare i prodotti o i servizi offerti da un'azienda

Sedi e date

Luogo

Inizio del corso

Online

Inizio del corso

Scegli dataIscrizioni aperte

Domande e risposte

Aggiungi la tua domanda

I nostri consulenti e altri utenti potranno risponderti

Chi vuoi che ti risponda?

Inserisci i tuoi dati per ricevere una risposta

Pubblicheremo solo il tuo nome e la domanda

Emagister S.L. (Titolare del trattamento dati) utilizzerà i tuoi dati per svolgere attività promozionali (via email e/o telefono), pubblicare recensioni o gestire eventuali segnalazioni. Nella politica sulla privacy potrai conoscere i tuoi diritti e gestire la cancellazione.

Opinioni

Successi del Centro

2023
2022
2020

Tutti i corsi devono essere aggiornati

La media delle valutazioni dev'essere superiore a 3,7

Più di 50 opinioni degli ultimi 12 mesi

6 anni del centro in Emagister.

Materie

  • E-learning
  • Programmazione
  • Apache
  • SQL
  • E-business

Programma

Modulo 1: la gestione dei dati distribuiti Cos'è la gestione dei dati distribuiti? Differenze tra sistemi centralizzati e distribuiti. Vantaggi e sfide della gestione dei dati distribuiti. Modulo 2: Architettura di Hadoop Panoramica di Hadoop e del suo ecosistema. Componenti principali di Hadoop: HDFS, YARN, MapReduce. Come Hadoop gestisce i dati distribuiti. Modulo 3: HDFS: Il sistema di file distribuito di Hadoop Funzionamento di HDFS (Hadoop Distributed File System). Blocchi di dati e replica. Lettura e scrittura dei dati su HDFS. Modulo 4: YARN e il job scheduling in Hadoop Cos'è YARN (Yet Another Resource Negotiator). Funzionamento del job scheduler in Hadoop. Gestione delle risorse in un cluster Hadoop. Modulo 5: MapReduce: Introduzione e concetti Cos'è MapReduce e come funziona. Il ciclo di vita di un job MapReduce. Esempio di un programma MapReduce. Modulo 6: Esecuzione di lavori MapReduce su Hadoop Scrittura di programmi MapReduce in Java. Esecuzione di un programma MapReduce su Hadoop. Debugging e ottimizzazione di lavori MapReduce. Modulo 7: Introduzione a Apache Spark Cos'è Apache Spark e come si differenzia da Hadoop. Vantaggi di Spark rispetto a MapReduce. Componenti principali di Spark: RDD, DataFrame, SparkSQL. Modulo 8: Architettura di Apache Spark Come funziona Apache Spark: Driver, Executor, Cluster Manager. Spark Context e gestione delle risorse. Spark in modalità standalone, YARN, Mesos. Modulo 9: RDD (Resilient Distributed Dataset) e operazioni di Spark Cos'è un RDD e come gestisce i dati distribuiti. Operazioni su RDD: map, filter, reduce. Persistenza e caching degli RDD. Modulo 10: SparkSQL e DataFrames Introduzione a SparkSQL e come integrare SQL con Spark. Creazione e manipolazione di DataFrames. Esecuzione di query SQL su Spark. Modulo 11: Machine Learning con Apache Spark (MLlib) Introduzione a MLlib per l'apprendimento automatico su Spark. Creazione di modelli di machine learning con Spark. Esempi di regressione, classificazione e clustering. Modulo 12: Streaming con Apache Spark (Spark Streaming) Cos'è Spark Streaming e come funziona. Elaborazione dei dati in tempo reale con DStreams. Esempi di applicazioni di Spark Streaming. Modulo 13: Integrazione tra Hadoop e Spark Come utilizzare Spark con HDFS. Lettura e scrittura di dati tra Hadoop e Spark. Vantaggi dell'uso combinato di Hadoop e Spark. Modulo 14: Ottimizzazione delle performance in Hadoop e Spark Ottimizzazione di MapReduce su Hadoop. Ottimizzazione dei job Spark: caching, partizionamento. Best practices per migliorare la velocità e l'efficienza. Modulo 15: Monitoraggio, gestione e sicurezza in ambienti distribuiti Monitoraggio delle risorse e dei job in Hadoop e Spark. Gestione della sicurezza: autenticazione, autorizzazione e crittografia. Strumenti di monitoraggio (Ganglia, Ambari) e log di sistema.

Chiama il centro

Hai bisogno di un coach per la formazione?

Ti aiuterà a confrontare vari corsi e trovare l'offerta formativa più conveniente.

Strumenti di gestione dei dati distribuiti (Hadoop, Spark).

250 € IVA inc.