Ti aiuterà a confrontare vari corsi e trovare l'offerta formativa più conveniente.
Descrizione
Tipologia
Corso
Metodologia
Online
Inizio
Scegli data
Descrizione
La figura del ”data scientist” è un professionista che analizza e interpreta grandi quantità di dati per estrarre informazioni utili e supportare decisioni strategiche. Il suo lavoro combina competenze in statistica, matematica, programmazione e conoscenza dei business o dei settori specifici. I data scientist utilizzano strumenti avanzati, come machine learning e intelligenza artificiale, per costruire modelli predittivi e risolvere problemi complessi. La loro attività può spaziare dall'analisi dei dati aziendali per migliorare l'efficienza operativa, alla creazione di algoritmi per migliorare i prodotti o i servizi offerti da un'azienda
Sedi e date
Luogo
Inizio del corso
Online
Inizio del corso
Scegli dataIscrizioni aperte
Domande e risposte
Aggiungi la tua domanda
I nostri consulenti e altri utenti potranno risponderti
Stiamo controllando la tua domanda per verificare che sia conforme con gli standard di pubblicazione. A parte questo, abbiamo rilevato dalle tue risposte che potresti non essere in grado di immatricolarti a questa formazione. Questo potrebbe essere dovuto al titolo di studio che possiedi, al luogo in cui vivi, ecc. In ogni caso ti consigliamo di verificare contattando il centro di formazione.
Grazie mille!
Stiamo verificando la tua domanda. A breve sarà pubblicata
Preferisci essere contattato dal centro?
Opinioni
Hai seguito questo corso? Condividi la tua opinione
Successi del Centro
2023
2022
2020
Tutti i corsi devono essere aggiornati
La media delle valutazioni dev'essere superiore a 3,7
Più di 50 opinioni degli ultimi 12 mesi
6 anni del centro in Emagister.
Materie
E-learning
Programmazione
Apache
SQL
E-business
Programma
Modulo 1: Introduzione ai Big Data
Cos'è il Big Data e perché è importante
Le 5 V dei Big Data: Volume, Velocità, Varietà, Veridicità, Valore
Introduzione agli strumenti Big Data: Apache Hadoop, Apache Spark, Apache Kafka
Panorama generale dell'ecosistema Big Data
Modulo 2: Fondamenti di Apache Hadoop
Cos'è Apache Hadoop e architettura di Hadoop
HDFS (Hadoop Distributed File System) e il suo funzionamento
MapReduce: comprensione del modello di programmazione
Creazione di un cluster Hadoop
Modulo 3: Apache Hadoop: Configurazione e Installazione
Requisiti di sistema per Hadoop
Installazione di Hadoop su macchine locali e su cloud
Configurazione di Hadoop: file di configurazione principali
Gestione di un cluster Hadoop: master e nodi worker
Modulo 4: Lavorare con HDFS
Concetti di base di HDFS: nodi, file system, e replicazione
Comandi HDFS: creazione, lettura, scrittura e gestione dei file
Best practices per l'uso di HDFS
Utilizzo di HDFS per l'archiviazione di grandi volumi di dati
Modulo 5: Programmazione con MapReduce in Hadoop
Cos'è MapReduce: concetti e flusso di lavoro
Creazione di un programma MapReduce
Scrittura di job MapReduce per il processamento dei dati
Gestione degli errori e ottimizzazione di MapReduce
Modulo 6: Introduzione a Apache Spark
Cos'è Apache Spark e come differisce da Hadoop
Architettura di Spark: RDD (Resilient Distributed Datasets) e DAG (Directed Acyclic Graph)
Vantaggi di Spark: velocità e gestione dei dati in memoria
Installazione e configurazione di Apache Spark
Modulo 7: Lavorare con RDD e DataFrame in Apache Spark
Cos'è un RDD e come manipolarlo
Operazioni su RDD: map, reduce, filter
Introduzione ai DataFrame in Spark: come lavorare con i dati strutturati
Confronto tra RDD e DataFrame
Modulo 8: Processamento dei Dati in Apache Spark
Gestire i dati in Spark: lettura e scrittura di file (parquet, CSV, JSON)
Trasformazioni e azioni in Spark
Ottimizzazione delle performance di Spark: gestione della memoria e delle partizioni
Esegui Spark su cluster: modalità locale vs. distribuita
Modulo 9: Spark SQL e Analisi Dati Avanzata
Cos'è Spark SQL: introduzione e sintassi
Utilizzo di SQL su DataFrame in Spark
Creazione di query complesse con Spark SQL
Integrazione di Spark con Hive e altre tecnologie di storage
Modulo 10: Introduzione a Apache Kafka
Cos'è Apache Kafka e la sua architettura
Componente di Kafka: Producer, Broker, Consumer
Come Kafka gestisce la messaggistica e i flussi di dati in tempo reale
Configurazione e avvio di un cluster Kafka
Modulo 11: Kafka: Produttori e Consumatori di Messaggi
Cos'è un produttore Kafka e come inviare messaggi
Cos'è un consumatore Kafka e come leggere messaggi
Creare produttori e consumatori con API Kafka
Gestione delle partizioni e dei topic in Kafka
Modulo 12: Lavorare con Streams in Kafka
Cos'è Kafka Streams e come gestirlo
la stream processing con Kafka
Creare flussi di dati con Kafka Streams
Analizzare e trasformare i dati in tempo reale
Modulo 13: Integrazione di Apache Kafka con Apache Spark
Come Kafka e Spark lavorano insieme
Streaming di dati da Kafka a Spark con Spark Streaming
Architettura di Kafka + Spark per il processamento in tempo reale
Esempi di applicazioni reali con Kafka e Spark
Modulo 14: Gestione dei Dati in Tempo Reale con Kafka e Spark Streaming
Cos'è Spark Streaming e come si integra con Kafka
Creazione di un'applicazione di streaming in tempo reale con Kafka e Spark
Gestire la latenza e l'affidabilità nei flussi di dati
Ottimizzare Spark Streaming per performance elevate
Modulo 15: Best Practices e Sicurezza con Hadoop, Spark e Kafka
Sicurezza nei cluster Hadoop: configurazione della sicurezza, accesso ai dati
Best practices per l'ottimizzazione di Hadoop, Spark e Kafka
Come monitorare e gestire il performance dei cluster
Casi d'uso reali e scalabilità di Hadoop, Spark e Kafka per Big Data