Guida ai Big Data con Spark 2. 0 e Python
-
Corso approfondito che non tralascia le basi.
← | →
-
Costituisce un ottimo punto di partenza per ulteriori approfondimenti.
← | →
Corso
Online
Hai bisogno di un coach per la formazione?
Ti aiuterà a confrontare vari corsi e trovare l'offerta formativa più conveniente.
Descrizione
-
Tipologia
Corso
-
Metodologia
Online
-
Ore di lezione
8h
-
Inizio
Scegli data
-
Invio di materiale didattico
Sì
-
Servizio di consultazione
Sì
-
Tutoraggio personalizzato
Sì
-
Lezioni virtuali
Sì
Se l’analisi di grossi quantitativi di dati sta diventando sempre di più una necessità, non solo nel campo del marketing, ma anche di settori come la medicina e la diagnostica, da alcuni anni ci si sta ponendo il problema di quali siano le metodologie migliori per trarre quanta più informazione utile possibile dai grandi dataset che possono essere reperiti in vari modi su internet (ad esempio nel caso di analisi di social media) o fanno parte del patrimonio di un’azienda.
Viviamo infatti nell’era dei cosiddetti “Big Data”. Questo termine, coniato attorno al 2001, nasce per indicare enormi dataset che possono essere analizzati per estrarre informazione finora difficilmente accessibile e difficilmente processabile da un solo computer, per quanto potente, ma per analizzare i quali è necessario utilizzare più computer connessi in qualche modo tra loro in maniera coordinata.
Di conseguenza, anche dal lato dell'organizzazione dei dati sono nati dei framework particolari per la gestione di queste grosse quantità di dati, il più recente dei quali è Spark.
Spark, come vedremo, può essere utilizzato con molti linguaggi di programmazione, tra i quali Python è uno dei più importanti e utilizzati.
Dopo una parte introduttiva sui Big Data e sui framework che sono stati nel corso degli ultimi anni per gestirli, ci occuperemo quindi di vari argomenti e implementazione di esempi di codice per ognuna di queste due librerie. In particolare vedremo come implementare i più comuni algoritmi di machine learning: regressione, Support Vector Machines, Alberi di decisione, metodi Ensemble e Kmeans, oltre alla manipolazione dati e al calcolo delle statistiche di base. Vedremo poi l'implementazione di un'analisi testi tramite pyspark, come impostare un sistema di raccomandazione, e alcuni cenni su regole di associazione e streaming.
Sedi e date
Luogo
Inizio del corso
Inizio del corso
Profilo del corso
L'obiettivo finale è riuscire ad analizzare i Big Data tramite pyspark,Capire la nascita e l'evoluzione dei Big Data, a partire da Hadoop,Avere un panorama completo dei framework per i Big Data e della loro evoluzione,Capire l'evoluzione del framework Spark e dei suoi moduli,Impostare un ambiente di lavoro in locale e su Databricks,Importare e analizzare i dati tramite pyspark,Manipolazione dati e machine learning,Cenni di database SQL e NoSQL,Cenni di Spark Streaming
Conoscere le basi di Python e dell'analisi dati
Guida ai Big Data con Spark 2. 0 e Python
Opinioni
-
Corso approfondito che non tralascia le basi.
← | →
-
Costituisce un ottimo punto di partenza per ulteriori approfondimenti.
← | →
Valutazione del corso
Lo consiglia
Valutazione del Centro
Giuliano Meini
Massimiliano Righetti
Successi del Centro
Tutti i corsi devono essere aggiornati
La media delle valutazioni dev'essere superiore a 3,7
Più di 50 opinioni degli ultimi 12 mesi
5 anni del centro in Emagister.
Materie
- SQL
- Python
- Framework
- E-learning
Programma
Introduzione al corso
Come affrontare e risolvere i problemi più comuni
Come ottenere il rimborso del corso in caso di problemi
CODICE
Introduzione ai Big Data
Le 3 V
Hadoop e il suo ecosistema
Fasi dell'analisi e relative tecnologie
MapReduce vs Spark
Hadoop vs Spark
Introduzione a Spark
La transizione da Spark 1.0 a 2.0
Approfondimento sugli RDD
Modalità di esecuzione di Spark
Il local mode in Python
L'utilizzo dei sistemi distribuiti
Utilizzare Spark con Databricks
Strutture dati e astrazioni in Spark
Prime impostazioni dell'ambiente di lavoro
Funzioni di base e manipolazione dati sui DataFrame
Formati dati per il data mining
Importazione file in pyspark
Spark SQL
Data cleaning con pyspark
I database SQL
I database NoSQL
Il linguaggio SQL in pyspark
Introduzione al machine learning
Trasformare i dati
Metodi supervisionati
Metodi di regressione
Regressione lineare
Esempi di regressione con pyspark
Regressione Logistica
Esempi di regressione logistica con pyspark
Decision Trees
Esempi di Decision Trees con pyspark
Metodi Ensemble
Esempi di metodi ensemble con pyspark
Support Vector Machines
Esempi di Support Vector Machines con pyspark
Probabilità e metodi bayesiani
Esempi di Naive Bayes con pyspark
Metodi non supervisionati
Kmeans
Esempi di kmeans con pyspark
Introduzione ai sistemi di raccomandazione
Tipologie di sistemi di raccomandazione
I filtri collaborativi
I sistemi content based
Le distanze nei sistemi di raccomandazione
Esempi di filtri collaborativi con pyspark
Regole di associazione
Esempi di regole di associazione con pyspark
L'uso del machine learning nell'analisi dei testi
Natural Language Processing
Trattamento e pulizia dei dati
Vettorializzazione di un testo
Misurare la distanza tra due testi
TF-IDF
Tipi di strutture per l'analisi
Ulteriori informazioni
Cosa include il prezzo totale del corso?
Comunicazione diretta col docente, accesso a vita, ampliamenti e aggiornamenti inclusi, rimborso entro 30 giorni.
Hai bisogno di un coach per la formazione?
Ti aiuterà a confrontare vari corsi e trovare l'offerta formativa più conveniente.
Guida ai Big Data con Spark 2. 0 e Python