Ti aiuterà a confrontare vari corsi e trovare l'offerta formativa più conveniente.
Descrizione
Tipologia
Corso
Metodologia
Online
Inizio
Scegli data
Descrizione
La figura del ”data scientist” è un professionista che analizza e interpreta grandi quantità di dati per estrarre informazioni utili e supportare decisioni strategiche. Il suo lavoro combina competenze in statistica, matematica, programmazione e conoscenza dei business o dei settori specifici. I data scientist utilizzano strumenti avanzati, come machine learning e intelligenza artificiale, per costruire modelli predittivi e risolvere problemi complessi. La loro attività può spaziare dall'analisi dei dati aziendali per migliorare l'efficienza operativa, alla creazione di algoritmi per migliorare i prodotti o i servizi offerti da un'azienda
Sedi e date
Luogo
Inizio del corso
Online
Inizio del corso
Scegli dataIscrizioni aperte
Domande e risposte
Aggiungi la tua domanda
I nostri consulenti e altri utenti potranno risponderti
Stiamo controllando la tua domanda per verificare che sia conforme con gli standard di pubblicazione. A parte questo, abbiamo rilevato dalle tue risposte che potresti non essere in grado di immatricolarti a questa formazione. Questo potrebbe essere dovuto al titolo di studio che possiedi, al luogo in cui vivi, ecc. In ogni caso ti consigliamo di verificare contattando il centro di formazione.
Grazie mille!
Stiamo verificando la tua domanda. A breve sarà pubblicata
Preferisci essere contattato dal centro?
Opinioni
Hai seguito questo corso? Condividi la tua opinione
Successi del Centro
2023
2022
2020
Tutti i corsi devono essere aggiornati
La media delle valutazioni dev'essere superiore a 3,7
Più di 50 opinioni degli ultimi 12 mesi
6 anni del centro in Emagister.
Materie
E-learning
Archiviazione
Servizi
Statistica
E-business
Programma
Modulo 1: la Gestione dei Dati
Fondamenti di gestione dei dati: cosa sono i dati e come vengono utilizzati nelle organizzazioni
Panoramica sui principali tipi di dati: strutturati, semi-strutturati, non strutturati
L'importanza della qualità dei dati e della governance
Modulo 2: Architettura dei Sistemi di Gestione dei Dati
Panoramica sulle architetture di gestione dei dati (database relazionali, NoSQL, data warehouse)
Differenze tra sistemi OLTP (Online Transaction Processing) e OLAP (Online Analytical Processing)
Sistemi di archiviazione dei dati su cloud vs. on-premise
Modulo 3: l'ETL (Estrazione, Trasformazione, Caricamento)
Cos'è il processo ETL e come viene utilizzato per la gestione dei dati
I tre principali passaggi del processo: Estrazione, Trasformazione e Caricamento
Importanza di ETL per la qualità dei dati nei sistemi aziendali
Modulo 4: Estrazione dei Dati (Extract)
Tecniche di estrazione dei dati da fonti eterogenee (database, file, API)
Formati di dati comunemente utilizzati (CSV, JSON, XML, Parquet, ecc.)
Gestione della connessione a sorgenti di dati eterogenei e problemi comuni (duplicati, incompleti, non validi)
Modulo 5: Trasformazione dei Dati (Transform)
Cos'è la trasformazione dei dati e la sua importanza nel processo ETL
Tecniche di pulizia dei dati (gestione dei valori nulli, formattazione, normalizzazione)
Manipolazione avanzata dei dati (aggregazione, join, filtri, pivoting)
Gestione degli errori di trasformazione e validazione dei dati
Modulo 6: Caricamento dei Dati (Load)
Tecniche di caricamento dei dati in database e data warehouse
Caricamento batch vs. streaming: differenze e casi d'uso
Ottimizzazione delle performance di caricamento e gestione delle dipendenze
Modulo 7: Pipeline di Dati: Cos'è e Come Funziona
Definizione e concetti base delle pipeline dati
Differenza tra pipeline dati batch e pipeline dati in tempo reale
Architettura delle pipeline dati in ambienti complessi e distribuiti
Modulo 8: Creazione e Gestione delle Pipeline Dati
Strumenti e tecnologie per costruire pipeline dati (Apache Airflow, Prefect, Luigi)
Definizione delle fasi di una pipeline e gestione dei task
Come configurare la schedulazione e la gestione degli errori nelle pipeline
Modulo 9: Monitoraggio e Ottimizzazione delle Pipeline
Tecniche di monitoraggio delle pipeline dati in tempo reale
Utilizzo di dashboard e strumenti di monitoraggio (Grafana, Prometheus, ecc.)
Ottimizzazione delle pipeline: parallelizzazione, batching, riduzione dei tempi di latenza
Modulo 10: Archiviazione e Backup dei Dati
Tecniche di archiviazione dei dati: storage su cloud, su disco rigido, storage distribuito
Soluzioni di backup e ripristino dei dati: frequenza, metodi, e software
Principi di durabilità dei dati e conformità alle normative (GDPR, HIPAA)
Modulo 11: Integrazione di Dati con API e Microservizi
Come integrare i dati da API esterne nelle pipeline ETL
Architettura basata su microservizi per l'elaborazione dei dati
Considerazioni sulla gestione delle API e la sicurezza nei flussi di dati
Modulo 12: Tecniche di Data Warehousing e Data Lakes
Differenze tra data warehouse e data lake
Architettura di un data warehouse: staging, ODS (Operational Data Store), e reporting
Gestione di grandi volumi di dati non strutturati con i data lakes
Modulo 13: Strumenti per l'ETL e le Pipeline Dati
Panoramica sugli strumenti di ETL e di pipeline dati più diffusi (Talend, Apache Nifi, Informatica, dbt)
Piattaforme cloud come AWS Glue, Google Dataflow, Azure Data Factory per pipeline dati scalabili
Confronto tra strumenti open source e commerciali
Modulo 14: Big Data e Pipelines Distribuite
Come gestire e scalare pipeline di dati in ambienti Big Data (Hadoop, Spark)
Tecniche di elaborazione distribuita dei dati e l'uso di cluster
Concetti di sharding, partitioning e gestione dei dati in cluster
Modulo 15: Best Practices e Tendenze Future nella Gestione dei Dati
Best practices per la progettazione, implementazione e gestione delle pipeline dati
L'importanza della governance e della sicurezza dei dati
Tendenze future nella gestione dei dati: automazione, intelligenza artificiale, e real-time analytics