Tecniche di gestione e archiviazione dei dati (ETL, pipeline dati).

Corso

Online

250 € IVA inc.

Chiama il centro

Hai bisogno di un coach per la formazione?

Ti aiuterà a confrontare vari corsi e trovare l'offerta formativa più conveniente.

Descrizione

  • Tipologia

    Corso

  • Metodologia

    Online

  • Inizio

    Scegli data

La figura del ”data scientist” è un professionista che analizza e interpreta grandi quantità di dati per estrarre informazioni utili e supportare decisioni strategiche. Il suo lavoro combina competenze in statistica, matematica, programmazione e conoscenza dei business o dei settori specifici. I data scientist utilizzano strumenti avanzati, come machine learning e intelligenza artificiale, per costruire modelli predittivi e risolvere problemi complessi. La loro attività può spaziare dall'analisi dei dati aziendali per migliorare l'efficienza operativa, alla creazione di algoritmi per migliorare i prodotti o i servizi offerti da un'azienda

Sedi e date

Luogo

Inizio del corso

Online

Inizio del corso

Scegli dataIscrizioni aperte

Domande e risposte

Aggiungi la tua domanda

I nostri consulenti e altri utenti potranno risponderti

Chi vuoi che ti risponda?

Inserisci i tuoi dati per ricevere una risposta

Pubblicheremo solo il tuo nome e la domanda

Emagister S.L. (Titolare del trattamento dati) utilizzerà i tuoi dati per svolgere attività promozionali (via email e/o telefono), pubblicare recensioni o gestire eventuali segnalazioni. Nella politica sulla privacy potrai conoscere i tuoi diritti e gestire la cancellazione.

Opinioni

Successi del Centro

2023
2022
2020

Tutti i corsi devono essere aggiornati

La media delle valutazioni dev'essere superiore a 3,7

Più di 50 opinioni degli ultimi 12 mesi

6 anni del centro in Emagister.

Materie

  • E-learning
  • Archiviazione
  • Servizi
  • Statistica
  • E-business

Programma

Modulo 1: la Gestione dei Dati Fondamenti di gestione dei dati: cosa sono i dati e come vengono utilizzati nelle organizzazioni Panoramica sui principali tipi di dati: strutturati, semi-strutturati, non strutturati L'importanza della qualità dei dati e della governance Modulo 2: Architettura dei Sistemi di Gestione dei Dati Panoramica sulle architetture di gestione dei dati (database relazionali, NoSQL, data warehouse) Differenze tra sistemi OLTP (Online Transaction Processing) e OLAP (Online Analytical Processing) Sistemi di archiviazione dei dati su cloud vs. on-premise Modulo 3: l'ETL (Estrazione, Trasformazione, Caricamento) Cos'è il processo ETL e come viene utilizzato per la gestione dei dati I tre principali passaggi del processo: Estrazione, Trasformazione e Caricamento Importanza di ETL per la qualità dei dati nei sistemi aziendali Modulo 4: Estrazione dei Dati (Extract) Tecniche di estrazione dei dati da fonti eterogenee (database, file, API) Formati di dati comunemente utilizzati (CSV, JSON, XML, Parquet, ecc.) Gestione della connessione a sorgenti di dati eterogenei e problemi comuni (duplicati, incompleti, non validi) Modulo 5: Trasformazione dei Dati (Transform) Cos'è la trasformazione dei dati e la sua importanza nel processo ETL Tecniche di pulizia dei dati (gestione dei valori nulli, formattazione, normalizzazione) Manipolazione avanzata dei dati (aggregazione, join, filtri, pivoting) Gestione degli errori di trasformazione e validazione dei dati Modulo 6: Caricamento dei Dati (Load) Tecniche di caricamento dei dati in database e data warehouse Caricamento batch vs. streaming: differenze e casi d'uso Ottimizzazione delle performance di caricamento e gestione delle dipendenze Modulo 7: Pipeline di Dati: Cos'è e Come Funziona Definizione e concetti base delle pipeline dati Differenza tra pipeline dati batch e pipeline dati in tempo reale Architettura delle pipeline dati in ambienti complessi e distribuiti Modulo 8: Creazione e Gestione delle Pipeline Dati Strumenti e tecnologie per costruire pipeline dati (Apache Airflow, Prefect, Luigi) Definizione delle fasi di una pipeline e gestione dei task Come configurare la schedulazione e la gestione degli errori nelle pipeline Modulo 9: Monitoraggio e Ottimizzazione delle Pipeline Tecniche di monitoraggio delle pipeline dati in tempo reale Utilizzo di dashboard e strumenti di monitoraggio (Grafana, Prometheus, ecc.) Ottimizzazione delle pipeline: parallelizzazione, batching, riduzione dei tempi di latenza Modulo 10: Archiviazione e Backup dei Dati Tecniche di archiviazione dei dati: storage su cloud, su disco rigido, storage distribuito Soluzioni di backup e ripristino dei dati: frequenza, metodi, e software Principi di durabilità dei dati e conformità alle normative (GDPR, HIPAA) Modulo 11: Integrazione di Dati con API e Microservizi Come integrare i dati da API esterne nelle pipeline ETL Architettura basata su microservizi per l'elaborazione dei dati Considerazioni sulla gestione delle API e la sicurezza nei flussi di dati Modulo 12: Tecniche di Data Warehousing e Data Lakes Differenze tra data warehouse e data lake Architettura di un data warehouse: staging, ODS (Operational Data Store), e reporting Gestione di grandi volumi di dati non strutturati con i data lakes Modulo 13: Strumenti per l'ETL e le Pipeline Dati Panoramica sugli strumenti di ETL e di pipeline dati più diffusi (Talend, Apache Nifi, Informatica, dbt) Piattaforme cloud come AWS Glue, Google Dataflow, Azure Data Factory per pipeline dati scalabili Confronto tra strumenti open source e commerciali Modulo 14: Big Data e Pipelines Distribuite Come gestire e scalare pipeline di dati in ambienti Big Data (Hadoop, Spark) Tecniche di elaborazione distribuita dei dati e l'uso di cluster Concetti di sharding, partitioning e gestione dei dati in cluster Modulo 15: Best Practices e Tendenze Future nella Gestione dei Dati Best practices per la progettazione, implementazione e gestione delle pipeline dati L'importanza della governance e della sicurezza dei dati Tendenze future nella gestione dei dati: automazione, intelligenza artificiale, e real-time analytics

Chiama il centro

Hai bisogno di un coach per la formazione?

Ti aiuterà a confrontare vari corsi e trovare l'offerta formativa più conveniente.

Tecniche di gestione e archiviazione dei dati (ETL, pipeline dati).

250 € IVA inc.