Il Datamining è l’insieme delle tecniche e delle tecnologie che permettono di esplorare grandi basi di dati in maniera automatica o semiautomatica con l’obiettivo di trovare schemi ripetitivi, tendenze o regole che spieghino il comportamento dei dati in un determinato contesto. La banca dati nasce per aiutare a comprendere il contenuto di un deposito dati.  Con questo fine, utilizza dei processi statistici e anche degli algoritmi di ricerca vicine all’intelligenza artificiale e alle reti neuronali.

In generale, i dati sono la materia prima ancora grezza: quando l’utente attribuisce loro dei significati allora diventano informazioni.  Gli specialisti elaborano un modello facendo in modo che l’interpretazione che c’è tra le informazioni e il modello rappresenti un valore aggiunto.

È composta da quattro punti principali:

  1. Determinare gli obiettivi. Si tratta di stabilire gli obiettivi che il cliente vuole raggiungere seguendo i consigli dell’esperto in base di dati.
  2. Preelaborazione dei dati. Si riferisce alla selezione, alla pulizia, all’arricchimento, alla riduzione e alla trasformazione della base dati. Questo punto occupa generealmente il 70% del tempo totale di un progetto della banca dati.
  3. Determinazione del modello. Si inizia realizzando alcune analisi statistiche dei dati e dopo si arriva a una visualizzazione grafica di essi per avere una prima approssimazione. Secondo gli obiettivi posti si possono utilizzare degli algoritmi sviluppati in differenti aree dell’intelligenza artificiale.
  4. Analisi dei risultati. Verificare se i risultati ottenuti sono coerenti e confrontarli con quelli ottenuti grazie alle analisi statistiche e di visualizzazione grafica. Il cliente determina se sono di nuova generazione e se lo aiutano a prendere una decisone.

Tecniche della banca dati

Le tecniche della banca dati provengono dall’intelligenza artificiale e dalla statistica. Si tratta di algoritmi che si applicano a un insieme di dati con l’obiettivo di ottenere risultati.

Le tecniche che più si utilizzano sono:

  • Le reti neurali

Si tratta di un paradigma di apprendimento e di elaborazione automatizzato che si ispira al modello di funzionamento del sistema nervoso degli animali.

È un sistema che permette di interconnettere i neuroni in una rete (rete neuronale) che collabora per la produzione degli stimoli d’uscita.

 

Tra gli esempi di reti neurali ci sono:

– Il percettrone (tipo di rete artificiale)

– Il percettrone multistrato

– L’auto-regolante

– La regressione lineare

È una delle tecniche più utilizzate per la formazione di relazione tra dati. Si tratta di un sistema rapido ed efficace che però a volte trova delle insufficcienze negli spazi multidisciplinari dove possono relazionarsi più di due variabili.

  • Gli alberi delle decisioni

Si tratta di un modello di previsione che si utilizza nel campo dell’intelligenza artificiale partendo da una base dati dove si costruiscono i diagrammi di costruzione logica. È un sistema simile alla previsione basata nelle regole che servono per la rappresentazione di una serie di condizioni che si presentano in maniera successiva alla soluzione di problemi.

  • I modelli statici

Si tratta di una espressione simbolica che si utilizza nei disegni sperimentali e nella regressione, con l’intenzione di identificare i fattori che modificano la risposta variabile.

  • Il raggruppamento

Consiste nel raggruppamento di una serie di vettori secondo determinati criteri che abitualmente sono a distanza. Si tratta della disposizione dei vettori di entrata in modo che siano più vicini a quelli che hanno caratteristiche comuni.

In base all’obiettivo della realizzazione dell’analisi, gli algoritmi si possono classificare come algoritmi controllati, che predicono un dato sconosciuto inizialmente a partire da altri dati che sono già conosciuti, e come algoritmi non controllati, i quali scoprono schemi e tendenze che presentano i dati.

Microsoft SQL Server Analysis Servicies fornisce i seguenti strumenti per l’estrazione dati utilizzabili per creare soluzioni:

-L’assistente per la banca dati dell’SQL Server Data Tools (SSDT) facilita la creazione di strutture e di modelli della banca dati usando l’origine di dati relazionali o dati pluridimensionali.

-Si scelgono i dati che si vogliono utilizzare e dopo si applicano tecniche di estrazione dati specifiche, come raggruppamento in cluster, reti neurali o modelli di serie temporali e dispongono dell’SQL Server Management Studio visori delli SQL Server Data Toola (SSDT) per esplorare i modelli della banca dati una volta creati. Può esaminare i modelli tramite visori adattati a ogni algoritmo o analizzare con maggior accuratezza utilizzando il visore dei contenuti del modello.

, , ,

Lascia un Commento

Vuoi partecipare alla discussione?
Sentitevi liberi di contribuire!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *