Il Datamining è l’insieme delle tecniche e delle tecnologie che permettono di esplorare grandi basi di dati in maniera automatica o semiautomatica con l’obiettivo di trovare schemi ripetitivi, tendenze o regole che spieghino il comportamento dei dati in un determinato contesto. La banca dati nasce per aiutare a comprendere il contenuto di un deposito dati. Con questo fine, utilizza dei processi statistici e anche degli algoritmi di ricerca vicine all’intelligenza artificiale e alle reti neuronali.
In generale, i dati sono la materia prima ancora grezza: quando l’utente attribuisce loro dei significati allora diventano informazioni. Gli specialisti elaborano un modello facendo in modo che l’interpretazione che c’è tra le informazioni e il modello rappresenti un valore aggiunto.
È composta da quattro punti principali:
- Determinare gli obiettivi. Si tratta di stabilire gli obiettivi che il cliente vuole raggiungere seguendo i consigli dell’esperto in base di dati.
- Preelaborazione dei dati. Si riferisce alla selezione, alla pulizia, all’arricchimento, alla riduzione e alla trasformazione della base dati. Questo punto occupa generealmente il 70% del tempo totale di un progetto della banca dati.
- Determinazione del modello. Si inizia realizzando alcune analisi statistiche dei dati e dopo si arriva a una visualizzazione grafica di essi per avere una prima approssimazione. Secondo gli obiettivi posti si possono utilizzare degli algoritmi sviluppati in differenti aree dell’intelligenza artificiale.
- Analisi dei risultati. Verificare se i risultati ottenuti sono coerenti e confrontarli con quelli ottenuti grazie alle analisi statistiche e di visualizzazione grafica. Il cliente determina se sono di nuova generazione e se lo aiutano a prendere una decisone.
Tecniche della banca dati
Le tecniche della banca dati provengono dall’intelligenza artificiale e dalla statistica. Si tratta di algoritmi che si applicano a un insieme di dati con l’obiettivo di ottenere risultati.
Le tecniche che più si utilizzano sono:
- Le reti neurali
Si tratta di un paradigma di apprendimento e di elaborazione automatizzato che si ispira al modello di funzionamento del sistema nervoso degli animali.
È un sistema che permette di interconnettere i neuroni in una rete (rete neuronale) che collabora per la produzione degli stimoli d’uscita.
Tra gli esempi di reti neurali ci sono:
– Il percettrone (tipo di rete artificiale)
– Il percettrone multistrato
– L’auto-regolante
– La regressione lineare
È una delle tecniche più utilizzate per la formazione di relazione tra dati. Si tratta di un sistema rapido ed efficace che però a volte trova delle insufficcienze negli spazi multidisciplinari dove possono relazionarsi più di due variabili.
- Gli alberi delle decisioni
Si tratta di un modello di previsione che si utilizza nel campo dell’intelligenza artificiale partendo da una base dati dove si costruiscono i diagrammi di costruzione logica. È un sistema simile alla previsione basata nelle regole che servono per la rappresentazione di una serie di condizioni che si presentano in maniera successiva alla soluzione di problemi.
- I modelli statici
Si tratta di una espressione simbolica che si utilizza nei disegni sperimentali e nella regressione, con l’intenzione di identificare i fattori che modificano la risposta variabile.
- Il raggruppamento
Consiste nel raggruppamento di una serie di vettori secondo determinati criteri che abitualmente sono a distanza. Si tratta della disposizione dei vettori di entrata in modo che siano più vicini a quelli che hanno caratteristiche comuni.
In base all’obiettivo della realizzazione dell’analisi, gli algoritmi si possono classificare come algoritmi controllati, che predicono un dato sconosciuto inizialmente a partire da altri dati che sono già conosciuti, e come algoritmi non controllati, i quali scoprono schemi e tendenze che presentano i dati.
Microsoft SQL Server Analysis Servicies fornisce i seguenti strumenti per l’estrazione dati utilizzabili per creare soluzioni:
-L’assistente per la banca dati dell’SQL Server Data Tools (SSDT) facilita la creazione di strutture e di modelli della banca dati usando l’origine di dati relazionali o dati pluridimensionali.
-Si scelgono i dati che si vogliono utilizzare e dopo si applicano tecniche di estrazione dati specifiche, come raggruppamento in cluster, reti neurali o modelli di serie temporali e dispongono dell’SQL Server Management Studio visori delli SQL Server Data Toola (SSDT) per esplorare i modelli della banca dati una volta creati. Può esaminare i modelli tramite visori adattati a ogni algoritmo o analizzare con maggior accuratezza utilizzando il visore dei contenuti del modello.
Lascia un Commento
Vuoi partecipare alla discussione?Sentitevi liberi di contribuire!