Gli imponenti volumi di dati raccolti attraverso l’IoT mettono a disposizione delle aziende flussi di informazioni eterogenee per variabilità di fonti, modelli e formati in cui vengono trasmesse.
Il grande potenziale che queste offrono in termini di conoscenza pone, insieme alla necessità di analizzare e comprendere i dati in proprio possesso, due ordini esigenze, reciprocamente connesse, che riguardano la selezione e la conservazione dei dati stessi.
La prima esigenza, di carattere interpretativo, richiede, di fronte alla crescente mole di informazioni disponibili, di individuare ed applicare un modello che sia in grado di selezionare gruppi omogenei di dati utili, separandoli dalle altre informazioni raccolte, per poter concentrare le risorse di IoT analytics esclusivamente su materiale d’interesse per l’azienda.
L’attività di selezione degli IoT data è particolarmente complessa in quanto gli stessi metodi di analisi che si applicheranno, basati su specifici formati o modelli di dati, possono influenzare la capacità di comprendere i dati stessi, poiché la chiave di analisi modifica e interpreta l’esito dell’analisi stessa basandosi su specifici criteri che di fatto escludono tutti i dati che non li soddisfano.
L’Augmented Analytics, avvalendosi delle tecnologie di intelligenza artificiale e machine learning, è in grado di analizzare e selezionare miliardi di dati per restituire alle aziende i pattern più rilevanti offrendo accesso alle informazioni, anche a chi non ha una formazione specifica in data science.
Strettamente connessa all’attività di selezione, che individua le informazioni che è importante salvare ed analizzare, l’attività di storage dei dati si trova a far fronte ad un aumento delle esigenze in termini di spazio e flessibilità.
La crescente mole di informazioni che vengono raccolte e il carattere semi-strutturato o non strutturato che le contraddistingue ha determinato la necessità di poter accogliere e conservare dati che non rispondono agli specifici standard di formati e modelli richiesti dai data center.
Il Data Lake risponde a questa esigenza semplificando l’archiviazione, la gestione e l’analisi dei Big Data, poiché non necessita di una strutturazione ex ante del dato, è in grado di accogliere dati strutturati, semi-strutturati e destrutturati. L’azienda ha così accesso ad un set notevolmente più ampio di dati, indipendentemente dalla sorgente che li ha generati.
La grande quantità di dati potenzialmente disponibili apre nuove sfide per le aziende: l'accesso alle informazioni e alla conoscenza che ne deriva sarà determinato non solo dalla capacità di interpretazione degli analisti, ma anche dalle capacità di organizzazione, gestione e conservazione dei dati stessi, attività che ne influenzeranno la qualità.