Università
II Datalab rappresenta il centro di competenze statistico-informatiche del Dipartimento di Economia, Metodi Quantitativi e Strategie di Impresa DEMS dell’Università di Milano-Bicocca.
Il centro si pone a supporto della didattica degli insegnamenti orientati ai dati del DEMS e di altri dipartimenti che ne richiedano la collaborazione. Le strutture computazionali sia cloud che fisiche diventano per gli studenti un momento di confronto con la complessità di elaborazione dei dati reali e un luogo di interazione con ricercatori e imprese.
Ricerca
Il Datalab è un’infrastruttura per la ricerca del Dipartimento DEMS, degli altri dipartimenti dell’Ateneo e di soggetti esterni coinvolti nei progetti del laboratorio. Il Datalab sviluppa progetti interdisciplinari che utilizzano metodi innovativi di statistica e data science per rispondere a domande di ricerca in differenti domini.
Laboratori
Datalab supporta le attività didattiche dei corsi data-oriented per i dipartimenti che richiedono la sua collaborazione. Sia i servizi cloud che le strutture computazionali fisiche diventano per gli studenti un momento di confronto con la complessità dell’elaborazione di dati reali, ma anche un luogo di interazione con ricercatori e aziende.
Pubblicazioni
Le pubblicazioni legate ai progetti del Datalab sono scaricabili in questa sezione. Le pubblicazioni rappresentano il prodotto della ricerca dei membri del Datalab e dei progetti di ricerca che hanno usufruito dell’infrastruttura computazionale o del supporto di competenze del laboratorio.
Datalab per gli studenti
Datalab offre agli studenti la possibilità di collaborare con il centro svolgendo tirocini e progetti di tesi. Per candidarti contatta il laboratorio allegando il CV e una proposta di ricerca, oppure scegli tra le proposte disponibili.
Proposte di tirocinio
Proposte di tirocinio
A partire dall’aprile 2004, ogni ora vi è un’asta sul “mercato del giorno prima” (MGP) per lo scambio di energia elettrica all’ingrosso. Inoltre, nel tempo sono stata attivate ulteriori aste intermedie poste tra il mercato del giorno prima e il mercato di dispacciamento. Ogni asta del MGP consiste in centinaia di offerte di vendita di pacchetti di energia e in centinaia di offerte di acquisto di pacchetti di energia. Abbiamo la possibilità di scaricare i dati per mezzo di ftp con una settimana di ritardo rispetto alla produzione. Per ogni giorno viene prodotto uno zip con all’interno la tabella delle offerte di quel giorno. Lo stagista dovrà partecipare alla costruzione di un sistema di alimentazione automatica del dataset, della sua organizzazione efficiente per mezzo di un DBMS e per mezzo di una dashboard rendere possibile al ricercatore il semplice scarico dei dati desiderati e disponibile una serie di analisi e previsioni interessanti.
Supervisor/Proposer: Matteo Pelagatti
La finalità di una procedura di A / B testing per il marketing digitale è identificare quale tra due pagine web possiede, ad esempio, il più alto "click-through rate" (CTR) o il miglior "conversion rate" (CR). Gli utenti vengono ripartiti casualmente in due gruppi (A e B) e viene quindi verificato se il CTR o il CR del gruppo A incrementa rispetto a quello del gruppo B. Vogliamo stabilire se A è migliore di B nel più breve tempo possibile. Al tempo stesso, vogliamo evitare che la decisione sia basata su oscillazioni casuali dei dati. Il progetto prevede la costruzione di una dashboard in Shiny la quale, ricevuti come input il CTR o il CR di ciascuno dei due gruppi, stabilisce se è possibile concludere l'esperimento oppure se è necessario raccogliere ulteriori dati, dichiarando nel primo caso quale delle due varianti A e B è preferibile.
Supervisor/Proposer: Tommaso Rigon
Negli ultimi anni l’interesse per i consumi energetici e la razionalizzazione degli stessi è un argomento di dibattito in molti contesti. Il monitoraggio e la previsione dei consumi sono fondamentali per la riduzione dei costi di gestione e per attuare decisioni più sostenibili. L’Università di Milano-Bicocca acquisisce mensilmente tutti i dati di consumo dei propri edifici creando così una opportunità di analisi e monitoraggio fondamentale a supporto delle decisioni. Il progetto prevede l’automatizzazione della fase di raccolta dati, l’analisi dei dati, la realizzazione di un sistema di machine learning per la previsione dei consumi e la costruzione di una dashboard in Shiny per la condivisione e divulgazione dei risultati.
Supervisor/Proposer: Matteo Borrotti
Assegni di ricerca
Assegni di ricerca
Owners of power plants bid quantity/price pairs on the day-ahead market to sell their electricity on the wholesale market. In order to do this efficiently, they need to forecast the supply curve of their competitors and, based on these forecasts, implement a bidding strategy that maximises their profits. The object of this research is building probabilistic predictions of the hourly aggregate supply curves of the competitors and using this information to obtain the optimal bidding strategy.
Technical skills: functional time series, optimisation, R or Python or Julia programming
Research topics: statistics, functional data analysis, operation research
Supervisor/Proposer: Matteo Pelagatti
Duration: 12 months
Knowledge graphs (KG) are large rdf graphs representing concepts and relation among them. they are becoming more and more important in a large number of field such as recommender systems, chatbot, search engine. KG are usually used by means of specific query languages such as SPARQL and they return a subgraph that is difficult to understand for end users. To extend the use of KG the research want to explore the translation of RDF instances (that is a subgraph) in natural language by means of deep network architectures.
Technical skills: python programming, knowledge of deep learning architectures
Research topics: data science, computer science, natural language generation
Supervisor/Proposer: Andrea Maurino
Duration: 12 months
Proposte di tesi
Proposte di tesi
Il topic modelling è una tecnica di apprendimento non supervisionato per catalogare testi. Se il contenuto del corpus di testi muta nel tempo diventa essenziale sviluppare algoritmi per catturare come le categorie evolvono nel tempo.
Technical skills: statistics, R or Python programming
Research topics: text mining, knowledge discovery
Supervisor/Proposer: Marco Guerzoni