Stefano Agrabati
Questa relazione documenta il progetto di tirocinio curriculare incentrato sulla progettazione e realizzazione di un’applicazione software capace di supportare e automatizzare le fasi iniziali dell’analisi di un dataset, in particolare per l’individuazione di bias e problematiche di fairness. L’obiettivo principale è stato quello di investigare le potenzialità dei Large Language Models (LLM) — in particolare tramite l’uso del framework LangChain e del modello Google Gemini — nell’assistere un data scientist durante attività quali l’identificazione di caratteristiche sensibili, proxy, nicchie, disproporzioni e target variabili, adattandosi al contesto applicativo.
Il sistema è strutturato secondo i principi della clean architecture e integra moduli specifici per la gestione del dataset (caricamento, pulizia, codifica), l’addestramento di modelli di machine learning, la visualizzazione di metriche statistiche e grafici, e la valutazione della fairness tramite la libreria Fairlearn. La comunicazione con l’LLM avviene attraverso una struttura asincrona di messaggi request-response che consente, quando necessario, l’attivazione di tool specializzati.
Attraverso esperimenti su due dataset pubblici (Adult e Bank Marketing), è stato possibile valutare l’efficacia e i limiti dell’automazione proposta, evidenziando vantaggi significativi ma anche criticità legate all’imprevedibilità e alla mancanza di determinismo nelle risposte degli LLM. Il lavoro ha inoltre offerto un approfondito percorso di apprendimento sui concetti chiave dell’intelligenza artificiale, machine learning e fairness, affiancato all’acquisizione di competenze pratiche in Python e nelle principali librerie utilizzate in ambito data science.
keywords
LLM, fairness