Research Phase 3
Auswertung von Datenqualität
Wachsende Datenmengen und Fortschritte in der Datenanalyse, insbesondere beim maschinellen Lernen, können die Produktionstechnik effizienter machen. Um die menschliche und autonome Entscheidungsfähigkeit zu verbessern, müssen aus vielen verschiedenen Daten Wissen und Informationen extrahiert werden. Dabei hängt der Erfolg von Datenprojekten stark von der Qualität dieser Daten ab, die Auswertung ist jedoch zeitaufwändig und erfordert ein hohes Maß an Expertenwissen.
In diesem Projekt wurde ein Werkzeug zur Quantifizierung und Bewertung der Qualität von Produktionsdaten entwickelt. Dadurch können Erfolg und Nutzen von Datenprojekten bei der Use-Case-Selektion genauer abgeschätzt werden. Auch Nutzerinnen und Nutzer mit wenig oder gar keinem Daten-Know-how können die Qualität ihrer Datensätze hiermit schnell einschätzen.
Das Bewertungssystem konzentriert sich auf die beiden häufigsten Datenmodalitäten, die in der Produktion anfallen: Zeitreihen- und Querschnittsdaten. Die Datensätze werden anhand von 41 Kriterien bewertet, die in vier Kategorien unterteilt sind: Datensatz, Datenpunkt, Merkmal und Modellierungskriterien. Die Bewertung erfolgt auf Grundlage der Quantifizierung der einzelnen Merkmale, die dann zu einer Gesamtbewertungsnote mit anpassbarer Gewichtung zusammengefasst wird. Zusätzlich zur Bewertung des Datensatzes erhalten Benutzer kurze Erklärungen zu allen Kriterien, verschiedene Visualisierungen der Datenmerkmale sowie Empfehlungen zur weiteren Verbesserung der Datenqualität.
Das System schafft Transparenz über den gesamten Lebenszyklus von Datensätzen und ermöglicht Benutzerinnen und Benutzer ohne Kenntnisse in Datenanalyse und Statistik die Qualität ihrer Daten umfassend zu bewerten. Darüber hinaus bietet es auch Expertinnen und Experten ein erweiterbares und anpassbares Tool zur Identifizierung profitabler Anwendungsfälle für maschinelles Lernen, was für viele weitere Datenanalyse- oder maschinelle Lernprojekte anwendbar ist.