
Test- und Messdaten als erstklassige ML-Daten
Explore-to-Innovate | 2. und 3. Juli 2025 | Benningen | Deutschland
Test- und Messdaten werden im Entwicklungsprozess jedes Produkts erfasst, von der einfachen Zahnbürste bis hin zu komplexen Maschinen und Fahrzeugen. Oft liegen diese Daten in unterschiedlichen Formaten wie XLSX, CSV und MDF vor, was die Wertschöpfung, insbesondere für weiterführende Analysen und maschinelles Lernen (ML), erschwert.
👉 Entdecken Sie, wie ASAM ODS verschiedene Messdatenformate in einer einheitlichen und kohärenten Datenansicht vereint und so Test- und Messdaten zu erstklassigen ML-Daten macht.
[In der Blog-Übersicht wird hier ein Weiterlesen-Link angezeigt]
Test- und Messdatenproblem
Aus der Problemperspektive betrachtet ist das Test- und Messdatenproblem nicht neu und wurde bereits im Big-Data-Zeitalter als die fünf Vs erkannt: Vielfalt, Geschwindigkeit, Volumen, Wahrhaftigkeit und Wert. Sie lassen sich in drei Datenproblemklassen einteilen:
- Datenformatvielfalt
- Datenqualität
- Datenzugänglichkeit
Die genannten Datenprobleme sind der Grund für eine niedrige Datenanalyserate, sodass typischerweise nur 5–20 % der gesammelten Test- und Messdaten analysiert werden (1) und „weniger als 0,5 % aller Daten jemals analysiert und genutzt werden“ (2). Die folgende Grafik zeigt, wo diese Datenprobleme im Datenanalyseprozess auftreten.
Die Herausforderungen bei Test- und Messdaten lösen
Um das Problem mit Test- und Messdaten zu lösen, untersuchen wir die einzelnen Problemkategorien und stellen Lösungsbeispiele vor.
Datenformatvielfalt
Die von Test- und Messsystemen erfassten Daten werden aufgrund der Verwendung unterschiedlicher Tool-Anbieter meist in unterschiedlichen Dateiformaten gespeichert. In manchen Fällen kann über Programmierbibliotheken auf proprietäre Datenformate zugegriffen werden, die möglicherweise nicht mit den von Forschungs- und Entwicklungsteams verwendeten Programmiersprachen kompatibel sind.
Einige der größten Probleme entstehen bei der Verwendung von CSV-Dateien aufgrund von Internationalisierungsproblemen (z. B. unterschiedliche Dezimalzeichen) und Lokalisierungsproblemen (z. B. deutsche Umlaute).
Darüber hinaus schränken bestehende Toolchains die Flexibilität ein und verhindern Datenbewegungen oder -konvertierungen, da deren Unterbrechung zusätzliche Kosten verursacht.
Je nach Datengröße kann das schiere Datenvolumen Datenkopien unmöglich machen, da Datenduplizierung zusätzliche Speicherkosten verursacht.
Eine der effektivsten Möglichkeiten, die Vielfalt der Datenformate zu bewältigen, sind ASAM ODS (External) Data Plugins. Diese schlanken Microservices basieren auf dem Google gRPC-Protokoll und bieten eine optimierte und effiziente API für den Zugriff auf Metadaten und Massenmessdaten – direkt aus den Originaldateien.
Dank der Protobuf-Toolchain sind diese Plugins mit praktisch jeder Programmiersprache kompatibel und somit für Forschungs- und Entwicklungsteams unabhängig von ihrem Technologie-Stack leicht zugänglich, was zu niedrigen Implementierungskosten führt.
Durch die Einführung dieser standardisierten API sehen alle Dateiformate durch die API-Linse ähnlich aus. Es sind keine Datenkonvertierungen, Datenverschiebungen oder Datenduplizierungen erforderlich, sodass bestehende Toolchains intakt bleiben.
Datenqualitätsprobleme lösen
Obwohl ASAM ODS (External) Data Plugins bereits bei inkonsistent formatierten Daten helfen, bestehen weiterhin Datenqualitätsprobleme wie:
- Nicht bereinigte oder ungenaue Daten
- Fehlende oder falsch geschriebene Daten
- Falsche Datenwerte
Insbesondere fehlende Metadaten und fehlender Datenkontext schränken die Organisations- und Suchfunktionen sowie die Analysefunktionen ein.
Hier kommt dem ASAM ODS-Basisdatenmodell eine entscheidende Bedeutung zu. Datenkataloge helfen, fehlende oder falsch geschriebene Datenwerte zu identifizieren und zu korrigieren. Mithilfe von Datenlimits können falsche Datenwerte mit NaN oder NULL markiert werden. Darüber hinaus können nicht bereinigte oder ungenaue Daten erkannt werden.
Die zusätzlichen Metadaten verbessern den Datenkontext durch verbesserte Datennavigation und -organisation, was zu verbesserten Analyse- und Suchfunktionen führt.
Das Basisdatenmodell ergänzt zudem die Datensemantik und definiert in Kombination mit Basisentitäten und deren jeweiligen Beziehungen eine Mess-datenontologie, die weitere Vorteile für maschinelles Lernen bietet.
ℹ️ Hinweis: Benutzer und Benutzergruppen können zur Definition von Zugriffskontrolllisten (ACLs) verwendet werden, sodass ASAM ODS Ihre Data-Governance-Richtlinie unterstützt.
Datenzugriff für Data Scientists
Bei der Betrachtung des Datenzugriffs ist es wichtig, die Person zu identifizieren, die die benötigte Datenanalyse tatsächlich durchführt: den Data Scientist.
Zu den Aufgaben des Data Scientists gehört unter anderem das Verständnis und die Implementierung von Algorithmen und Techniken des maschinellen Lernens. Dazu arbeitet er mit Datenvisualisierungstools wie Tableau und Microsoft Power BI. Er verfügt über Erfahrung mit Big-Data-Tools wie Apache Spark und Apache Hadoop sowie gute Kenntnisse in Python oder R und ist Experte in SQL [3].
⚠️👉 Das bedeutet, dass die Datenquelle die Anbindung an die genannten Tools unterstützen muss.
Obwohl es keine allgemeingültige Antwort auf diese Anforderungen gibt, deckt die Unterstützung von Python und einer bekannten Abfragesprache bereits einen großen Teil dieser Anforderungen ab und wird von ASAM ODSBox abgedeckt.
ASAM ODSBox ist ein schlanker Python-Wrapper auf Basis der ASAM ODS HTTP-API. Durch die Bereitstellung der ASAM ODS-Daten in Form von pandas.DataFrames können nicht nur Python-Analyse- und Machine-Learning-Tools wie TensorFlow oder scikit-learn direkt genutzt werden, sondern auch Power BI kann auf diese Weise auf Daten zugreifen.
Die bereitgestellte Abfragesprache JAQuel ermöglicht eine einfache und intuitive Datenanalyse mithilfe der Konzepte der MongoDB-Abfragesprache (MQL).
Ein weiterer Vorteil: Die Python ASAM ODSBox ist Open Source und steht als kostenloser Web-Download zur Verfügung. Darüber hinaus finden Sie im Lernpfad „Datenmanagement“ zahlreiche Beispiele für Jupyter-Notebooks.
ASAM ODS: Der Lösungs-Stack
Die Kombination aus ASAM ODS DataPlugins, dem ASAM ODS (Basis-)Datenmodell und der ASAM ODSBox bietet die notwendigen Funktionalitäten und Möglichkeiten, um Test- und Messdaten zu erstklassigen ML-Daten zu machen.
Typische Machine-Learning-Tools können nun von Datenwissenschaftlern für beliebige Daten verwendet werden.
Darüber hinaus schließt die eingeführte Toolchain die Lücke zu Microsoft Copilot, Google Gemini und anderen AI-Assistenten, um schnellere und effizientere Lösungen zu entwickeln – auch für Nicht-Datenwissenschaftler.
Der ASAM ODS-Standard unterstützt die Integration verschiedener Messdatendateien in eine ganzheitliche Datenansicht.
Dieser Blogbeitrag fasst die Präsentation auf der Explore-to-Innovate-Konferenz am 2. und 3. Juli 2025 in Benningen zusammen.
👉 Laden Sie die Originalpräsentation hier herunter.
Verbundene Lösungen
Sie können auf die Links klicken, um mehr Informationen über einzelne Komponenten zu erhalten
Peak Test Data Manager
Peak Test Data Manager ist ein zukunftssicheres Testdatenmanagementsystem, das die einzelnen Datenmanagementkomponenten bündelt.
Peak ODS-Server
Langfristige Datenspeicherung inklusive APIs für standardisierten und sicheren Datenzugriff
Peak ODS Adapter für Apache Spark
Skalierbarer Datenzugriff basierend auf Apache Spark.
Zugehörige Themen
Python ASAM ODS Dienstprogramme
Open-Source-Bibliotheken und Beispiele zur Verwendung von ASAM ODS-Daten in Python.
Was ist ASAM ODS?
Der ASAM ODS-Standard definiert APIs und Formate zum Speichern und Abrufen von Test- und Messdaten.
Was ist ein Datenmodell?
Ein Datenmodell definiert den Datenkontext Ihrer Messdaten.
Was sind ASAM ODS EXD-API Plugins?
ASAM ODS EXD-API-Plugins ermöglichen den Zugriff auf Inventardaten über gRPC-Mikrodienste.