
Der SIPOC-Extraktor liest Paper, erkennt Stoffe, Prozesse und Eigenschaften und fügt sie zu einem durchsuchbaren Wissensgraphen zusammen. Aus Fragmenten Prozesse synthetisieren — die Kernidee in einem Wort.
Kulmbach, im März 2026. SIPOC steht für Supplier — Input — Process — Output — Customer und ist eigentlich ein Schema aus dem Qualitätsmanagement, mit dem Geschäftsprozesse beschrieben werden. Numberland hat es auf die Materialwissenschaft übertragen: ein keramischer Sintervorgang ist auch ein Prozess mit Vorlieferanten (Pulver, Binder, Atmosphärengasen), Inputs (Grünkörper, Sinterprofil), Outputs (Sinterkörper, Schwund, Gefüge) und Abnehmern (Polung, Bauteilintegration). Was im Maschinenbau funktioniert, funktioniert auch im Labor - und macht das, was sonst in Freitext schwimmt, maschinenlesbar.
Der SIPOC-Extraktor ist die Pipeline, die diese Übersetzung automatisch leistet. Eingang: wissenschaftliche Fachartikel als PDF. Ausgang:
strukturierte RDF-Tripel im OCO*-Wissensgraphen. Dazwischen vier Verarbeitungsstufen. Die Struktur des PDFs (Titel,
Autoren, Abschnitte, Tabellen) extrahieren, mit Named Entity Recognition Stoffe, Methoden und Eigenschaftsangaben erkennen, mit regelbasierter Normalisierung Synonyme, Einheiten und Schreibweisen abgleichen. Eine Ontologie-Tagging-Schicht ordnet jedes erkannte Element der passenden OCO*-Klasse zu. Am Ende steht eine maschinenlesbare Repräsentation dessen, was im Paper steht.
Die Pipeline läuft täglich, neue Inhalte fließen automatisch in den Wissensgraphen ein. Was daraus entsteht, ist nicht nur eine Datenbank - es ist ein Korpus, aus dem sich Strukturen ableiten lassen, die im einzelnen Paper nicht sichtbar sind. Welche Sintertemperaturen
werden für welche Komposition bevorzugt? Welche Methoden korrelieren mit welchen Ergebnissen? Welche Forschergruppen arbeiten an welchen Themen?
Die Synthese funktioniert nur, weil sie eine semantische Grundlage hat. Ohne OCO* als Klassifizierungs-Skelett wäre das Resultat eine
Schlagwortwolke. Mit OCO* als Ankerpunkt entstehen abfragbare Beziehungen. Genau das macht die Pipeline zum Vorbild dafür, was synthetisches Datenwerk in der Materialwissenschaft leisten könnte — wenn es flächendeckend betrieben wird.
„Wir behandeln Fachartikel wie Bauklötze, aus denen wir einen Wissensgraphen synthetisieren. Jeder Klotz für sich ist ein Paper, das
ein Mensch gelesen hat. Aber tausend Klötze zusammen sind etwas Neues - eine Struktur, die kein Mensch im Kopf haben kann. Genau hier setzt der Wert an." - Dr. Wolfgang Grond, Inhaber Numberland
*OCO: Ontocrafter Ceramics Ontology - ein im Rahmen von MaterialDigital3 entwickelter Bausatz für Material Science Ontologien
Zahlen, Daten, Fakten
- SIPOC-Pipeline: 4 Stufen (Struktur, NER, Normalisierung, Ontologie-Tagging)
- Semantische Grundlage: OCO mit 5200 Klassen, 1700 Properties und 168000 Axiomen als Klassifizierungs-Skelett
- Anwendungsfälle: Trendanalysen, Lückenidentifikation, automatische Lab-Notebook-Vorschläge, Material-Vergleichs-Queries