Numberland - New Processes, New Materials

deafarbebgzh-CNcsdanlenettlfifreliwhihuiditjakolvltmsnofaplptruskessvthtrvi
  • Wer wir sind

    Wir sind - seit 1996 - als Ingenieurbüro auf dem Werkstoffsektor aktiv. Dabei verbinden wir Themen wie Innovations- Wissens- und Technologiemanagement mit sehr guten Kontakten zu Wissenschaft und Wirtschaft ...
    +Read More
  • Your man in Germany

                Your man in Germany Need a partner in Germany to get in contact with German institutions or companies? Are you tired of long distance phone calls or expensive trips from abroad with no or little results? Read more ...
    +Read More
  • Neue Werkstoffe

    Wir übersetzen technische Anforderungen in physikalische Effekte oder Eigenschaften, und finden dann den dazu passenden Werkstoff ... We translate technical demands intophysical effects or properties, andthen find the suitable material ...    
    +Read More
  • Neue Prozesse

    Wir analysieren, optimieren und dokumentieren Prozesse, die oft nicht im QM-Handbuch stehen,und bringen ihnen das Laufen bei ... We analyse, optimize and document processesoften not covered by quality management handbooks, and teach them to run ...
    +Read More
  • Leistungen

    Wir finden neue Werkstoffe, Bauteile, Herstellungs- und Analytikverfahren, Projektpartner, Entwickler oder Forschungseinrichtungen, Know-how oder Geräte, etc. Damit all diese neuen Erkenntnisse dann bei Ihnen auch effektiv eingesetzt werden können, helfen wir Ihnen, Ihr Wissen besser zu erfassen, Prozesse zu optimieren, F&E-Projekte durchzuführen, technische Angebote zu beurteilen oder Lastenhefte zu erstellen.  
    +Read More
  • 1
  • 2
  • 3
  • 4
  • 5

NumberlandTechnologyNews available in English und auf Deutsch

Publish Offers and Requests for free

This month offers and requests from the materials sector

We publish your materials conference

 Explorative Dokumentanalyse - Suchen alleine reicht nicht aus

Explorative Dokumentanalyse - Suchen alleine reicht nicht aus

Die Beschränkung auf "Durchsuchen" führt bei großen Mengen an Dokumenten in die Situation, dass sogar der Anteil des Unbekannten unbekannt ist. Dann ist eine systematische und strukturierte Herangehensweise gefragt, um Inhalte auffindbar zu machen.

Die klassische statistische Analyse numerischer Daten kennt die Unterscheidung in beschreibende und beurteilende Statistik. Während mit Hilfe der beurteilenden Statistik geprüft wird, ob die Annahme, dass die untersuchten Daten durch ein bestimmtes Modell beschrieben werden können, mit ja oder nein beantwortet werden kann, versucht die beschreibende Statistik eine modellfreie Analyse dann, wenn kein Vorwissen vorhanden ist, um sich überhaupt ein Bild über die Daten verschaffen zu können.

Die beurteilende Statistik beantwortet also Fragen, die beschreibende ermöglicht einen Überblick, wenn man - mangels Vorwissen - keine Fragen stellen kann.

Das Vorgehensmodell "Explorative Datenanalyse" (EDA) gewährleistet im Rahmen der beschreibenden Statistik, dass durch systematische Verwendung unterschiedlichster Analysemethode (Boxplot, Histogramm, QQ-Plot, Scatterplotmatrix, Paretoplot etc.) der Anwender in die Lage versetzt wird, sich einen Einblick in die zu analysierenden Daten zu verschaffen, und auf diese Weise Vorwissen für weitere Untersuchungen zu erhalten.

Die Sichtweise ist etabliert: liegt Vorwissen über die Daten vor, macht es Sinn, beurteilende Statistik anzuwendet; liegt kein Vorwissen vor, ist es besser, sich zuerst mit beschreibender Statistik dieses Vorwissen zu verschaffen.

Betrachtet man statt numerischen nichtnumerische Daten - Dokumente - ist diese Vorgehensweise bei weitem nicht so etabliert, obwohl sie natürlich auch hier für eine systematische Erschließung des Inhalts sinnvoll wäre. Bedingt durch die Historie werden Dokumente durchsucht, obwohl suchen - aus Sicht des Vorgehens - als Analogie zur beurteilenden Statistik zu sehen ist. Mit Suchen stellt der Anwender eine Frage an die Daten, die entweder mit ja oder nein beantwortet wird.

Ja, das, was ich suche, ist in den Daten enthalten, oder nein - eben nicht.

Weil nur gesucht werden kann, was man kennt, können große Dokumentkollektionen durch Suchen niemals systematisch erkundet werden. In solchen Situationen ist sogar der Anteil des Unbekannten unbekannt, wenn man sich auf Suchen beschränkt.

Für die systematische Erschliessung grosser Dokumentkollektionen müssen deswegen Verfahren eingesetzt werden, die - ebenso wie bei numerischen Daten - eine strukturierte systematische Analyse gewährleisten.

Die dafür notwendigen Algorithmen sind im Detail natürlich völlig anders, obwohl sie von der Zielsetzung her ein vergleichbares Ergebnis produzieren sollen: die zusammenfassende Darstellung der Daten aus unterschiedlichsten Blickwinkeln.

Statt Boxplot, Histogramm und Co. sind im Fall von Dokumenten Verfahren gefragt, um Inhaltsbausteine der Dokumente wie z. B. TITEL, VERFASSER, ERSTELLDATUM, ZUSAMMENFASSUNG, ORT, ETC. extrahieren und strukturiert darstellen zu können.  dies gilt um so mehr, wenn - wie im Fall von technischen Dokumenten (wissenschaftliche Publikationen, Patente, etc.) - Inhaltsbausteine wie z. B. Herstellungsverfahren, Analytische Verfahren, Normen, Werkstoffe oder Messwerte erkannt werden müssen, die nicht durch ihre Position im Dokument oder durch sogenannte "Tags" (Markierungen) hervorgehoben sind. "Mustererkennung von Zeichenketten" ist in solchen Fällen das Mittel der Wahl.

Richtig eingesetzt lassen sich so nicht nur vollständige Sachverzeichnisse automatisch erstellen, sondern eben auch Themenbezogene Sachverzeichnisse wie z. B. Verzeichnis der HERSTELLUNGSVERFAHREN, der NORMEN, der verwendeten WERKSTOFFE, der erzielten MESSWERTE (auch umgerechnet in eine bestimmte Einheit), der CHEMISCHEN REAKTIONSGLEICHUNGEN, der MATHEMATISCHEN FORMELN und was der Dinge mehr sein mögen.

Es entsteht das, was ein gut strukturiertes Fachbuch ausmacht: die Möglichkeit, unter verschiedensten Aspekten auf den Inhalt zugreifen zu können.

Moment, eines fehlt natürlich noch: ein Inhaltsverzeichnis. Das aber lässt sich mit Hilfe von Verfahren aus dem Bereich des maschinellen Lernens erstellen. Welche Dokumente gehören inhaltlich zusammen, welche Themen sind enthalten? Auch auf solche Fragen lassen sich die passenden Antworten finden.

Und: auch Suchen ist natürlich möglich. Suchen alleine ist aus den zuvor beschriebenen Gründen unbefriedigend, Suchen als Ergänzung von Inhalts- und Sachverzeichnissen aber natürlich wünschenswert und notwendig.