Unser Ziel ist es, die Art und Weise, wie SIE Dokumente benutzen, um zu verstehen, wer SIE sind, und wer ANDERE sind, völlig zu verändern.

  • WER WIR SIND
    Wir sind ein Ingenieurbüro mit dem Arbeitsgebiet TextAnalytics. Für unsere Arbeit benutzen wir technische Dokumente, um komplexe Zusammenhänge sichtbar zu machen
    WARUM
    Ergebnisse werden nachvollziehbar
    ERGÄNZUNG
    Als Ergänzung oder Ersatz eines Brainstormings
  • Was wir tun
    Wir betreiben Explorative Dokumentanalyse (Mustererkennung und maschinelles Lernen), um das zu finden, was Sie sich durch klassisches Lesen sonst mühsam erarbeiten müssten.
    90 Millionen
    Werkstoffnamen finden wir ebenso wie Reaktionsgleichungen, Formeln, Herstellungsverfahren oder Normen
    90 Mess
    größen in ca. 3000 Schreibweisen können wir erkennen und ineinander umwandeln.
  • WIR LIEFERN ANTWORTEN
    Anstatt Experten zu befragen, die Sie zuerst suchen müssten, liefern wir Antworten aus Dokumenten, die von Experten weltweit verfasst worden sind.
    80 %
    geringerer Zeitaufwand
    200 %
    und mehr Steigerung der Ergebnissqualität
  • MASCHINELLES LESEN
    Wir haben Zugriff auf Millionen von Dokumenten mir regelmässigem Update des Datenbestands.
    450
    Millionen Dokumente
    UPDATES
    jede Woche

 Explorative Dokumentanalyse - Suchen alleine reicht nicht aus

Explorative Dokumentanalyse - Suchen alleine reicht nicht aus

Die Beschränkung auf "Durchsuchen" führt bei großen Mengen an Dokumenten in die Situation, dass sogar der Anteil des Unbekannten unbekannt ist. Dann ist eine systematische und strukturierte Herangehensweise gefragt, um Inhalte auffindbar zu machen.

Die klassische statistische Analyse numerischer Daten kennt die Unterscheidung in beschreibende und beurteilende Statistik. Während mit Hilfe der beurteilenden Statistik geprüft wird, ob die Annahme, dass die untersuchten Daten durch ein bestimmtes Modell beschrieben werden können, mit ja oder nein beantwortet werden kann, versucht die beschreibende Statistik eine modellfreie Analyse dann, wenn kein Vorwissen vorhanden ist, um sich überhaupt ein Bild über die Daten verschaffen zu können.

Die beurteilende Statistik beantwortet also Fragen, die beschreibende ermöglicht einen Überblick, wenn man - mangels Vorwissen - keine Fragen stellen kann.

Das Vorgehensmodell "Explorative Datenanalyse" (EDA) gewährleistet im Rahmen der beschreibenden Statistik, dass durch systematische Verwendung unterschiedlichster Analysemethode (Boxplot, Histogramm, QQ-Plot, Scatterplotmatrix, Paretoplot etc.) der Anwender in die Lage versetzt wird, sich einen Einblick in die zu analysierenden Daten zu verschaffen, und auf diese Weise Vorwissen für weitere Untersuchungen zu erhalten.

Die Sichtweise ist etabliert: liegt Vorwissen über die Daten vor, macht es Sinn, beurteilende Statistik anzuwendet; liegt kein Vorwissen vor, ist es besser, sich zuerst mit beschreibender Statistik dieses Vorwissen zu verschaffen.

Betrachtet man statt numerischen nichtnumerische Daten - Dokumente - ist diese Vorgehensweise bei weitem nicht so etabliert, obwohl sie natürlich auch hier für eine systematische Erschließung des Inhalts sinnvoll wäre. Bedingt durch die Historie werden Dokumente durchsucht, obwohl suchen - aus Sicht des Vorgehens - als Analogie zur beurteilenden Statistik zu sehen ist. Mit Suchen stellt der Anwender eine Frage an die Daten, die entweder mit ja oder nein beantwortet wird.

Ja, das, was ich suche, ist in den Daten enthalten, oder nein - eben nicht.

Weil nur gesucht werden kann, was man kennt, können große Dokumentkollektionen durch Suchen niemals systematisch erkundet werden. In solchen Situationen ist sogar der Anteil des Unbekannten unbekannt, wenn man sich auf Suchen beschränkt.

Für die systematische Erschliessung grosser Dokumentkollektionen müssen deswegen Verfahren eingesetzt werden, die - ebenso wie bei numerischen Daten - eine strukturierte systematische Analyse gewährleisten.

Die dafür notwendigen Algorithmen sind im Detail natürlich völlig anders, obwohl sie von der Zielsetzung her ein vergleichbares Ergebnis produzieren sollen: die zusammenfassende Darstellung der Daten aus unterschiedlichsten Blickwinkeln.

Statt Boxplot, Histogramm und Co. sind im Fall von Dokumenten Verfahren gefragt, um Inhaltsbausteine der Dokumente wie z. B. TITEL, VERFASSER, ERSTELLDATUM, ZUSAMMENFASSUNG, ORT, ETC. extrahieren und strukturiert darstellen zu können.  dies gilt um so mehr, wenn - wie im Fall von technischen Dokumenten (wissenschaftliche Publikationen, Patente, etc.) - Inhaltsbausteine wie z. B. Herstellungsverfahren, Analytische Verfahren, Normen, Werkstoffe oder Messwerte erkannt werden müssen, die nicht durch ihre Position im Dokument oder durch sogenannte "Tags" (Markierungen) hervorgehoben sind. "Mustererkennung von Zeichenketten" ist in solchen Fällen das Mittel der Wahl.

Richtig eingesetzt lassen sich so nicht nur vollständige Sachverzeichnisse automatisch erstellen, sondern eben auch Themenbezogene Sachverzeichnisse wie z. B. Verzeichnis der HERSTELLUNGSVERFAHREN, der NORMEN, der verwendeten WERKSTOFFE, der erzielten MESSWERTE (auch umgerechnet in eine bestimmte Einheit), der CHEMISCHEN REAKTIONSGLEICHUNGEN, der MATHEMATISCHEN FORMELN und was der Dinge mehr sein mögen.

Es entsteht das, was ein gut strukturiertes Fachbuch ausmacht: die Möglichkeit, unter verschiedensten Aspekten auf den Inhalt zugreifen zu können.

Moment, eines fehlt natürlich noch: ein Inhaltsverzeichnis. Das aber lässt sich mit Hilfe von Verfahren aus dem Bereich des maschinellen Lernens erstellen. Welche Dokumente gehören inhaltlich zusammen, welche Themen sind enthalten? Auch auf solche Fragen lassen sich die passenden Antworten finden.

Und: auch Suchen ist natürlich möglich. Suchen alleine ist aus den zuvor beschriebenen Gründen unbefriedigend, Suchen als Ergänzung von Inhalts- und Sachverzeichnissen aber natürlich wünschenswert und notwendig.

EXPLORE
Forschungseinrichtung: finden von Werkstoffnamen
(Werkstoffe für die thermische Energiespeicherung).
NAVIGATE
Forschungseinrichtung: finden von Märkten,
auf denen Werkstoffe aus Metallschaum gebraucht werden.
IDEATE
Unternehmen: finden von Möglichkeiten, um den
Abfüllvorgang einer hochviskosen Flüssigkeit zu beschleunigen.
EXPLORE
Kommune mit > 500.000 Einwohnern: finden von regionalen
IT-Unternehmen und clustern der Interessen
REMEMBER
Unternehmen: automatisches Verschlagworten
von Dokumenten im Intranet
COMPARE
Unternehmen: Vergleich des internen Wissens
mit dem Wissen von Wettbewerbern.
LOCATE
EU-Projekt einer Landesentwicklungsgesellschaft:
Verfahren, um Regionen mit gleichen Kenntnissen und
Interessen sichtbar zu machen.
EXPLORE
IHK: finden von regionalen Automobilzulieferern
und clustern der Interessen
BLEND
Hochschule: finden von passenden Partnern
für ein EU-Entwicklungsvorhaben.
CHANGE
Unternehmen: Innovationsaudit zur Ausrichtung
der Unternehmensstrategie auf Megatrends.
REMEMBER
Ablagesystem für studentische Abschlussarbeiten
Combine
Expansion und / oder Marktanpassung im Verlauf einer Unternehmensnachfolge
Wir benutzen Cookies

Wir nutzen Cookies auf unserer Website. Einige von ihnen sind essenziell für den Betrieb der Seite, während andere uns helfen, diese Website und die Nutzererfahrung zu verbessern (Tracking Cookies). Sie können selbst entscheiden, ob Sie die Cookies zulassen möchten. Bitte beachten Sie, dass bei einer Ablehnung womöglich nicht mehr alle Funktionalitäten der Seite zur Verfügung stehen.