Kategorie Science

2014/15

Extraktion symbolischer Muster im Web

HTBLA Grieskirchen

Team Extraktion symbolischer Muster im Web

Mit dem Lesen und Verstehen ist das so eine Sache: Beides funktioniert am besten, wenn der Text in einer dem oder der Lesenden bekannten Sprache dasteht und wenn er irgendwie logisch ist.

Lost in Translation. Texte, Sätze und Buchstaben sind eigentlich nichts anderes als Muster, die wir irgendwann gelernt haben zu erkennen und in für uns relevante Daten oder Inhalte zu übersetzen. Soweit so gut. Und jetzt das alles auf Computerisch. Um Muster und Übersetzung geht es nämlich auch Bernhard Geisberger von der HTBLA Grieskirchen, allerdings nicht zwischen Schreiberin bzw. Schreiber und Leserin bzw. Leser, sondern von Webseite zu Webseite. 

Bei der Extraktion symbolischer Muster im Web entwickelte Geisberger einen Algorithmus, der ein veränderliches SGML-Dokument aus dem Web lesen, verstehen und daraus relevante Daten in einer lesbaren Form als JSON oder YAML extrahieren kann. Hä? Ein Algorithmus ist nichts anderes als ein Berechnungsverfahren, und SGML, JSON und YAML sind unterschiedliche „Sprachen“ bzw. Datenformate. Auf SGML beruhen etwa HTML und XML. 

WTF, denken sich analoge Normalsterbliche jetzt immer noch. Hier also ein weiterer Übersetzungsversuch Computerisch – Deutsch: Wenn zum Beispiel ein Unternehmen (wie auch Geisbergers Projektpartnerfirma Utopia Refraktor Lt & Co KG) zehn Webseiten besitzt und diese regelmäßig auf neue Inhalte prüfen will, ist dafür ein technologischer Prozess nötig, der unstrukturierte Daten strukturiert und vor allem erkennt (auch genannt Web Scraping). Dieser Prozess muss je nach Websprache jeder Seite neu angepasst werden, wird kosten- und zeitintensiv. Die von Herrn Geisberger entwickelte Software erkennt unterschiedliche auftretende Wiederholungen in den verschiedenen Sprachen und kann so alle Webseiten datenleserlich abdecken.  

Die Arbeit von Herrn Geisberger lief logischerweise mustergültig ab. Tja, wohl vor allem auch deshalb, weil es ja bei einer „One-Man-Show“ nicht allzu viel Abstimmung unter Teamkolleg/innen braucht. Bereits im Oktober 2014 erreichte die Software die gewünschten Effekte, mittlerweile erfüllt sie ihren wissenschaftlichen und kommerziellen Nutzen im Bereich der digitalen Medienbeobachtung. Letzter Daten-Satz: Es Algorith-muss gratuliert werden!