Blog
Das Internet wird schlauer – für Computer
Geschrieben am 25. Juli 2011 von Franz Fuchs
Unter dem Schlagwort „Semantisches Web“ werden Informationen strukturiert lesbar und verwertbar.

Wenn die drei großen Suchmaschinenplatzhirsche Google, Microsoft und Yahoo sich auf einen gemeinsamen Standard einigen, darf man hellhörig werden. Denn im stark umkämpften Markt der digitalen Informationsbeschaffung sind die Algorithmen zur Sortierung der Suchergebnisse normalerweise ein gut gehütetes Geschäftsgeheimnis. Die Anfang Juni von den Dreien vorgestellte Initiative schema.org greift jedoch tiefer: Es geht um nichts Geringeres, als Informationen für Computer verständlich zu machen.
Der Hintergrund ist die fehlende Intelligenz in der Datenverarbeitung. Der geneigte Leser dieses Beitrags würde beim Hinweis auf den Namen „Fuchs“ erkennen, dass damit der Autor dieser Zeilen gemeint ist. Suchmaschinen würden daran gnadenlos scheitern: Für sie wäre nicht logisch feststellbar, ob mit „Fuchs“ der Autor oder doch der Wald- und Heckenbewohner gemeint ist.
Vom Verbessern der Suchergebnisse…
Schema.org will dem entgegentreten: Die Informationen sollen zukünftig im Quelltext einer Website eindeutig schematisch beschrieben werden. Dies würde Leser weiterhin nicht stören, aber den Suchmaschinen die Bedeutung erschließen. Als Belohnung versprechen Google, Microsoft und Yahoo den Seitenbetreibern, die ausgewerteten Daten in den Suchergebnissen besonders zu berücksichtigen.
Ein Beispiel: Die Darstellung einer Person würde im HTML-Quelltext ungefähr so aussehen:
<div> <h3>Franz Fuchs</h3> <p>Axtesys</p> <a href="mailto:franz.fuchs@axtesys.at">franz.fuchs@axtesys.at</a> </div>
Angereichert mit semantischen Informationen ergibt sich folgendes Bild:
<div itemscope itemtype="http://schema.org/Person">
<h3 itemprop="name">Franz Fuchs</h3>
<p itemprop="worksFor">Axtesys</p>
<a itemprop="email" href="mailto:franz.fuchs@axtesys.at">
franz.fuchs@axtesys.at</a>
</div>
Mittels der im Code hinzugefügten Auszeichnungen kann der Suchroboter eindeutig feststellen, dass der Name der Person „Franz Fuchs“ lautet, seine E-Mail „franz.fuchs@axtesys.at“ und er bei „Axtesys“ arbeitet. Für den Betrachter der Website ändert sich nichts: Der Browser ignoriert in der Darstellung die Zusätze.
Die Grundlage für Schema.org lieferte die Spezifizierung von „Microdata“ in HTML5. Mit ähnlichen Prinzipien, aber schon deutlich länger, arbeiten „Microformats“ oder RDFa („Resource Description Framework – in – attributes“). Allen drei gemein ist, dass sie als HTML-Zusatz zur Semantisierung des Inhalts beitragen.
… zur maschinenlesbaren Information
Wenngleich Schema.org eine neue Initiative darstellt, neu ist der Gedankengang des „semantischen Webs“ keineswegs. Tim Berners-Lee, der Begründer des World-Wide-Web formulierte schon 2001 seine Grundidee hierzu. Etablieren konnte sich auch mittlerweile XML („Extensible Markup Language“) als universelles Austauschformat für strukturierte Daten, doch noch immer werden Daten größtenteils unstrukturiert erfasst und präsentiert. Dabei geht es nicht nur ums Web, auch firmeninterne Daten gleichen oft einem Informationsdschungel dem einen „Data-Warehouse“.
In Verbindung mit einem semantischen Internet wird oft schon vom „Web 3.0“ gesprochen, dass Daten nicht mehr isoliert darbieten, sondern aus verschiedensten Quellen intelligent in Kontext miteinander setzen: „Properly designed, the Semantic Web can assist the evolution of human knowledge as a whole.“ meint hierzu Tim Berners-Lee.
Lesen und Schreiben
Mit „Lesen“ ist dabei die Kette der Verarbeitung noch nicht am Ende. „Versteht“ ein Programm den Zusammenhang zwischen den Informationen, ist es ein leichtes diese in Kontext zu setzen und die nötigen Schlüsse daraus zu ziehen. Keineswegs Zukunftsmusik ist dabei der digitale Reporter, der anhand von Sportstatistiken automatisch einen Text verfasst: Der „Stats Monkey“, ein Forschungsprojekt der Northwestern University in Chicago tut genau dies bereits. Aus den rohen Zahlendaten eines Baseballspiels bereitet er einen für Menschen schlüssig lesbaren Spielbereich auf.
Foto: Chris P Jobling/Flickr.com/Creative-Commons BY-SA 2.0


