Semantisches Web

Software, die nicht nur einzelne Worte und Sprachmuster erkennt, sondern auch deren Inhalt im Kontext versteht? Das gibt es bisher nicht. Die FAZ berichtet aber von einem britischen Forscherteam um David Crystal, das ein System entwickelt hat, das angeblich genau das tun soll. Dazu haben die Linguisten in den letzten 15 Jahren systematisch Texte und Wörterbücher gefilzt, um daraus 2000 Kategorien zur inhaltlichen Klassifizierung von Wörtern zu erstellen. Den Aufwand zahlt die Firma Ad Pepper, die sich davon erhofft, zukünftig automatisch maßgeschneiderte Werbung auf Webseiten anbringen zu können.

Den Traum vom semantischen Web scheint mir dieses System aber noch nicht zu erfüllen. Leider spricht der FAZ-Artikel nur wenig über die Zusammensetzung und Verknüpfung der Kategorien sowie die Funktionsweise der maschinellen Zuordnung von Texten. Wenn ich es richtig zusammenspinne, werden die semantischen Informationen nicht textintern mitgeliefert werden, sondern von mittels Kategorien außen an den Text herangetragen, so dass das System Texte vor dem Hintergrund dieser Kategorien auf relevante Worte (!) scannen kann. Das birgt natürlich nach wie vor die üblichen Probleme: Die Maschine analysiert explizite, also wörtliche Bedeutung (die Kategorien wurden ja mithilfe von Wörterbüchern erstellt). Um Sprache korrekt zu verstehen, ist aber oftmals eine Kompetenz über implizite Bedeutung, über Konnotation oder außersprachliche Kontexte nötig, bedenken wir nur die Schwierigkeit, die semantische Figuren, wie Ironie oder Metaphern darstellen. Auch semantische Relationen, wie Hyperonymie, Referenzidentität, etc., sind kontextbildende Instanzen. Sicher wird Crystals Team auch irgendeine Form von Interkontextualität zwischen den Kategorien entwickelt haben, wie flexibel dieses System aber vor dem Hintergrund sich wandelnder Sprache, Kontexte und Diskurse mit “nur” 2000 Kategorien ist, ist fraglich. Aktuell könnte es nur, Kraft seiner semantischen Sprachkompetenz, durch den Menschen gehalten werden – ein Aufwand, der auf Dauer vermutlich nur wenig effizient ist. (Ich finde es schon ausgesprochen schwierig, meine Blogbeiträge aussagekräftigen Kategorien oder Tags zuzuordnen.) Trotzdem ist das Ganze ein spannendes computer-linguistisches Projekt, das nur leider unter der Fuchtel der falschen Firma steht.

4 Kommentare zu “Semantisches Web”

  1. DrNI
    Oktober 2nd, 2007 11:59
    1

    Die FAZ berichtet reichlich spät, schließlich ist die Forschung im Bereich Semantic Information Retrieval schon einige Jahre im Gange. Crystal (brilliant übrigens sein Dictionary of Linguistics & Phonetics) ist jedoch etwas werbewirksam-vorschnell, wenn er von “Sinn” spricht. Was sein Werbesystem macht ist im Prinzip nur eine spezielle Form von Information Retrieval: Man gebe mir eine Anfrage in Form eines gesamten Dokuments und ich liefere dazu ein passendes kleineres Dokument (eine Anzeige).
    Manuell erstellte Resourcen werden dabei längerfristig von automatisch erstellten Ontologien verdrängt werden. Alles andere ist einfach zu teuer. Bis das annähernd passabel funktioniert wird aber noch viel Geld und Arbeit investiert werden müssen.
    Google schießt vorerst wie immer statistisch auf das Problem, siehe: Google Sets, eine Art automatische Thesaurus-Einordnung von Begriffen in anonyme Klassen.

  2. LeV
    Oktober 2nd, 2007 13:52
    2

    Ich kenne mich auf dem Gebiet ja leider weniger aus, als ich gern hätte. Aber soweit ich weiß, erzielen statistische Ansätze bisher noch die besten Lösungen. Da geht es ja um Häufigkeit vorkommender Wörter oder vorkommender Kollokationen, anhand derer man die Wahrscheinlichkeit der Bedeutung oder der Zuordnung zu einem bestimmten Autor “ablesen” kann. Wenn ich mir allerdings betrachte, dass der Babelfish so arbeitet, dann aber das niederländische “Stemcomputer” als “voice computer” übersetzt, frage ich mich schon, ob die Wahrscheinlichkeit gerade schlafen war. Aber immerhin sind dies automatische Ansätze. Wenn man erst Menschenkraft einsetzen muß, damit der Computer Bedeutung “versteht”, dann kann man den fraglichen Text auch gleich einem Menschen vorlegen…

  3. DrNI
    Oktober 6th, 2007 11:08
    3

    Du wirfst da so einiges in einen Topf, das da nicht zusammen reingehört. Der “Stemcomputer” zeigt ein großes generelles Problem, das auch die statistischen Ansätze oft sabotiert: Unbekannte Wörter. Abgesehen vom üblichen Problem, daß man nur verarbeiten kann, was in den Trainingsdaten auch ausreichend vorkam. Die maschinelle Übersetzung funktioniert in der Tat nach wie vor nur eingeschränkt gut (hehe). Man sollte die Computerlinguistik aber nicht ausschließlich daran messen, es gibt da ja auch noch ein paar andere Dinge… :-)

  4. LeV
    Oktober 7th, 2007 14:13
    4

    Ich bin mir absolut sicher, dass es innerhalb der Computerlinguistik viele interessante Problematiken gibt, die lohnenswerte Objekte meiner Aufmerksamkeit wären. Ich ärgere mich ja ein bisschen, dass ich nicht von Anfang an einen Studiengang gewählt habe, der in diese Richtung geht. Aber als ich anfing wußte ich einfach noch nicht, dass mich Computer irgendwann mal spannend finden würden. ;)

Kommentar abgeben: