Semantische Technologien und die Handhabung komplexer Inhalte

Was bedeutet hier eigentlich „semantisch“? (3)

Eine semantische Analyse schließt grammatische, logische, morphologische Analysen ein sowie die Identifikation von Begriffskonzeptionen. Mit anderen Worten, es werden die verschiedenen Bedeutungen der Begriffe richtig identifiziert.

Was heißt das? Zum Beispiel im Falle von Homonymen*: Wenn etwa bei einer Suche das Wort „Elf“  („der Elf“ für Märchengestalt, „die Elf“ für Fußballmannschaft oder „elf“ die Zahl) verwendet wird oder das Wort „Reif“ (als Ring,  Eiskristalle und reif, das Adjektiv in der Bedeutung „voll entwickelt“). Da ist ein Wort dreimal mit unterschiedlichen Eigenschaften (Artikel, Wortart) aber in der (fast) gleichen schreibweise – wenn man mal von der Kleinschreibung des Adjektivs absieht. Wenn ich etwa Polo suche, und ich meine den Sport, dann möchte ich nicht von Angaben über Autos, Polohemden oder Marc O´ überschüttet werden, oder? Wie ist das bei Ihnen? Zu ähnlichen Verzerrungen kommt es, wenn ich Heteronyme suche, also Wörter, die gleich geschrieben, aber anders ausgesprochen werden und auch eine andere Bedeutung haben. Zum Beispiel modern (neuzeitlich) oder modern (verfaulen). Semantics können diese Begriffe korrekt identifizieren.

Bei Wörtern, zu denen es viele Synonyme gibt, ist es auch ganz nett. Beispiel: Orange – Apfelsine; Streichholz – Zündholz. Unterschiedliche Wörter mit der gleichen Bedeutung – wenn ich danach suche, müssen mir auch alle Wörter einfallen, um die gewünschten Ergebnisse vollständig zu erhalten. Und immer so weiter. Hyperonyme, also Oberbegriffe etwa: Hund – Basset Hound, Beagle, Bearded Collie, Schäferhund; oder Auto – Limousine, Coupé, Cabrio, SUV. Semantische Technologien identifizieren, dass es um Hunde geht, wenn das Thema „Bearded Collie“ diskutiert wird oder um Autos, wenn „das Verdeck zu einem Cabrio“ gehört. Solche linguistischen Begriffskonzepte werden berücksichtigt. Tatsächlich können so Texte in ähnlicher Weise analysiert werden, wie es der Mensch beim Lesen tut.

Unter diesen Voraussetzungen gelangt man von dem was als Knowledge Management bezeichnet wird in den Bereich von Semantic Intelligence. Semantische Technologien ermöglichen die Handhabung großer Datenmengen und komplexer Inhalte und überbrücken so die klassische „Suche“ mit all ihren Einschränkungen direkt hin zum „Finden, Organisieren, Auswählen, Korrelieren/ Zuordnen“. Ganz ähnlich wie Business Intelligence in der Welt strukturierter Daten ist Semantic Intelligence der geeignete Ansatz, vor allem wenn es um das Erschließen unstrukturierter Daten/ Informationen geht.

MJA

*Zu den linguistischen Begriffen lassen sich bei Wikipedia (Kategorie:Semantik) hinreichend gute Beschreibungen und neben den hier aufgeführten noch viele andere Beispiele finden.

Advertisements

Shallow linguistics zu seicht

Was bedeutet hier eigentlich „semantisch“? (2)

Wenn die in einem Text enthaltenen Wörter erkannt werden, werden sie automatisch mit ihren jeweiligen Lemmata verknüpft. Dieses bedeutet, dass in einer Suche nach dem Wort „verkaufen“ alle Dokumente abgerufen werden können, die das Wort und diverse weitere Formen wie „verkauft“, „Verkauf“, „verkaufte“ enthalten.

Shallow Linguistics leisten schon ein wenig mehr als eine einfache Keyword-Recherche. Jedoch versteht das System nicht die Beziehung zwischen Satzelementen und nicht ihre Bedeutung.

Der Text …
Der Dax fiel zunächst auf 5.560 Punkte, stieg dann bis 5.700 Punkte, bevor es wieder nach unten ging.
… und der Text …
Der Dax stieg zunächst auf 5.560 Punkte, fiel dann bis 5.700 Punkte, bevor es wieder nach unten ging.
… sind gleich.

Radicati Group, ITU, in Rita Joseph, Deep Semantic vs. Keyword and Shallow Linguistic:  A New Approach for Supporting Exploitation, www.expertsystem.net
Source: Radicati Group, ITU, in Rita Joseph, Deep Semantic vs. Keyword and Shallow Linguistic: A New Approach for Supporting Exploitation, http://www.expertsystem.net

Das ist zu wenig, um effektiv mit eben solchen Informationsfluten fertig zu werden, wie wir sie schon erleben und schon gar nicht mit dem was wir erwarten dürfen.

Moderne Medienunternehmen, Verlage und Nachrichtenagenturen benötigen Systeme, die fähig sind, eine effiziente Verarbeitung von Dokumenten in enormer Quantität etwa an täglichen Nachrichten und Inhalten zeitgerecht und in einheitlicher, exakter Form zu gewährleisten.

MJA

Inhalt unklar – Filiale geschlossen

Was bedeutet hier eigentlich „semantisch“? (1)

Was es im Allgemeinen bedeutet, lernen wir im Deutschunterricht. Was es für einen Anwender bedeutet, der im Info-Dschungel festsitzt und genervt von endlosen Ergebnislisten nur unbrauchbares findet, kann man sofort verstehen, wenn man die verfügbaren Suchtechniken vergleicht.

Bei der Suche im Internet kennt jeder den Umgang mit Schlüsselwörtern (Keywords). Dabei wird ein Text in eine Liste von Wörtern aufgeteilt, ohne deren Bedeutung zu berücksichtigen. Häufig erscheinende Elemente – wie Artikel oder Präpositionen – werden „weggeräumt“. Der auf diese Weise behandelte Text ist letztlich nichts anderes, als eine Liste von Zeichenreihen, die gegebenenfalls einige Male erscheinen.

Im Grunde ist es doch genau so, als würden wir einen Text in einer Sprache lesen, die wir nicht verstehen. Wie wäre es etwa mit dem folgenden Beispiel auf Finnisch:

Metrokäteinen & kuljettaa 499 miljoonaa, investoi euroon, kertomusvuosi – ne ovat 279 miljoonaa euroa enemmän kuin edellisvuotena. Maailmanlaajuinen myyntilinja avasi 38 uutta paikkaa, siitä, 3:een, Saksassa. Laajenemisen painotus oli kasvualueilla Itä-Eurooppa ja Aasia/Afrikka 18 ja/tai 16 uudella paikalla. Kiinassa itsepalvelu tukkukauppias kuitenkin laajensi olemassa olevaa paikkaverkkoa 6:een mennessä, ja Venäjällä, 5 uudella markkinalla.

Wenn wir der Sprache nicht mächtig sind, können wir die Bedeutung der Wörter – der Zeichenreihen – nicht verstehen. Gleichwohl begreifen wir, dass kertomusvuosi , enemmän , edellisvuotena und myyntilinja Wörter sind, die sicher eine Bedeutung haben und dass es sinnvoll ist, sie in unseren Index aufzunehmen: unseren Suchwort-, Schlüsselwort- oder Keyword-Index nämlich.

Das bedeutet dann allerdings, dass das betreffende Suchsystem ausschließlich in der Lage wäre, diejenigen Dokumente zu finden, die Wörter enthalten, wie sie zuvor vom Anwender auch exakt so geschrieben wurden. Eine Formulierung also: „…letztes Jahr hat das Unternehmen drei Niederlassungen in Deutschland aufgegeben und fünf in China eröffnet …“ würde uns entgehen, wenn wir eine allgemein übliche, natürliche Sucheingabe verwenden: „Filiale geschlossen“. Ergo, kenne ich den Suchbegriff nicht, finde ich das Dokument nicht.

Ebenso kann man sagen, traditionelle Keyword-Technologie findet Wörter (Sequenzen), versteht aber nicht den tatsächlichen Inhalt von Dokumenten.

Der Satz …
Eine neue erweiterte Suchfunktion namens Utopia versetzt Nutzer in Lage, auf Informationen im Internet auf völlig neue Weise zuzugreifen, indem sie ihnen höchst zuverlässige Suchergebnisse durch jede erdenkliche Suchtechnologie zur Verfügung stellt.“

und der Satz …
Eine namens Utopia zuverlässige Suchergebnisse versetzt Lage in Nutzer, auf im Internet Suchfunktion auf völlig neue Verfügung erweiterte Weise zuzugreifen, indem ihnen höchst neue Suchtechnologie durch jede erdenkliche Informationen zur sie stellt.“

sind gleich!

Notwendig ist in Zukunft eine Technologie, die mehr kann. Eine, die die Inhalte von Dokumenten analysiert und die Bedeutung eines Textes, den semantischen Gehalt, versteht und den Informationsdschungel durchforsten kann.

Soetwas gibt es nicht? Wir werden sehen 🙂

Bis dahin: „Happy research!“

MJA