Neue Technologien für schnelle Info-Dschungel-Scouts

Die Einflußfaktoren der redaktionellen und journalistischen Arbeit sind in Bewegung. Wenn ich es richtig beobachte, ist es – natürlich neben einer stets veränderlichen allgemeinen Nachrichtenlage – vor allem die wachsende Informationsmenge (im Internet in der Regel allzeit zugreifbar), aus der die relevante Information extrahiert und, unter den jeweils herschenden ökonomischen Rahmenbedingungen, zu einer qualitätvollen Publikation verarbeitet werden soll.

Informationsmenge - ökonomischer Rahmen - journalistische Qualität

Schnelligkeit und noch mehr Genauigkeit sind für Wolfgang Büchner, Chefredakteur der Nachrichtenagentur dpa, wichtige Kompetenzen im digitalen Zeitalter: Denn längst sei das Netz zu einem Dschungel aus Informationen geworden. Deshalb spielten Orientierung und Auswahl eine herausragende Rolle. Je dichter der Informationsdschungel werde, desto wichtiger der Scout der durch diesen Dschungel führt und dem Kunden einer Nachrichtenagentur (Verlage, Medienunternehmen) hilft die relevanten Informationen zu identifizieren. (Interview mit Wolfgang Büchner, Deutschlandfunk, Debattenportal „diskurs.dradio.de)

Wolfgang Büchner @Diskurs from kooperative-berlin“ on Vimeo

Die ersten Verlage und Nachrichtenagenturen haben daher begonnen, Kategorisierung und Extraktion von Inhalten mit Hilfe semantischer Technologien zu automatisieren, dadurch redaktionelle Prozesse effizienter zu gestalten und  Workflow-Clients Informationen in einheitlicher Form bereitzustellen, was zu einer Senkung der Kosten für bisher manuelle Kategorisierung und Beschleunigung der redaktionellen Prozesse führt. In vielen Betrieben sollen Einsatz- und Bearbeitungszeiten verringert werden und Kategorisierungen darüber hinaus an internationale Standards angepasst werden.

Um die Effizienz der Zusammenstellung und Kategorisierung von Inhalten zu erhöhen, empfiehlt es sich, mit Hilfe semantischer Technologien einen Prozess zu implementieren, der beginnend mit der Analyse und dem „Verstehen“ von Wörtern, Begriffen und Sätzen in einer nächsten Stufe Themen identifiziert, die in einem Text besprochen werden. Abschließend weist er mit großer Präzision jedem Beitrag eine oder mehrere Kategorien zu, indem er die einschlägigsten von 1.200 Kategorien des internationalen IPTC-Standards auswählt ( IPTC = International Press Telecommunications Council, Weltverband von Nachrichtenagenturen und Zeitungen für die technische Normierung des Nachrichtenaustausches). Diese Schritte stellen sicher, dass Inhalte dann so organisiert sind, dass sie für weitere Recherchen und Bearbeitungen leicht abgerufen werden können.

MJA

Advertisements

Semantische Technologien und die Handhabung komplexer Inhalte

Was bedeutet hier eigentlich „semantisch“? (3)

Eine semantische Analyse schließt grammatische, logische, morphologische Analysen ein sowie die Identifikation von Begriffskonzeptionen. Mit anderen Worten, es werden die verschiedenen Bedeutungen der Begriffe richtig identifiziert.

Was heißt das? Zum Beispiel im Falle von Homonymen*: Wenn etwa bei einer Suche das Wort „Elf“  („der Elf“ für Märchengestalt, „die Elf“ für Fußballmannschaft oder „elf“ die Zahl) verwendet wird oder das Wort „Reif“ (als Ring,  Eiskristalle und reif, das Adjektiv in der Bedeutung „voll entwickelt“). Da ist ein Wort dreimal mit unterschiedlichen Eigenschaften (Artikel, Wortart) aber in der (fast) gleichen schreibweise – wenn man mal von der Kleinschreibung des Adjektivs absieht. Wenn ich etwa Polo suche, und ich meine den Sport, dann möchte ich nicht von Angaben über Autos, Polohemden oder Marc O´ überschüttet werden, oder? Wie ist das bei Ihnen? Zu ähnlichen Verzerrungen kommt es, wenn ich Heteronyme suche, also Wörter, die gleich geschrieben, aber anders ausgesprochen werden und auch eine andere Bedeutung haben. Zum Beispiel modern (neuzeitlich) oder modern (verfaulen). Semantics können diese Begriffe korrekt identifizieren.

Bei Wörtern, zu denen es viele Synonyme gibt, ist es auch ganz nett. Beispiel: Orange – Apfelsine; Streichholz – Zündholz. Unterschiedliche Wörter mit der gleichen Bedeutung – wenn ich danach suche, müssen mir auch alle Wörter einfallen, um die gewünschten Ergebnisse vollständig zu erhalten. Und immer so weiter. Hyperonyme, also Oberbegriffe etwa: Hund – Basset Hound, Beagle, Bearded Collie, Schäferhund; oder Auto – Limousine, Coupé, Cabrio, SUV. Semantische Technologien identifizieren, dass es um Hunde geht, wenn das Thema „Bearded Collie“ diskutiert wird oder um Autos, wenn „das Verdeck zu einem Cabrio“ gehört. Solche linguistischen Begriffskonzepte werden berücksichtigt. Tatsächlich können so Texte in ähnlicher Weise analysiert werden, wie es der Mensch beim Lesen tut.

Unter diesen Voraussetzungen gelangt man von dem was als Knowledge Management bezeichnet wird in den Bereich von Semantic Intelligence. Semantische Technologien ermöglichen die Handhabung großer Datenmengen und komplexer Inhalte und überbrücken so die klassische „Suche“ mit all ihren Einschränkungen direkt hin zum „Finden, Organisieren, Auswählen, Korrelieren/ Zuordnen“. Ganz ähnlich wie Business Intelligence in der Welt strukturierter Daten ist Semantic Intelligence der geeignete Ansatz, vor allem wenn es um das Erschließen unstrukturierter Daten/ Informationen geht.

MJA

*Zu den linguistischen Begriffen lassen sich bei Wikipedia (Kategorie:Semantik) hinreichend gute Beschreibungen und neben den hier aufgeführten noch viele andere Beispiele finden.