Neue Technologien für schnelle Info-Dschungel-Scouts

Die Einflußfaktoren der redaktionellen und journalistischen Arbeit sind in Bewegung. Wenn ich es richtig beobachte, ist es – natürlich neben einer stets veränderlichen allgemeinen Nachrichtenlage – vor allem die wachsende Informationsmenge (im Internet in der Regel allzeit zugreifbar), aus der die relevante Information extrahiert und, unter den jeweils herschenden ökonomischen Rahmenbedingungen, zu einer qualitätvollen Publikation verarbeitet werden soll.

Informationsmenge - ökonomischer Rahmen - journalistische Qualität

Schnelligkeit und noch mehr Genauigkeit sind für Wolfgang Büchner, Chefredakteur der Nachrichtenagentur dpa, wichtige Kompetenzen im digitalen Zeitalter: Denn längst sei das Netz zu einem Dschungel aus Informationen geworden. Deshalb spielten Orientierung und Auswahl eine herausragende Rolle. Je dichter der Informationsdschungel werde, desto wichtiger der Scout der durch diesen Dschungel führt und dem Kunden einer Nachrichtenagentur (Verlage, Medienunternehmen) hilft die relevanten Informationen zu identifizieren. (Interview mit Wolfgang Büchner, Deutschlandfunk, Debattenportal „diskurs.dradio.de)

Wolfgang Büchner @Diskurs from kooperative-berlin“ on Vimeo

Die ersten Verlage und Nachrichtenagenturen haben daher begonnen, Kategorisierung und Extraktion von Inhalten mit Hilfe semantischer Technologien zu automatisieren, dadurch redaktionelle Prozesse effizienter zu gestalten und  Workflow-Clients Informationen in einheitlicher Form bereitzustellen, was zu einer Senkung der Kosten für bisher manuelle Kategorisierung und Beschleunigung der redaktionellen Prozesse führt. In vielen Betrieben sollen Einsatz- und Bearbeitungszeiten verringert werden und Kategorisierungen darüber hinaus an internationale Standards angepasst werden.

Um die Effizienz der Zusammenstellung und Kategorisierung von Inhalten zu erhöhen, empfiehlt es sich, mit Hilfe semantischer Technologien einen Prozess zu implementieren, der beginnend mit der Analyse und dem „Verstehen“ von Wörtern, Begriffen und Sätzen in einer nächsten Stufe Themen identifiziert, die in einem Text besprochen werden. Abschließend weist er mit großer Präzision jedem Beitrag eine oder mehrere Kategorien zu, indem er die einschlägigsten von 1.200 Kategorien des internationalen IPTC-Standards auswählt ( IPTC = International Press Telecommunications Council, Weltverband von Nachrichtenagenturen und Zeitungen für die technische Normierung des Nachrichtenaustausches). Diese Schritte stellen sicher, dass Inhalte dann so organisiert sind, dass sie für weitere Recherchen und Bearbeitungen leicht abgerufen werden können.

MJA

Advertisements

Unternehmen stellen sich dem Datenchaos

Datenchaos, klingt das zu negativ? Im Grunde ist hier eine Daten- oder Informationsmenge, eine Dokumenten-Menge gemeint, die mit den bisherigen Recherche-Möglichkeiten und Managementprozessen nicht zufriedenstellend bewältigt werden kann. Aus Sicht von Unternehmen1  und Anwendern sind Informationsfluten Erfolgshindernis und Quelle für Ineffizienz – die Suche nach der Nadel im Heuhaufen.

Aus unserer Sicht sind sie eher Herausforderung – eine Schatzinsel mit einem Dschungel aus Informationen oder ein im offenen Meer gesunkenes Schiff. Es gibt keine Schatzkarte, jedoch gibt es semantische Technologien, mit deren Hilfe wir das Terrain (Datenquelle, WWW) durchpflügen können (etwa mit Crawler-Techniken) den Schatz identifizieren (automatische linguistische Analyse) und ihn heben (durch automatische Kategorisierung nach IPTC-Standard zum Beispiel).

Knowledge-Worker unter Druck: Effizientes Arbeiten wird ohne effizientes Knowledge-Management zum Alptraum
Daten sind an unterschiedlichen Orten vorhanden, jedoch ohne einfache Zugriffsmöglichkeit. Anwender haben unterschiedliche Kanäle zum interagieren, benötigen aber schnellere und bessere Antworten/ Ergebnisse. Akteure kommunizieren über eigene Kanäle,um im Sinne eigener Interessen zu Beeinflussen.

In Unternehmen liegen strategische Daten vor allem in nicht-strukturierter Form vor, wie etwa Nachrichten, Artikel, Web-Seiten (Wettbewerber-Websites) und spezifische Dokumente (Patente, interne Memos) und Vieles mehr. Mit „nicht-strukturiert“ ist dabei auch gemeint, dass diese Texte vielfach nicht in Datenbanken organisiert aufgefunden werden können.

Wie soll man also der heranrauschenden Datenfluten Herr werden? Problematisch ist schließlich, dass herkömmliche Systeme und Work-Flows (wie keyword-basierte Suchmaschinen und andere Instrumente zum Abruf von Information) zur Verarbeitung nicht-strukturierter Informationen nicht den Inhalt, das heißt die Bedeutungen von Aussagen in einem Text, berücksichtigen. Sie erweisen sich daher in der Regel als ineffizient für die Analyse großer Textmengen, weil sie nicht im Stande sind zu verstehen, was in einem Dokument diskutiert wird und sind damit nicht in der Lage relevante von irrelevanten Daten zu unterscheiden.

Semantische Technologien fokussieren die Bedeutungen von Begriffen und besitzen die Fähigkeit, sich auf den Inhalt (Themen, Konzepte, nennenswerte Informationseinheiten wie Namen, Orte, inhaltliche Schwerpunkte) zu konzentrieren, unabhängig davon, wie dieser zum Ausdruck gebracht wird. Daher gewährleisten diese Technologien Such-, Rechercheprozessen2  und ebenso Forschungsprozessen3 eine höhere Effektivität und Effizienz.

MJA

1 Aktuell entwickeln sich besonders in folgenden Branchen Anwendungsbereiche für semantische Technologien: Anti-Counterfeiting, Life Science, Pharma, Nachrichtenagentur, Tageszeitung, Verlag, Internetportal, Anzeigen, Werbung, Automotive, Telekommunikation, Mobile, Energy, Finance.
2 facettierte Suchanwendungen und SAO-Zusammenhang (SAO = subject-action/verb-  object relation
3 zum Beispiel Marketing-und Wettbewerbsforschung

Inhalt unklar – Filiale geschlossen

Was bedeutet hier eigentlich „semantisch“? (1)

Was es im Allgemeinen bedeutet, lernen wir im Deutschunterricht. Was es für einen Anwender bedeutet, der im Info-Dschungel festsitzt und genervt von endlosen Ergebnislisten nur unbrauchbares findet, kann man sofort verstehen, wenn man die verfügbaren Suchtechniken vergleicht.

Bei der Suche im Internet kennt jeder den Umgang mit Schlüsselwörtern (Keywords). Dabei wird ein Text in eine Liste von Wörtern aufgeteilt, ohne deren Bedeutung zu berücksichtigen. Häufig erscheinende Elemente – wie Artikel oder Präpositionen – werden „weggeräumt“. Der auf diese Weise behandelte Text ist letztlich nichts anderes, als eine Liste von Zeichenreihen, die gegebenenfalls einige Male erscheinen.

Im Grunde ist es doch genau so, als würden wir einen Text in einer Sprache lesen, die wir nicht verstehen. Wie wäre es etwa mit dem folgenden Beispiel auf Finnisch:

Metrokäteinen & kuljettaa 499 miljoonaa, investoi euroon, kertomusvuosi – ne ovat 279 miljoonaa euroa enemmän kuin edellisvuotena. Maailmanlaajuinen myyntilinja avasi 38 uutta paikkaa, siitä, 3:een, Saksassa. Laajenemisen painotus oli kasvualueilla Itä-Eurooppa ja Aasia/Afrikka 18 ja/tai 16 uudella paikalla. Kiinassa itsepalvelu tukkukauppias kuitenkin laajensi olemassa olevaa paikkaverkkoa 6:een mennessä, ja Venäjällä, 5 uudella markkinalla.

Wenn wir der Sprache nicht mächtig sind, können wir die Bedeutung der Wörter – der Zeichenreihen – nicht verstehen. Gleichwohl begreifen wir, dass kertomusvuosi , enemmän , edellisvuotena und myyntilinja Wörter sind, die sicher eine Bedeutung haben und dass es sinnvoll ist, sie in unseren Index aufzunehmen: unseren Suchwort-, Schlüsselwort- oder Keyword-Index nämlich.

Das bedeutet dann allerdings, dass das betreffende Suchsystem ausschließlich in der Lage wäre, diejenigen Dokumente zu finden, die Wörter enthalten, wie sie zuvor vom Anwender auch exakt so geschrieben wurden. Eine Formulierung also: „…letztes Jahr hat das Unternehmen drei Niederlassungen in Deutschland aufgegeben und fünf in China eröffnet …“ würde uns entgehen, wenn wir eine allgemein übliche, natürliche Sucheingabe verwenden: „Filiale geschlossen“. Ergo, kenne ich den Suchbegriff nicht, finde ich das Dokument nicht.

Ebenso kann man sagen, traditionelle Keyword-Technologie findet Wörter (Sequenzen), versteht aber nicht den tatsächlichen Inhalt von Dokumenten.

Der Satz …
Eine neue erweiterte Suchfunktion namens Utopia versetzt Nutzer in Lage, auf Informationen im Internet auf völlig neue Weise zuzugreifen, indem sie ihnen höchst zuverlässige Suchergebnisse durch jede erdenkliche Suchtechnologie zur Verfügung stellt.“

und der Satz …
Eine namens Utopia zuverlässige Suchergebnisse versetzt Lage in Nutzer, auf im Internet Suchfunktion auf völlig neue Verfügung erweiterte Weise zuzugreifen, indem ihnen höchst neue Suchtechnologie durch jede erdenkliche Informationen zur sie stellt.“

sind gleich!

Notwendig ist in Zukunft eine Technologie, die mehr kann. Eine, die die Inhalte von Dokumenten analysiert und die Bedeutung eines Textes, den semantischen Gehalt, versteht und den Informationsdschungel durchforsten kann.

Soetwas gibt es nicht? Wir werden sehen 🙂

Bis dahin: „Happy research!“

MJA