Anti-Counterfeiting wird erfolgreich dank Semantischer Intelligenz und Systematik.

Produktimitationen sind nichts neues, aber das Internet eröffnet Fälschern und ihren Helfershelfern völlig neue und hocheffiziente Verteilkanäle. Hochwertige semantische Technologien erlauben es jedoch, die illegalen e-Shops weitgehend automatisiert zu entdecken, die Verantwortlichen, deren Netzwerke und Hintermänner zu identifizieren und die für eine erfolgreiche juristische Verfolgung notwendigen Informationen zu beschaffen um die illegalen Vertriebskanäle zu schließen. BlueOcean hat in den letzten zehn Jahren die notwendigen semantischen Web-Technologien mit entwickelt und eingesetzt, um den Anti-Counterfeiting-Prozess abbilden und unterstützen zu können. Dazu gehören unter anderem folgende Module:

Crawler- und Spider Technologien zur Identifizierung und Überwachung von relevanten Quellen, auch in Foren,  Blogs, Social-Networks und Communities und anderen Teilen des Long-Tail (Deep Web). Monitoring, Analyse und Identifikation des Inhalts der ermittelten Quellen mittels semantischer Intelligenz und  spezifischen Ontologien. Entity-Extraction und Identifikation von Personenprofilen sowie Personen- und Firmennetzwerken aus dem Internet und professionelle Datenbanken Auf diese Weise können plötzlich 100.000de von e-Shops täglich im Hinblick auf den Verkauf einer großen Zahl von (illegalen) Produkten systematisch und weitgehend automatisiert überwacht und deren verantwortlichen Personen/Firmen umfassend analysiert werden. Mehr lesen! cfiebig

Inhalt unklar – Filiale geschlossen

Was bedeutet hier eigentlich „semantisch“? (1)

Was es im Allgemeinen bedeutet, lernen wir im Deutschunterricht. Was es für einen Anwender bedeutet, der im Info-Dschungel festsitzt und genervt von endlosen Ergebnislisten nur unbrauchbares findet, kann man sofort verstehen, wenn man die verfügbaren Suchtechniken vergleicht.

Bei der Suche im Internet kennt jeder den Umgang mit Schlüsselwörtern (Keywords). Dabei wird ein Text in eine Liste von Wörtern aufgeteilt, ohne deren Bedeutung zu berücksichtigen. Häufig erscheinende Elemente – wie Artikel oder Präpositionen – werden „weggeräumt“. Der auf diese Weise behandelte Text ist letztlich nichts anderes, als eine Liste von Zeichenreihen, die gegebenenfalls einige Male erscheinen.

Im Grunde ist es doch genau so, als würden wir einen Text in einer Sprache lesen, die wir nicht verstehen. Wie wäre es etwa mit dem folgenden Beispiel auf Finnisch:

Metrokäteinen & kuljettaa 499 miljoonaa, investoi euroon, kertomusvuosi – ne ovat 279 miljoonaa euroa enemmän kuin edellisvuotena. Maailmanlaajuinen myyntilinja avasi 38 uutta paikkaa, siitä, 3:een, Saksassa. Laajenemisen painotus oli kasvualueilla Itä-Eurooppa ja Aasia/Afrikka 18 ja/tai 16 uudella paikalla. Kiinassa itsepalvelu tukkukauppias kuitenkin laajensi olemassa olevaa paikkaverkkoa 6:een mennessä, ja Venäjällä, 5 uudella markkinalla.

Wenn wir der Sprache nicht mächtig sind, können wir die Bedeutung der Wörter – der Zeichenreihen – nicht verstehen. Gleichwohl begreifen wir, dass kertomusvuosi , enemmän , edellisvuotena und myyntilinja Wörter sind, die sicher eine Bedeutung haben und dass es sinnvoll ist, sie in unseren Index aufzunehmen: unseren Suchwort-, Schlüsselwort- oder Keyword-Index nämlich.

Das bedeutet dann allerdings, dass das betreffende Suchsystem ausschließlich in der Lage wäre, diejenigen Dokumente zu finden, die Wörter enthalten, wie sie zuvor vom Anwender auch exakt so geschrieben wurden. Eine Formulierung also: „…letztes Jahr hat das Unternehmen drei Niederlassungen in Deutschland aufgegeben und fünf in China eröffnet …“ würde uns entgehen, wenn wir eine allgemein übliche, natürliche Sucheingabe verwenden: „Filiale geschlossen“. Ergo, kenne ich den Suchbegriff nicht, finde ich das Dokument nicht.

Ebenso kann man sagen, traditionelle Keyword-Technologie findet Wörter (Sequenzen), versteht aber nicht den tatsächlichen Inhalt von Dokumenten.

Der Satz …
Eine neue erweiterte Suchfunktion namens Utopia versetzt Nutzer in Lage, auf Informationen im Internet auf völlig neue Weise zuzugreifen, indem sie ihnen höchst zuverlässige Suchergebnisse durch jede erdenkliche Suchtechnologie zur Verfügung stellt.“

und der Satz …
Eine namens Utopia zuverlässige Suchergebnisse versetzt Lage in Nutzer, auf im Internet Suchfunktion auf völlig neue Verfügung erweiterte Weise zuzugreifen, indem ihnen höchst neue Suchtechnologie durch jede erdenkliche Informationen zur sie stellt.“

sind gleich!

Notwendig ist in Zukunft eine Technologie, die mehr kann. Eine, die die Inhalte von Dokumenten analysiert und die Bedeutung eines Textes, den semantischen Gehalt, versteht und den Informationsdschungel durchforsten kann.

Soetwas gibt es nicht? Wir werden sehen 🙂

Bis dahin: „Happy research!“

MJA


Topaktueller Zugriff zum Informationschaos

Das Internet ermöglicht den ungehinderten topaktuellen Zugang zu praktisch allen Datenbanken der Welt und erlaubt es Stakeholdern ihre Daten, Fakten, Meinungen und Absichten allen Interessierten frei und sofort zugänglich zu machen. Leider finden wir den Großteil dieser Informationen in eher unstrukturiertem Zustand vor, d.h. wir finden das, was wir finden wollen oder müssen eher nicht. Oder nur mit großem Rechercheaufwand. Auf Websites, in Blogs, Tweets, bei Facebook etc. wachsen sekündlich enorme Informationsfluten heran, die es Recherchierenden schwer machen, an die für sie relevanten Inhalte zu gelangen.

Topaktueller Zugriff zum Informationschaos also – beinahe wertlos, wenn man es nicht vernünftig handhaben kann. Massenhaften Zugang zu Dokumenten zu haben, ohne deren Bedeutung bewerten zu können, das ist fast, als hätte man keinen Zugriff. Es ist schon lange nicht mehr möglich, einfach so manuell auf das vorhandene Wissen zuzugreifen. Es reicht schlicht die Zeit nicht, alles zu lesen, zu analysieren, zusammenzufassen, zu vergleichen, also zu verarbeiten und zur rechten Zeit bereitzustellen, mit Kollegen zu diskutieren.

Wenn wir die bekannten Suchtechniken (Suchmaschine des Vertrauens) verwenden, treten, abhängig davon, wie gut ich meine Suchanfrage formuliere, doch grundsätzlich zwei Ergebnisse auf: Weiterhin Informationsüberflutung, das Suchsystem gibt zu viele Antworten, sodass es immer noch nicht möglich ist, diese vernünftig zu ordnen und zu sichten. Der Zeitaufwand ist noch immer zu groß, um diese Aufgabe angemessen zu bewältigen.

Abgesehen davon, werden Kriterien für das Ranking innerhalb der Ergebnislisten vom Suchmaschinenbetreiber festgelegt (nicht von ihnen) und vom Websitebetreiber möglichst gut erfüllt (SEO). Dabei wissen Recherchierende doch gelegentlich selbst, was für sie relevant ist, oder nicht?

Das zweite denkbare Ergebnis ist: der Informationsfluss trocknet aus. Es gibt keine oder zu wenige Ergebnisse. D.h. es ist nichts zu sichten da bzw. die Fähigkeit des Systems, besser zu selektieren, und die erreichte Auswahltiefe sind zu gering.

Mit anderen Worten: Um die Fluten zu bewältigen und professionelle Arbeit sicherzustellen, muss ein anderes Content Management her. So zerrinnen einem doch zu leicht die relevanten Inhalte zwischen Tastatur und Timetable. Ich meine, um das Chaos zu bewältigen stehen grundsätzlich drei technologische Ansätze zur Verfügung: Keyword Technologien (s. o.), Shallow Linguistics und Semantic Intelligence. Und ich hoffe, dass ich im nächsten Blogbeitrag dazu etwas zusammentragen kann.

Happy research!

MJA