Big Data Matching

Dank Big Data Matching zum Wettbewerbsvorteil

Hinter dem Begriff Big Data stehen riesige Datenmengen im Internet, die in jeder Sekunde um schätzungsweise 70 Terabyte wachsen. Das hat zum Vorteil, dass Hochleistungsrechner in dieser Vielzahl an Daten Muster erkennen, die ein Mensch nicht sieht. Aus diesen Erkenntnissen werden Studien für Forschung und Wissenschaft in kürzester Zeit gewonnen. Teil von Big Data sind allerdings ebenso duplizierte, unvollständige oder falsche Informationen. Zum Beispiel bei Produkten,  woraus sich erhebliche Probleme für Händler und Hersteller ergeben. Um es im E-Commerce mit Wettbewerbern aufzunehmen, führt kein Weg daran vorbei, falsche Daten zu bereinigen: Das erfolgt durch das Product Matching.

Doch wie genau entstehen falsche Daten? Eine große Rolle spielen Duplikate. Duplikate bedeuten, dass ein Produkt zweimal im eigenen Shop auftaucht. Das kann bereits beim Einspeisen der Daten geschehen, zum Beispiel bei der Herstellerbezeichnung: Einmal schreibt es sich HP und ein andermal Hewlett & Packard. Noch schwieriger wird es, wenn es um die Attribute eines Produktes geht: Bei einem Trainingsschuh sind die Attribute Material, Absatzhöhe und Verschlussform eingespeist, bei einem anderen wiederum Farbe, Schuhweite und Sohlenmaterial. In manchen Fällen beschreibt eine Artikelnummer verschiedene Ausführungen eines Produktes. Diese Probleme erschweren eine eindeutige Identifizierung des Produktes. Und damit haben Wettbewerber nicht nur im eigenen Shop zu kämpfen: Zur Marktanalyse müssen sie andere Onlinemarktplätze unter die Lupe nehmen und deren Produktdaten mit den eigenen vergleichen. Das stellt sich als schwierig heraus, wenn Produktinformationen nicht übereinstimmen.

 

Produkt-Matching: Oftmals beschreibt eine Artikelnummer mehrere Ausführungen des Produktes

In diesem Beispiel beschreibt eine Artikelnummer mehrere Ausführungen eines Produktes. Dabei unterscheiden sich die Attribute stark voneinander. Diese fehlende Eindeutigkeit erschwert die Identifizierung des Produktes, wenn es mit anderen Angeboten im Internet verglichen werden soll.

Darum ist es erstrebenswert, die Produktdaten zu verbessern und Duplikate zu löschen. Das ist händisch bei einem großen Datenvolumen kaum zu bewerkstelligen. Ein Rechenbeispiel: Wenn Sie 1.000 verschiedene Paar Turnschuhe in Ihrem Sortiment aufführen, müssten Sie 49.500 Vergleiche vornehmen. Und in diesem Beispiel ist die Zahl an Turnschuhen eine kleine Menge. Gerade in Zeiten, in denen der Kunde mit nur wenigen Klicks und mit Hilfe von  Preisvergleichsportalen schnelle Kaufentscheidungen trifft, müssen Händler Produktdaten klar und eindeutig aufbereiten. Dafür eignet sich das Matching, wie es die Business Intelligence Software blackbee durchführt. Wir zeigen Ihnen im Folgenden, mit welchen Schritten blackbee ein erfolgreiches Matching erreicht.

Schritt 1: Wir extrahieren die Dateien

Sie als Kunde stellen uns zunächst eine Produktliste zur Verfügung, bei der unsere Software blackbee das Matching durchführen soll. Dabei spielt es keine Rolle, ob es sich um hunderte oder zehntausende Produkte handelt. Sie legen anschließend die Quellen fest, die blackbee untersucht: Das umfasst Online-Marktplätze wie beispielsweise Amazon und Preisvergleichsportale wie billiger.de. Mittels einer Abfragestrategie generiert unsere Software eine Liste mit allen Angeboten der Quellen – dieser Schritt nennt sich Crawling. Dabei passt sich das System den variierenden URL- und Seitenstrukturen der Quellen an. Sie entscheiden, ob Sie eine tägliche oder wöchentliche Abfrage vornehmen wollen.

Schritt 2: Wir standardisieren die Attributwerte

Bevor es an das eigentliche Matching geht, leistet blackbee eine Vorverarbeitung (oder: Preprocessing). Erinnern Sie sich an das Bezeichnungsbeispiel von HP und Hewlett & Packard: blackbee vereinheitlicht nun diese Produktdaten und fügt weitere, fehlende Attribute hinzu. Mit Hilfe dieser ergänzten Attribute lassen sich Produkte genau identifizieren.

Diese vier Schritte vollführt blackbee, um hochvalide Daten zu gewinnen

Der Matchingprozess bei blackbee: Die Software reduziert den manuellen Aufwand und aufgrund fehlerhafter Daten getroffene Fehlentscheidungen.

 

Schritt 3: Wir vergleichen mittels Matching die Datensätze miteinander

Nun kommt es zum eigentlichen Matching: Mittels der Attribute vergleicht unsere Software blackbee die Produktdaten miteinander. Um das Ergebnis effizient zu gestalten, kombiniert die Software mehrere Attributwerte. blackbee wendet dafür ein maschinelles Lernverfahren an: die Software generiert  sogenannte Trainingsdaten – das sind Beispiele für Matches und Nicht-Matches. Diese Trainingsdaten geben dem System Feedback und zeigen ihm, wo Zuordnungsfehler geschehen und korrigiert werden müssen. Das System merkt sich diese Korrekturen, lernt somit bei jedem Durchlauf dazu und erreicht eine sehr hohe Treffgenauigkeit. Dadurch genießen die gewonnenen Daten eine hohe Validität.

Schritt 4: Wir bereiten das Ergebnis auf

Beim letzten Schritt, dem Reporting, stellt blackbee Ihnen die Daten zur Verfügung. Dabei bietet die Software die Möglichkeit, die Ergebnisse für weitergehende Analysen und für verschiedenste Reports zu nutzen. Wenn Sie Preisbeobachtungen für ein bestimmtes Produkt durchführen möchten, kann die Software zum Beispiel eine Liste der Top 5-Anbieter generieren.

Besonders der Einsatz von blackbees lernenden Matching-Algorithmen verbessert die Qualität der Produktdaten. Damit sichern Sie sich einen strategischen Vorteil gegenüber anderen Wettbewerbern im Umgang mit großen Datenmengen. Denn mit hochvaliden Daten und fehlerfreiem Produktmanagement schafft Ihnen blackbee eine Grundlage für ein erfolgreiches Pricing.

Lesen Sie für weitere Hintergründe zum Thema Matching unsere beiden Whitepaper „Matching von Produktdaten“ und „Product Matching Excellence“.

Sie wollen Ihre Produktdaten bereinigen und die Entwicklungen Ihrer Produkte am Markt beobachten? Testen Sie jetzt blackbee!