Als interdisziplinäres Wissenschaftsgebiet, das es Computern ermöglicht, Bilder ähnlich wie das menschliche Auge zu sehen, zu identifizieren und zu verarbeiten, verändert die Computer Vision (CV)-Technologie die Einzelhandelslandschaft rapide. Drei Experten von Trax geben uns einen Einblick in die Zukunft von CV-basierten Anwendungen im Einzelhandel.

Unsere Trax-Experten

Wir wissen, dass CV vom menschlichen visuellen Kortex inspiriert ist. Sind wir an einem Punkt angelangt, an dem Maschinen bei der Objekterkennung oder -klassifizierung dem menschlichen Sehen ebenbürtig oder sogar überlegen sind?

Ziv: Auf jeden Fall. In der Tat haben wir bei einigen Aufgaben mit Computern übermenschliche Sehfähigkeiten erreicht. Zum Beispiel bei der berühmten ImageNet-Wettbewerb, gibt man einem System Tausende von Objektklassen wie "Containerschiff", "Milbe", "Pilz" oder "Kirsche" vor, und der Computer muss Bilder in jede dieser Klassen einordnen. Und wir haben gesehen, dass sich die Genauigkeit der besten Kandidaten in diesem Wettbewerb drastisch verbessert hat - von etwa 74 Prozent im Jahr 2012 auf 95 Prozent im Jahr 2017.

Vereinfacht ausgedrückt bedeutet dies, dass Computer immer besser darin werden, Objekte wie diese richtig zu klassifizieren.

Das menschliche Auge leidet unter bestimmten angeborenen Verzerrungen, die oft auf die jahrhundertelange Suche nach Mustern durch unsere Vorfahren zurückzuführen sind. Können Maschinen so trainiert werden, dass sie narrensicher sind?

Dolev: CV-Systeme sind definitiv nicht narrensicher. Ähnlich wie die optischen Täuschungen, die das menschliche Gehirn verwirren, können auch CV-Systeme mit "gegnerischen Bildern" ausgetrickst werden. Dabei handelt es sich um Muster und Bilder, die Schwachstellen in CV-Algorithmen ausnutzen, um sie dazu zu bringen, einen Panda mit einem Gibbon oder eine Katze mit Guacamole zu verwechseln. Ein Studententeam des MIT hat 2017 eine Studie veröffentlicht, in der gezeigt wurde, wie sie ein System dazu bringen konnten, ein Foto einer 3D-gedruckten Schildkröte fälschlicherweise als Gewehr zu klassifizieren!

Böswillige Akteure könnten dies nutzen, um Schaden anzurichten, z. B. indem sie Gesichtserkennungsprogramme so manipulieren, dass sie die falschen Personen erkennen, oder um die CV-Systeme anzugreifen, die selbstfahrende Autos ermöglichen. So könnte beispielsweise ein kleiner Fleck auf der Autobahn dazu führen, dass ein selbstfahrendes Auto denkt, es würde ein Stoppschild sehen.

Welche realen Anwendungen von Computer Vision sind für Sie spannend?

Ziv: Viele Anwendungen steckten vor dem Deep Learning fest, mit nur sehr geringen Verbesserungen der Genauigkeit - 0,3 Prozent oder so pro Jahr. Aber mit den Fortschritten beim Deep Learning hat CV einen sehr großen Sprung nach vorne gemacht, was zu vielen branchenübergreifenden Anwendungen geführt hat.

In der Branche der autonomen Fahrzeuge herrscht rege Betriebsamkeit, und eine Reihe großer Hersteller und Technologiegiganten drängen auf den Markt. Je nach dem Grad der Autonomie, den sie bieten, werden selbstfahrende Fahrzeuge in fünf Stufen eingeteilt: von Stufe 1, bei der der menschliche Fahrer noch stark eingreifen muss, bis hin zu Stufe 5 - vollständig autonome Fahrzeuge. Die meisten der heutigen selbstfahrenden Fahrzeuge fallen in die Stufe 4, in der selbstfahrende Fahrzeuge möglich sind, allerdings nur auf vorher festgelegten Routen.

Yair: Die Verteidigungsindustrie ist nach wie vor der wohl wichtigste Nutzer solcher Technologien. Es ist ziemlich üblich, dass Länder Sensoren und mit Kameras ausgestattete Drohnen auf dem Schlachtfeld einsetzen, um sicherere Kampfstrategien zu entwickeln und Soldaten zu schützen.

Ein weniger bekannter, aber sehr wirkungsvoller Einsatz von CV ist die Analyse und Überwachung von Nutzpflanzen in der Landwirtschaft. Mit kamerabestückten Drohnen können Landwirte Bilder vom Feld aufnehmen, um den Gesundheitszustand der Pflanzen, Schädlingsbefall und andere Mängel zu erkennen, die den Ernteertrag beeinträchtigen könnten.

Dolev: Aber wir sind vom Einzelhandel besessen! Wir verwenden CV zur Erfassung von Regalbildern, um einzelne Produkte zu analysieren. Trax hilft dabei, das Regal zu digitalisieren, um die Prüfzeiten für die Verkäufer zu verkürzen und die Bilder in Daten für das Category Management, das Shopper Marketing und die Raumplanungsteams zu übersetzen, um Fehlbestände zu reduzieren, den Vertrieb zu verbessern und Marktanteile gegenüber der Konkurrenz zu gewinnen.

Wird der Lebenslauf zu einer Handelsware?

Yair: Deep Learning hat einige Anwendungen der Computer Vision zur Massenware gemacht. Die Erkennung eines Objekts auf Ihrem Mobiltelefon ist nicht mehr etwas, was nur die großen Unternehmen tun können. Jeder kann Open-Source-Code und öffentliche Datensätze verwenden und ein System ganz einfach trainieren. Diese können Ihnen eine sehr vernünftige Genauigkeit bei der Objekterkennung bieten.

Große Unternehmen wie Google, Facebook, Microsoft und Amazon werden bald in der Lage sein, sofort einsetzbare CV-Lösungen für Standardanwendungen anzubieten. Wenn Sie aber etwas Neues oder eine Nische entwickeln oder die Fähigkeiten einer Anwendung auf die nächste Stufe heben wollen, brauchen Sie Nischenfähigkeiten.

Ziv: Nehmen wir den Einzelhandelssektor als Beispiel. Während die heutigen fortschrittlichen Bilderkennungsalgorithmen in der Lage sind, Objekte innerhalb eines Bildes mit großer Genauigkeit zu erkennen, wird der Prozess in einer Einzelhandelsumgebung viel komplexer.

Hier gibt es Eigenschaften, die nicht alltäglich sind - überfüllte Umgebungen, sich ständig ändernde Artikelgruppen, nahezu identische oder ähnliche Produkte. Eine automatisierte Bilderkennungsplattform muss daher bestimmte Schlüsselkriterien erfüllen, um ein hohes Maß an Genauigkeit zu gewährleisten - die Fähigkeit, mehrere Produkte mit nahezu identischem Aussehen zu unterscheiden, undurchsichtige und reflektierende Verpackungen unter schlechten Lichtverhältnissen zu überwinden und Änderungen im Produktlebenszyklus wie neue Designversionen zu erkennen.

Beispiel für Unterschiede in der Verpackung einer Classic Coca-Cola 1L Flasche

Worauf können wir uns bei Trax freuen - an welchen coolen Anwendungen arbeiten Sie? 

Dolev: Eine Anwendung, von der wir sehr begeistert sind, ist der Store Mapper. Sie nutzt Bilderkennung, um physische Einzelhandelsgeschäfte zu kartieren und in eine 2D-Karte zu digitalisieren. Die Kunden können eine App auf ihren Telefonen verwenden, um mit Hilfe von AR-basierten Wegweisern zu den richtigen Gängen geleitet zu werden, mit standortbasierten Werbeaktionen angesprochen zu werden und auf Artikel aufmerksam gemacht zu werden, die zur Neige gehen. Durch Scannen eines Produkts auf dem Telefon werden dessen Informationen und Nährwerte angezeigt, während ein virtueller Assistent den Kunden beim Hinzufügen und Verfolgen ihrer Listen hilft.

Erfahren Sie mehr darüber, wie sich Computer Vision von studentischen Forschungslabors zu nützlichen Anwendungen in verschiedenen Branchen entwickelt hat, laden Sie unser eBook Vergangenheit, Gegenwart und Zukunft der Computer Vision herunter.