Background

Pixelz Blog

Erhalten Sie einen Einblick in die Produktfotografie, Nachbeareitung und optimale Vorgehensweisen in Sachen E-Commerce-Produktbilder.

Resultat

Ihre Suche ergab keinen Treffer. Bitte versuchen Sie es erneut!

Wie Pixelz dank KI automatische Bildretusche ermöglicht – oder: Wie wir in 30 Sekunden Masken für eine Million Bilder erstellen


Main Image

Neuronale Netzwerke sind in der Bildbearbeitung angekommen und haben unsere Workflows ein für allemal verändert.

Von den Vorzügen des autonomen Fahrens bis hin zur geradezu apokalyptischen Warnung vor Supercomputern, die eines Tages die Weltherrschaft an sich reißen könnten: Wenn es um die Technologie der Zukunft geht, ist künstliche Intelligenz (KI) das Zauberwort.

Ganz gleich, ob auch du das Ende der Menschheit fürchtest oder dich darauf freust, mit deinem stoischen Roboter-Taxifahrer Small Talk zu betreiben ("Fahrer! Es ist heute sehr heiß. Aktiviere die geeigneten Prozesse für ein solches Wetter.“), das Thema KI lässt sich aus der modernen Technik nicht mehr wegdenken.

Und das ist auch gut so: Du solltest KI schließlich so früh wie möglich nutzen, um dein Unternehmen voranzubringen.

KI ist wie dafür geschaffen, die Bildbearbeitung im E-Commerce effizienter und vielseitiger zu gestalten (Danke, MIT, Google, Microsoft und Adobe)

Wer sich gegen KI sträubt, bleibt auf der Strecke, denn Automatisierung zählt zu den wichtigsten Stützpfeilern erfolgreicher Prozessoptimierung. Das gilt insbesondere für den Workflow in Bereichen wie Produktfotografie und Nachbearbeitung, die einerseits kostenintensiv sind, andererseits aber eine große Zahl repetitiver Arbeitsschritte umfassen.

Tatsächlich sind die KI von heute nahezu perfekt dafür geeignet, Bildbearbeitung für den E-Commerce zu unterstützen. Warum das so ist?

  1. Die größten Denker der Technikbranche konzentrieren all ihre Energie darauf, die Bilderkennung der KI zu verbessern
  2. Standard-Input + Standard-Output = messbare Ergebnisse
  3. Du kannst die Cloud nutzen, um die KI automatisch für jedes deiner Projekte zu skalieren

Für Pixelz ist KI seit Langem der Motor, der unsere Entwicklung vorantreibt. Bereits die „Series A“-Finanzierung zu Beginn unserer Startup-Karriere war darauf ausgerichtet, unsere Bildbearbeitungsprozesse so weit wie möglich zu automatisieren.

Aber das nur am Rande, denn das eigentliche Ziel unseres Artikels ist, dich mit ein paar KI-Highlights aus dem Pixelz-Arbeitsalltag zum Staunen zu bringen. Lass uns also herausfinden, wo neuronale Netzwerke schon heute für dich im Einsatz sind.

Pixelz ist zu 50 Prozent automatisiert

Für uns gehen Standardisierung, Automatisierung und konstant hohe Qualität Hand in Hand. Der Grund dafür? Lean Production oder zu Deutsch: schlanke Produktion. Die Theorie hinter diesem Konzept ist denkbar simpel: Je sparsamer ein Unternehmen mit seinen Ressourcen umgeht, desto effizienter arbeitet es. Das setzt allerdings konstante Prozessoptimierung voraus und genau hier kommt für uns die KI ins Spiel.

Bildbearbeitung verläuft bei Pixelz in sogenannten Micro-Steps, in kleinen Arbeitsschritten, die teils von unseren Expert*innen, teils automatisiert umgesetzt werden.

Spezialisten, Skripte und KI bearbeiten die Bilder gemeinsam

Spezialist*innen, Skripte und KI übernehmen die Bildbearbeitung gemeinsam und zeichnen dabei alle Arbeitsschritte auf

Um diese Abläufe insgesamt effizienter zu gestalten, haben wir S.A.W.™ entwickelt, einen Arbeitsprozess für die Bildbearbeitung mit Photoshop, der sich an der Arbeitsaufteilung am Fließband orientiert. Jeden Arbeitsschritt, den nicht unbedingt ein Mensch übernehmen muss, erledigt dabei die künstliche Intelligenz oder ein Skript. So konnten wir bereits rund 50 Prozent unserer Bildbearbeitungsprozesse automatisieren – Tendenz steigend.

Wie wir das möglich gemacht haben, erklärte Thomas Kragelund, der CEO von Pixelz, bereits 2017 in einem Interview mit Forbes. "Wir haben gewaltige Datenmengen analysiert, um das zu ermöglichen. Seit Jahren tracken wir unsere Arbeitsschritte in Photoshop: Alle Retuschen werden in der von uns entwickelten Photoshop-Extension durchgeführt. So konnten wir Daten zu Millionen von Bildern erheben. Dieses Wissen leitet uns bis heute. Bildbearbeitung ist ein komplexer Prozess, aber indem wir ihn in hunderte kleiner Schritte aufschlüsseln, kann die KI sehr präzise lernen, immer mehr dieser Teilaufgaben zu übernehmen. Inzwischen sind wir so weit, dass gewissermaßen unsere Daten die Entscheidungen für uns treffen können. Das zu beobachten, ist extrem aufregend.“

Aber wie sieht das in der Praxis aus? Wie kann KI in die Nachbearbeitung integriert werden?

Zuallererst braucht es so etwas wie S.A.W.™. Indem wir die Bildbearbeitung in viele kleine Arbeitsschritte unterteilen, können wir einzelne Prozesse isolieren und die KI darauf trainieren, eine bestimmte Abfolge von Schritten durchzuführen. Von zentraler Bedeutung ist dabei der Input: Je weniger Ausnahmefälle es zu bearbeiten gibt, desto leichter fällt der KI die Arbeit – wie uns Menschen auch.

Die KI lernt anhand von manuell erstellten Trimaps Objekte zu identifizieren und Konturen zu erfassen

Schauen wir uns zum Beispiel ein Produktfoto an. Das eigentliche Produkt ist hier meistens in der Mitte des Bildes zu finden. Wenn wir dann noch wissen, was unsere Kunden in ihren Onlineshops typischerweise verkaufen, ist es schon viel leichter, der KI beizubringen, wie sie um diesen Artikel herum eine Maske erstellt.

Um ganz sicherzugehen, können wir die Konturen manuell nachzeichnen, bevor die künstliche Intelligenz mit der Arbeit beginnt. Anschließend prüfen wir die Ergebnisse noch einmal. Auch das hilft der KI dabei, sich immer präziser auf diesen Arbeitsschritt einzustellen.

Das klingt alles noch zu abstrakt? Dann lass uns die Arbeitsschritte an einem echten Beispiel aus der Nachbearbeitung durchgehen.

Warum unsere KI Muttermale entfernen kann (Es funktioniert! Will heutzutage bloß niemand…)

Die KI erkennt Muttermale und entfernt sie eigenständig aus dem Bild

Links ist das Original und rechts das fertige Bild nach der KI-Retusche

Eines unserer ersten funktionalen KI-Projekte unterstützt die Retusche von Hautunebenheiten. Wir haben der künstlichen Intelligenz beigebracht, Muttermale zu finden und zu entfernen. Dabei setzen wir zuerst traditionelle Algorithmen ein, um die Haut als solche zu identifizieren.

Anschließend benutzen wir einen anderen Algorithmus, der vor diesem Hintergrund die „Kandidaten“ (also die eventuell zu entfernenden Muttermale) bestimmt.

Die Aufgabe der KI bestand zunächst darin, diese Liste auszuwerten und die einzelnen Kandidaten unterschiedlichen Kategorien zuzuordnen. Als Kriterium diente dabei der Unterschied zur Hautfarbe: je stärker der Kontrast, desto größer die Chance, dass es sich um ein Muttermal handelt.

Das klingt nicht besonders komplex und genau deshalb gibt es Algorithmen, um solche Farbunterschiede aufzuspüren. Nur gibt es dabei ein Problem: Wir haben festgestellt, dass Haare zu falsch positiven Ergebnissen führen können. Das bedeutet, was du als Bart oder als einzelnes Haar am Rand einer Augenbraue erkennst, erkennt der Algorithmus nur als etwas, das dunkler ist als die umgebende Haut.

Und genau da kommen die neuronalen Netzwerke ins Spiel. Ihre Aufgabe ist es, Muttermale von anderen Effekten zu unterscheiden, die wir nicht aus dem Bild entfernen wollen. Das haben wir unserer KI beigebracht, indem wir ihr 65.000 Bilder von Muttermalen und Nicht-Muttermalen vorgesetzt haben (was lustiger war als es klingt).

Fotos von Muttermalen für das KI-Training

Fotos von Muttermalen, mit denen wir die KI trainiert haben

Die KI erkennt Muttermale und entfernt sie eigenständig aus dem Bild

Fotos von Nicht-Muttermalen (Haare), anhand derer die KI den Unterschied gelernt hat

Sobald die Muttermale zuverlässig von den Nicht-Muttermalen getrennt waren, konnten wir ein standardisiertes Photoshop-Skript benutzen, um sie zu entfernen.

Et voilà: Alles läuft wie am Schnürchen. Wir haben die Retusche von Muttermalen dank künstlicher Intelligenz vollständig automatisiert, aber leider zu einem denkbar ungünstigen Zeitpunkt. Bis in die frühen 2000er war ein makelloser Teint das Ideal, doch inzwischen bevorzugen die meisten unserer Kunden einen natürlichen Look, Schönheitsflecken inklusive.

Dennoch war unsere Arbeit nicht umsonst. Diese Retusche-Routine haben wir ohnehin weniger für den Markt entwickelt als vielmehr zu Forschungszwecken. Und in dieser Hinsicht war das Projekt ein voller Erfolg, der uns auf die Spur all jener Arbeitsschritte gebracht hat, die wir mit einer gut trainierten KI automatisieren können.

Die KI als Verkehrspolizist (Alle Zahnbürsten nach links, alle Stühle nach rechts)

Der Großteil der KI von Pixelz ist dafür zuständig, Bilder nach dem Upload zu sortieren: Die künstliche Intelligenz schaut sich das Foto an und bestimmt, was darauf zu sehen ist. Das funktioniert im Grunde ähnlich wie in unserem „Muttermal oder Nicht-Muttermal“-Beispiel, nur arbeiten wir jetzt mit mehr Parametern. Ist ein Model im Bild? Eine Schaufensterpuppe? Ein Schuh? Eine Flasche? Ein Tisch? Und so weiter.

Fotos von Muttermalen für das KI-Training

Eine KI braucht Training, um Produkte auf Fotos korrekt zu identifizieren.

Ist in diesem Foto ein Mensch zu sehen oder nicht? Eine einfache Frage, findest du nicht? Vielleicht sogar so einfach, dass du dir denkst: „Das kann mir mein Neffe beantworten und der ist noch keine zwei Jahre alt“. Vermutlich hast du recht und dein Neffe könnte das mindestens so gut wie eine KI.

Das menschliche Gehirn ist hervorragend darin, visuelle und auditive Reize zu interpretieren. Nur leider gestaltet sich das, was Kinder mit ein bisschen Intuition lösen, als eine der größten Schwierigkeiten in der Arbeit mit Supercomputern. Aus diesem Grund beschäftigt sich der Großteil der aktuellen KI-Forschung mit der Frage, wie eine Maschine lernen kann, Bilder und Audios zuverlässig zu erkennen.

Autonome Fahrzeuge werden mit verschiedenen Sensoren ausgestattet

“Das ist also der Grund, warum autonome Fahrzeuge mit so vielen verschiedenen Sensoren ausgestattet werden.“ Bildquelle: MIT Technology Review

Von Alexa und Siri bis Google Home: Spracherkennung ist schon lange in unserem Alltag angekommen. Mit der Bildinterpretation eröffnen sich nun neue Anwendungsfelder – vorausgesetzt, alles läuft nach Plan.

So ist beispielsweise autonomes Fahren ein Interpretationsmarathon, bei dem es wortwörtlich um Leben und Tod geht. Und was, wenn wir die ersten Anzeichen einer Krebserkrankung auf Röntgenbildern entdecken wollen? Auch dann sind wir auf Bilderkennung angewiesen.

Oder nehmen wir an, du bist im Ausland und versuchst Straßenschilder zu übersetzen. Mit der richtigen App musst du nur die Kamera deines Smartphones auf das Schild richten und schon kannst du die Übersetzung in deiner Muttersprache vom Bildschirm ablesen. Auch das ist Bilderkennung.

Es liegt also nahe, dass auch unsere KI hauptsächlich damit beschäftigt ist, Bilder zu sortieren. Für unser neuronales Netzwerk nutzen wir dabei eine von Google entwickelte Architektur namens „Inception“. Sie kommt schon im allerersten Schritt der Bildbearbeitung zum Einsatz: in der Bildvorbereitung.

Alle Bilder, die bei Pixelz eingehen, werden zuallererst vorsortiert. In diesem Stadium entscheidet sich, welche Arbeitsschritte für welches Bild erforderlich sind. Je nachdem, was zu sehen ist und was gemacht werden soll, ordnen wir die Fotos unterschiedlichen Kategorien zu.

Unser COO Jakob Osterby erklärt das wie folgt: „Wenn der Input immer gleich wäre, wäre das alles einfacher, weil man genau wüsste, mit was für einem Objekt man es zu tun hat und wie es bearbeitet werden muss. So einfach ist es aber leider selten.

Auf dem ersten Bild kann ein Stuhl zu sehen sein, auf dem nächsten eine Zahnbürste und auf dem dritten eine Jacke. Und wenn es eine Jacke ist, dann macht es zudem einen großen Unterschied, ob sie aus Fell oder aus Leder besteht.“

Da unsere Kunden schon beim Einsenden der Fotos einige Angaben zu ihren Produkten machen, können wir immerhin grob abschätzen, mit welcher Art von Input wir es zu tun bekommen. Trotzdem gibt es eine Menge Nuancen in der Inszenierung der Artikel, die es auch in der Bearbeitung zu berücksichtigen gilt.

"Ob Requisiten benutzt werden oder nicht, verändert unseren Workflow immens“, erklärt Jakob Osterby. „Vielleicht ist im gewählten Template keine Retusche enthalten. Wenn wir aber entdecken, dass ein eher dekoratives Objekt wie ein Kleiderbügel, eine Wäscheleine oder eine Halterung das eigentliche Produkt zum Teil verdeckt, dann entfernen wir diese Requisite aus dem Bild.“

Der Hybrid aus Mensch und KI (Nein, kein Cyborg)

Die künstliche Intelligenz kann Bilder nicht nur anhand der darauf zu sehenden Objekte den vorgegebenen Kategorien zuordnen, sondern auch die erforderliche Bearbeitungsintensität ermitteln. Hierfür analysiert sie beispielsweise, ob Gesichter und Haut abgebildet sind, wie stark die Kontraste ausfallen oder wie komplex sich die Konturen einer Maske gestalten.

Der so ermittelte Schwierigkeitsgrad hilft uns dabei, Kosten und Zeitaufwand einzuschätzen und die einzelnen Bilder den am besten für die Bearbeitung geeigneten Expert*innen oder einer KI zuzuweisen. Oder um es mit den Worten unseres CEO Jakob Osterby zu sagen: „Eine KI sortiert die Bilder vor und bereitet damit den Weg für die effiziente Bearbeitung durch eine andere KI: Beeindruckend, was neuronale Netzwerke inzwischen leisten können.“

Fotos mit starkem Kontrast machen es der KI leicht, Masken zu erstellen

Werfen wir einen Blick auf ein kurzes (und wichtiges!) Fallbeispiel:

Einer der wichtigsten Aspekte eines Bildes, den künstliche Intelligenz erkennen kann, ist der Kontrast zwischen Objekten und ihrem Hintergrund. Denken wir zurück an das Beispiel von eben: Jacke ist schließlich nicht Jacke, wenn es um Produktfotos geht und je nach Hintergrund kann die Bearbeitung kompliziert werden.

Eine schwarze Lederjacke vor einem weißen Hintergrund ergibt einen stärkeren Kontrast als ein weißer Fellmantel vor demselben weißen Hintergrund. Das bedeutet, dass die KI den Hintergrund aus dem Foto mit der schwarzen Lederjacke direkt entfernen kann, während wir für das Foto mit dem weißen Fellmantel einen Umweg nehmen müssen.

Hier muss einer unserer Bildredakteure erst eine Trimap zeichnen, bevor die KI übernehmen kann. In unserem System unterteilt eine solche Map oder Karte ein Bild in drei Segmente: In den Vordergrund (behalte ihn!), den Hintergrund (lösche ihn!) und den Rand, an dem später eine Maske verlaufen wird.

Auf Grundlage der Trimap kann die KI eine Maske erstellen, die dann ihrerseits von einem weiteren Bildredakteur geglättet werden muss, um die hohe Qualität des schlussendlichen Produkts zu gewährleisten.

So soll das aber auf Dauer nicht bleiben. Während wir den Hintergrund aus dem Weiß-auf-Weiß-Foto entfernen, dokumentieren wir den gesamten Prozess. Anhand der festgehaltenen Daten lernt unsere KI nach und nach, auch die Hintergründe aus Bilden mit schwachen Kontrasten zuverlässig zu entfernen.

Trimaps sind die besseren Wegweiser (Go, Masking!)

Das ist ein sehr einfaches Beispiel und es gibt viele Softwarelösungen, die dabei einen guten Job erledigen, solange die Kontraste stark ausgeprägt und die Konturen scharf sind.

Das bedeutet, schon heute kann manche Software unter den richtigen Bedingungen einige Arbeitsschritte für uns übernehmen. Die automatische Auswahl in Photoshop ist nur eines von vielen Beispielen dafür. Vorausgesetzt, Farben und Linienführung sind auf unserer Seite.

Was jetzt kommt, wird dich sicher nicht überraschen: Schwieriger wird die Bearbeitung, wenn wir eine Maske für ein Bild mit eher sanften Kontrasten oder für Objekte mit vielen Kanten erstellen wollen. Das betrifft nicht nur komplexe Objekte wie einen Stuhl mit einer Rückenlehne aus Netzstoff oder eine feine Gliederkette aus Gold, sondern auch alle Fotos, auf denen Models zu sehen sind.

Es dauert nur wenige Sekunden, eine Trimap zu zeichnen und so die KI zu leiten

Das Problem mit Fotomodellen besteht nämlich darin, jedenfalls für Bildbearbeiter, dass die meisten von ihnen Haare auf dem Kopf haben. Eine dichte, perfekt durchgestylte und kunstvoll in Pose geworfene Mähne bedeutet viele feine Strähnen. Diese werden in alle Richtungen geweht, kreuzen andere Linien des Bildes und ragen an so vielen Stellen über Konturen hinaus, dass es ewig dauert, um sie alle herum Masken zu zeichnen. Der reinste Alptraum für professionelle Bildredakteur*innen.

Das Erstellen von Masken zu automatisieren zählt nicht zuletzt aus diesem Grund zu den größten und zugleich wichtigsten Herausforderungen, denen wir uns bei Pixelz stellen. „Rund 40 Prozent des täglichen Arbeitsaufwandes nimmt allein das Masking ein“, sagt Osterby.

„Ich denke, der nächste große Schritt im Machine Learning wird sein, ein Hybridmodell zu entwickeln, welches künstliche Intelligenz und menschlichen Workflow verbindet. Unsere Idee für effizienteres Masking ist, nach Eingang eines Bildes zuallererst einen groben Pfad um das Produkt herum zu erstellen. Im Moment übernehmen das unsere Bildredakteur*innen noch selbst, aber wir sind dabei, die KI für diese Arbeit zu trainieren.

Dieser Arbeitsschritt dauert knapp zwei Sekunden und hilft dem Algorithmus im weiteren Verlauf dabei, Konturen zu erkennen und das eigentliche Produkt von eventuellen Requisiten zu unterscheiden. Danach legen wir das Bild auf den Server, die KI entfernt den Hintergrund und unsere Spezialist*innen prüfen das Ergebnis. Bei Bedarf nimmt sie abschließend noch ein paar Verfeinerungen vor.

Im Lauf der Zeit soll aber die künstliche Intelligenz so gut darin werden, diese Pfade zu erstellen und zu benutzen, dass unsere Mitarbeiter*innen sich immer weiter von diesen Arbeitsschritten zurückziehen können.“

Eine Trimap hilft der KI dabei, komplexe Konturen präzise zu erfassen

Vorteile, Vorteile und noch mehr Vorteile (oder: Wie du in nur 30 Sekunden Masken für eine Million Bilder erstellst)

Okay, das klingt ja cool, aber ist es auch mehr als nur eine technische Spielerei? Welche messbaren Vorteile bringt uns die Automatisierung mit einer KI schlussendlich ein?

Unsere Arbeit mit künstlicher Intelligenz ist ein laufender Prozess. Es ist eine Vielzahl von Messgrößen erforderlich, um die Veränderungen zu quantifizieren und wir haben längst nicht alle Möglichkeiten ausgeschöpft. Bislang haben wir allein rund um das Erstellen von Masken mit KI Folgendes beobachtet:

  1. Die Masken sind 15 mal schneller fertig, als wenn sie ein/e Bildredakteur*in bearbeitet
    • Natürlich gibt es hier eine gewisse Varianz, weil die Masken je nach Produkt unterschiedlich aufwendig sind. Ein Mensch braucht zwischen 20 und 30 Minuten, um eine Maske zu erstellen, während unsere KI ein bis zwei Minuten braucht. (Es sei denn, wir sprechen von komplexen Motiven wie zum Beispiel einem Fahrrad: Da brauchen sowohl Menschen als auch die KI länger). Derzeit müssen wir an den meisten automatisch erstellten Masken noch ein wenig nachjustieren. Aber auch im Vergleich zu unseren schnellsten Fachkräften hat die KI nach wie vor einen enormen Vorsprung. Das bringt uns gleich zum nächsten Punkt
  2. Unsere Produktionskosten sinken um knapp 15 Prozent (Zahlen aus 2018)
    • Die Entwicklung hat viel Zeit gekostet, aber diese Investition macht sich jetzt bezahlt. Noch einmal zur Erinnerung: Das Erstellen der Masken nimmt etwa 40 Prozent der Arbeitszeit des Retusche-Vorgangs ein. Indem wir das automatisieren, können wir die Produktionskosten deutlich senken. Gleichzeitig haben unsere Spezialist*innen mehr Zeit, um sich auf die Bearbeitungsschritte zu spezialisieren, welche die KI (noch) nicht übernehmen kann. So können wir insgesamt einen besseren Service bei geringeren Kosten bieten.
  3. Unendliche Skalierbarkeit
    • Unsere neuronalen Netzwerke sind cloudbasiert. Jedes Bild, das wir in die Cloud hochladen, trägt dazu bei, die KI zu trainieren. Je mehr Fotos wir bearbeiten, desto präziser wird also unser System.

Diesen letzten Punkt sollten wir noch etwas vertiefen, denn hier bekommen wir den besten Eindruck davon, zu welchem mächtigen Tool sich die KI gerade entwickelt. Die neuronalen Netzwerke unserer KI nutzen für das Erstellen von Masken die Server von Amazon. Das ermöglicht uns eine ungeahnte Arbeitsgeschwindigkeit.

"Wir können die Bearbeitungsgeschwindigkeit steigern, indem wir mehr Server nutzen, um die automatisierten Arbeitsschritte durchzuführen“, erklärt Janus Matthesen, der CTO von Pixelz. „Bekommen wir mehr Bilder, verteilt sich die Arbeitslast automatisch auf mehr Server. Unsere KI braucht etwa 30 Sekunden, um ein Bild zu bearbeiten. Theoretisch können wir also eine beliebige Menge von Bildern in 30 Sekunden bearbeiten, solange wir nur ausreichend Server dafür zur Verfügung haben.“

Ja, das hast du richtig verstanden: Für die KI ist es unerheblich, ob wir 10, 10.000 oder 1.000.000 Bilder in der Pipeline haben. Solange die Server mitspielen, können wir für jede beliebige Anzahl innerhalb nur von 30 Sekunden eine Maske erstellen.

Bearbeitungstau? Nicht an unserem Photoshop-Fließband.

Die KI arbeitet mit jedem weiteren Bild ein wenig präziser

Die von der KI gezeichneten Masken werden mit jedem bearbeiteten Bild etwas präziser

Nicht jede Form der Automatisierung ist intelligent (Skripte sind keine KI)

Bevor wir uns im Detail mit den Möglichkeiten der KI beschäftigten, lass uns noch einmal die Grundlagen dieser Technologie zusammenfassen. Zuallererst sollten wir festhalten, dass nicht alle automatisierten Prozesse intelligent sind. Intelligenz setzt Lernfähigkeit voraus und die ist nicht immer gegeben.

Im Gegenteil: Viele der heute verwendeten automatisierten Prozesse lernen nicht, sondern wiederholen einfach stur das, wofür sie gemacht wurden. Diese sogenannten Bots sind Skripte, die Aufgaben wie „Pfad anwenden“, „Maske anwenden“ oder „Automatisch freistellen“ umsetzen. Sie sind komplex, aber ihre Reichweite ist begrenzt. Neue Aufgaben können sie nur meistern, wenn unsere Programmierer*innen die Skripte gezielt für diesen Zweck umschreiben.

Solche unintelligenten Bots waren auch der erste Schritt in Richtung Automatisierung, den wir von Pixelz unternommen haben:

Der allererste Arbeitsschritt, den wir automatisiert haben, umfasste den Import einer Ebene, die über den vorherigen Schritt gelegt werden musste“, erzählt Jakob Osterby. „Zu Beginn haben unsere Mitarbeiter einfach nur eine Taste gedrückt und darauf gewartet, dass das Skript durchgelaufen ist. Ein Klick und dann zehn, fünfzehn Sekunden Wartezeit. Immer und immer wieder. Das war nicht nur zeitaufwendig, sondern auch ein verdammt langweiliger Job.“

Eine KI wird hier zum Game Changer, denn sie kann sich auf Grundlage der vorhandenen Daten die wahrscheinlichsten Handlungsfolgen aneignen und lernt durch Trial-and-Error dazu.

Mit etwas Training kann die KI auch ohne Trimap präzise arbeiten

Wie wir die Bildbearbeitung mit unserer KI skalieren (Spoiler: mit der Cloud)

Auch eine KI kann nicht lernen, wenn niemand sie trainiert. Dafür sind eine Menge Daten und genauso viel Rechenkraft erforderlich. Das hat unser CTO, Janus Matthesen, oftmals erfahren:

"Wenn wir unsere KI-Modelle trainieren, brauchen wir Millionen von Bildern als Grundlage. Entsprechend zeitintensiv gestaltet sich der Lernprozess“, sagt er. "Um die optimale Konfiguration zu finden, müssen wir außerdem eine Vielzahl von Gewichtungen und Hyperparametern anpassen, bis die Kombination stimmt. Die Arbeit in der Cloud ermöglicht uns, diesen Prozess effizienter zu gestalten, indem wir eine große Anzahl von Konfigurationen gleichzeitig testen.“

Pixelz nimmt am „Nvidia Inception“-Programm für Start-ups teil

Pixelz ist Teil des „Nvidia Inception“-Programms für Start-ups, die mit KI arbeiten

“Früher haben wir lokale Server mit vielen GPUs benutzt, aber seit Amazon die Instanzen P2 und P3 EC2 veröffentlicht hat, haben wir das KI-Training in die Cloud verlegt“, sagt Matthesen. „Die Skalierung über den Server und die damit einhergehende Verkürzung der Zeit, die wir mit der Suche nach den passenden Konfigurationen verbringen, bedeutet für uns einen großen Wettbewerbsvorteil.

Pixelz ist an Nvidias Inception-Programm für Start-ups beteiligt, die mit künstlicher Intelligenz arbeiten. Dadurch wurden wir auf die Nvidia GPU Cloud aufmerksam, mit der sich sehr gut auf P3-Instanzen aufbauen lässt.“

Künstliche Intelligenz wird besser und besser (Unseren Respekt an Capsule Networks)

Wie bereits erwähnt, haben wir die Nachbearbeitung bei Pixelz bereits zu rund 50 Prozent automatisiert. Zu diesem Zweck haben wir unsere KI für immer mehr Teilaufgaben in der Bildbearbeitung trainiert. Inzwischen kann sie nicht nur Muttermale aufspüren und entfernen oder Masken erstellen. Sie kann beispielsweise auch Bilder zuschneiden oder die besten Bilder aus einem Set auswählen.

Aber damit nicht genug: Wir wollen die Automatisierung noch weiter vorantreiben. Dafür haben wir uns gezielt mit den Bereichen beschäftigt, in denen unsere Technik noch nicht so stark ist.

Die KI, die wir (und die meisten anderen Unternehmen) nutzen, zählt zu den sogenannten „Convolutional Neural Networks“ (CNN). Diese Form des neuronalen Netzwerks leistet das, was zumeist als „Deep Learning“ oder „Machine Learning“ bezeichnet wird.

Grob vereinfacht sind CNN auf das Klassifizieren und Zählen von Objekten ausgerichtet. Allerdings haben sie gewisse Schwierigkeiten damit, Ähnlichkeit zwischen Objekten zu erkennen, die sich in ihrer Ausrichtung im Raum, in ihrer Pose oder in ihrer Größe unterscheiden.

Styling, Posen und ausgefallene Perspektiven können die KI verwirren

Styling und kreative Perspektiven können zu Fehlern in der Bilderkennung führen

Wurde ein Artikel gedreht, mit einem ungewöhnlichen Zoom aufgenommen oder aus einem ausgefallenen Winkel fotografiert, besteht die Chance, dass dem CNN ein Fehler unterläuft.

Besonders häufig sind davon Produkte betroffen, die sich zwar vom Typ her gleichen, sich jedoch in ihrer Form stark unterscheiden. Ein Beispiel dafür sind Halsketten: Eine schlichte Gliederkette aus Gold erkennen neuronale Netzwerke nicht zuverlässig als eine nahe Verwandte der Perlenkette auf dem nächsten Foto.

Im Grunde stellt auch das kein unüberwindbares Hindernis dar: Wir können die KI schließlich gezielt auf diese Produkte trainieren. Das bedeutet jedoch, dass wir großen Aufwand betreiben müssen, weil wir der KI zum Beispiel Tausende von Bildern vorsetzen müssen, auf denen unterschiedliche Halsketten zu sehen sind.

Unser Gedanke war: Das muss auch leichter gehen. Umso begeisterter waren wir, als Geoffrey Hinton, einer der führenden Forscher auf dem Gebiet des Deep Learning, eine neue Art von neuronalem Netzwerk vorstellte. Sein „Capsule Network“ (CapsNet) stützt sich vor allem auf Posen, um Objekte zu identifizieren.

Für das Training von Capsule Networks verwendete Bilder

Ein Teil der für das Training der ersten Capsule Networks verwendeten Bilder (Vgl.: „Matrix Capsules With EM Routing“)

Kleine Spielzeugfiguren, jede einzeln vor einem weißen Hintergrund fotografiert – mal von vorn, mal von der Seite, mal von oben. Die Bilder, die Hinton und sein Team benutzten, um ihr Capsule Network zu trainieren, erinnern stark an die vielfältigen Inszenierungen der Artikel in Produktfotos.

Es ist bereits ein großer Schritt, dass neuronale Netzwerke nun auch Posen erkennen können. Aber das ist nicht die einzige Stärke der CapsNet. Im Vergleich zu CNN ist eine geringere Datenmenge erforderlich, um sie zu trainieren.

Das ermöglicht die schnellere Integration von KI in unterschiedlichste Arbeitsprozesse und beschleunigt gleichzeitig die Verbesserung bestehender Routinen. Für eine KI, die schnell lernt, bedeutet schließlich jedes bearbeitete Bild eine Gelegenheit, mehr über die abgebildeten Objekte zu lernen.

Auch das Team von Pixelz arbeitet und experimentiert inzwischen mit CapsNet. Wohin genau uns diese Reise führen und inwiefern diese verbesserte KI unsere Arbeitsabläufe verbessern wird, wissen wir noch nicht. Aber wir freuen uns darauf, es herauszufinden.

Wie du KI in deinen Workflow integrierst (Probiere es aus, die Testversion ist kostenlos)

Wir hoffen, du hattest Spaß dabei, zu entdecken, wie Pixelz künstliche Intelligenz nutzt, um Produktfotos zu bearbeiten. Vielleicht hast du eine neue Seite an KI entdeckt, die auch deine Arbeitswelt bereichert (und möglicherweise graut es dir jetzt auch ein bisschen weniger vor dem Supercomputer, der in naher Zukunft die Weltherrschaft an sich reißen könnte).

Wenn auch du künstliche Intelligenz nutzen möchtest, um deinen Workflow in der Bildbearbeitung zu vereinfachen, nimm Kontakt zu uns auf, hinterlasse einen Kommentar unter diesem Beitrag, schicke uns eine E-Mail oder komm uns in den sozialen Netzwerken besuchen.

Erzähle uns gern von deinen Ideen und von den Herausforderungen, mit denen du dich bei der Bildbearbeitung konfrontiert siehst. Was wir über KI wissen, das teilen wir gern. Und spätestens jetzt weißt du ja, dass wir großen Spaß daran haben, Probleme zu lösen.

Natürlich ist KI nicht für jede*n das Richtige: Es braucht Zeit und Ressourcen, um in das Thema einzutauchen. Wenn du deine eigene Marke hast oder Händler*in bist, verfügst du vermutlich nicht über die Menge an Bildern, die dein eigenes Entwicklerteam für die Nachbearbeitung mit KI benötigen würde.

Das bedeutet aber nicht, dass du es nicht testen kannst: Wir haben schließlich die notwendigen Datensätze und du kannst unser System S.A.W.™ jederzeit ausprobieren. Mit der Testversion von Pixelz Professional bekommst du 10 kostenlose Bildbearbeitungen – durchgeführt von unserer hauseigenen Kombination aus Expert*innen und KI.

Danke fürs Lesen.