Direkt zum Inhalt
KI & Machine Learning

Chefkoch bringt mit Texterkennung handschriftliche Rezepte in die Cloud

6. Dezember 2021
https://storage.googleapis.com/gweb-cloudblog-publish/images/cooking_hero.max-2000x2000.jpg
Anant Nawalgaria

Senior Machine Learning Specialist Engineer, Google

Lisa-Philine Tsakiris

Full Stack Developer, Chefkoch

GCP testen

Profitieren Sie von einem 300 $-Guthaben, um Google Cloud und mehr als 20 zu jeder Zeit kostenlose Produkte kennenzulernen.

JETZT TESTEN

Hinweis der Redaktion: Chefkoch.de serviert Familienrezepte auf einer Technologieplattform des 21. Jahrhunderts. Google liefert dazu eine skalierbare, innovative Lösung auf Basis seiner Google Cloud-Dienste. 

Von Sonntagsbraten bis Weihnachtsplätzchen – in vielen Familien gibt es hochgeschätzte Rezepte, die von Generation zu Generation weitergegeben werden. Häufig ist dieser kulinarische Nachlass aber bloß handschriftlich oder gedruckt auf Papier festgehalten. Chefkoch.de wollte seinen Nutzerinnen und Nutzern die Möglichkeit bieten, diese wertvollen Rezepte schnell und einfach zu analysieren und zu digitalisieren. Google Cloud-Funktionen für erweiterte Analysen und Machine Learning (ML) sollten dazu beitragen, dass diese Rezepte in digitaler Form unkompliziert geteilt und angesehen werden können.

Im Vorfeld hatte Chefkoch zunächst umfassende weltweite Marktforschung betrieben, um herauszufinden, welche neuen Funktionalitätsmerkmale für die Weiterentwicklung der Website am wichtigsten wären. Das Unternehmen identifizierte branchenspezifische Best Practices, analysierte verschiedene Geschäftsmodelle und die neuesten Trends in der Lebensmitteltechnologie. Danach untersuchte das Team, wer die Chefkoch-Website aus welchen Gründen verwendet. All diese Daten gingen in ein Kano-Modell ein, das verschiedene Funktionalitätsmerkmale in der Reihenfolge ihrer wahrscheinlichsten Relevanz priorisierte. 

An der Spitze der so entstandenen Liste stand das personalisierbare Kochbuch, in dem die Chefkoch-Nutzer*innen ihre liebsten Rezepte speichern, sortieren und verwalten können. Zukünftig sollten sie hier jedes beliebige Rezept speichern können – auch solche, die bisher nur auf Papier vorhanden waren. „Die Herausforderung bestand darin, den Text – ob handschriftlich oder gedruckt – zu extrahieren und dann den Titel, die Zutatenliste und die Hinweise für die Zubereitung voneinander zu trennen“, erklärt Tim Adler, CTO von Chefkoch.

APIs lesen Rezepte

Das Team von Chefkoch testete verschiedene Tools zum Importieren von Texten. Im Mai 2021 fiel dann die Entscheidung, die ML-Dienste von Google Cloud sowie Google Cloud Functions zu nutzen. Letztere bieten skalierbare Functions as a Service (FaaS) mit einer Reihe von APIs, die es ermöglichen, Code ohne Serververwaltung auszuführen. 

„Wir haben alle Softwareanbieter für die Erkennung von gescannten handschriftlichen Texten unter die Lupe genommen“, erzählt Adler weiter. „Das Angebot von Google überzeugte uns. Nicht nur weil die APIs einfach zu verwenden und gut dokumentiert sind, sondern auch wegen der überzeugenden Konzeptdemonstration, bei dem das Google Team unsere eigenen Testdaten verwendete.“

https://storage.googleapis.com/gweb-cloudblog-publish/images/pilot_architecture_on_gcp.max-1800x1800.jpg

Das Team von Chefkoch beschloss, für die neue Lösung zum Lesen von Rezepten die Vision- und Natural Language-Dienste von Google Cloud zu nutzen. Diese funktionieren geräteübergreifend und lassen sich kostengünstig skalieren. Wie im Diagramm oben zu sehen, nutzt das Tool die optische Zeichenerkennung (OCR) der Cloud Vision API. Diese ist für das Erkennen von Texten in deutscher und englischer Sprache optimiert und ermöglicht das Extrahieren handschriftlicher oder gedruckter Vorlagen. Anschließend setzt die Lösung die Modelle 1 und 2 der AutoML Natural Language-Entitätsextraktion sowie die Cloud Natural Language API ein, um die verschiedenen Bereiche eines Rezepts zu identifizieren und voneinander zu trennen. Die so entstandene Darstellung eines Rezepts am Bildschirm sehen Sie unten.

https://storage.googleapis.com/gweb-cloudblog-publish/images/recipe.max-2000x2000.jpg

Chefkoch und Google arbeiteten eng zusammen, um die Lösung zu optimieren. Zu Beginn erstellte das Team von Google eine Demo, um den Projektbeteiligten von Chefkoch zu erklären, wie die einzelnen Komponenten ineinandergreifen – etwa, wie ein Dataset strukturiert sein muss, um nach dem Modelltraining die gewünschten Ergebnisse weiter zu verbessern. Sie stellten eine lauffähige Demoversion einer voll funktionierenden API vor, die das Bild eines handschriftlichen oder gedruckten Rezepts verarbeitet und ein digitales Dokument ausgibt, in dem die verschiedenen Teile des Rezepts sauber extrahiert und voneinander getrennt sind.

Die neue Möglichkeit zum Digitalisieren von Offlinerezepten testet Chefkoch derzeit im Kochbuch. „Wir arbeiten daran, die Produktlösung zu verbessern, zu erweitern und produktionsreif zu machen“, erklärt dazu Adler.

Am Rezept feilen 

Die Ergebnisse erster Tests sind ermutigend – das OCR-Feature erhält fast ausschließlich Bestnoten von den Nutzer*innen. Aufgrund des Feedbacks hat das Chefkoch Team bereits kleinere Änderungen am Training des Modells vorgenommen, um es besser an die Anforderungen der Zielgruppe anzupassen. Das Tool mit dem inoffiziellen Namen Handwritten Recipe Parser kann nun kontextabhängig Rechtschreibfehler erkennen, beispielsweise wenn in einem Rezept „Bären“ statt „Beeren“ steht.

Analog-zu-Digital-Angebot

Es gibt Pläne, den Handwritten Recipe Parser noch um weitere Funktionen zu ergänzen. Aktuell entwickeln die Mitarbeiter*innen von Chefkoch eine Funktion für das manuelle Bereitstellen von Rezepten. Auf diese Weise können Nutzer*innen eigene Rezeptbilder hochladen und den Titel, die Zutatenliste und die Zubereitungshinweise selbst hinzufügen. Auch für das Hinzufügen von Texten und handschriftlichen Notizen zu bestehenden Chefkoch-Rezepten ist in Planung. 

Weitere Informationen zu Cloud AutoML und zur Vision API finden Sie auf unserer Website.

Gepostet in