Weiter zum Inhalt

Botify bringt Amazon Sagemaker Pipelines auf die nächste Stufe

Le Bon Coin, Expedia, Glassdoor, Deezer, The New York Times, L'Oréal... Alle diese Unternehmen haben gemeinsam große Mengen an Webseiten zu verwalten:

Um ihre SEO in Suchmaschinen zu optimieren, verwenden sie Botify: Das Unternehmen crawlt 5 Milliarden Seiten pro Monat und mehr als 2 Petabyte an Daten. Um die Entwicklungs- und Produktionszeit seiner Machine Learning-Modelle zu beschleunigen, arbeitete das Data Science-Team von Botify mit Devoteam A Cloud zusammen, um eine Lösung zu entwickeln, die auf Amazon SageMaker-Pipelines basiert.

Dieser Artikel enthält einen Überblick über den Vortrag „Take Amazon Sagemaker Pipelines to the next level“, der auf dem AWS Paris Summit am 12. April 2022 von Yanal Wazaefi (Botify), Fabien Lallemand (Devoteam) und Jamal Aourraz (Devoteam) gehalten wurde. Wie Yanal Wazaefi, Head of Data Science Botify, erklärte, hatten Suchmaschinen in den letzten Jahren Schwierigkeiten, alle Webseiten zu identifizieren. Der Inhalt ist explodiert und Suchmaschinen hatten Schwierigkeiten, den dynamischen Inhalt von Seiten zu interpretieren. Einige Webseiten von Le Bon Coin, Carrefour oder Fnac Darty haben Dutzende von Millionen von Seiten. Botify bietet diesen Unternehmen Lösungen, um ihre Websites technisch zu optimieren, die Indexierung zu erleichtern und somit die natürliche Referenzierung oder Suchmaschinenoptimierung (SEO) zu optimieren.

Beschleunigen Sie Modellversionen

Die Data Scientist-Teams von Botify arbeiten daran, intelligente Empfehlungen zu generieren und SEO mithilfe von Algorithmen für maschinelles Lernen, Natural Language Processing oder erweiterten Statistiken zu optimieren. Der Projektzyklus ist relativ klassisch: Datenwissenschaftler erforschen und prototypisieren Prototypen in Jupyter-Notebooks, validieren dann ihre Ergebnisse mit Geschäfts- und SEO-Experten und arbeiten dann mit den Ingenieuren zusammen, die für die Integration dieser Lösungen in Workflows verantwortlich sind, die auf dem AWS Simple Workflow-Service basieren. Dieser Projektzyklus konnte bis zu mehreren Monaten dauern und das Botify-Team wollte schneller und in der Lage sein:

  • Iterieren, um neue Modelle zu testenSkalierbarkeit
  • Mehrere Umgebungen
  • Implementierung von Continuous Integration
  • Überwachen von Pipelines
  • Verfolgen der Modellleistung

Das Unternehmen wandte sich an Devoteam, um eine Lösung für diese Probleme zu finden.

Yanal Wazaefi, Leiter Data Science Botify

Die Einschränkungen des maschinellen Lernens in der Produktion

Für Fabien Lallemand von Devoteam gilt es zu klären, was unter „maschinellem Lernen in der Produktion“ zu verstehen ist. Viele Unternehmen denken, dass sie Machine Learning (ML) in der Produktion mit einem Anwendungsfall haben, der auf der Workstation eines Data Scientist ausgeführt wird, aber meistens müssen viele Aktionen, wie z. B. die Wiederherstellung von Funktionen, manuell ausgeführt werden.

Wir werden hier über Produktion im IT-Sinne sprechen. Drei separate Teams: Data Scientists, Software Engineers und Ops sind in dieser Phase des Projekts beteiligt; mit unterschiedlichen und manchmal entgegengesetzten Zielen und dennoch auf ein gemeinsames Ziel hinarbeitend. Die Schwierigkeit besteht darin, diese Aufteilung der Einschränkungen zwischen den verschiedenen Parteien zu bewältigen.

Dies ist das Konzept von ML Ops:

Im Falle einer traditionellen Machine-Learning-Pipeline war das Hauptproblem, das während des Übergangs in die Produktion auftrat, die Skalierbarkeit: Was mit einem kleinen Datensatz funktionierte, wurde nicht mehr mit allen Daten in der Produktion übergeben. Heute wird dieser Punkt von den meisten Algorithmen nativ verwaltet, aber es gibt immer noch vier Punkte, die angesprochen werden müssen:

  • Integration in das IT-Ökosystem: Wie man den Algorithmus zu einer Anwendung macht.
  • Die Aufbereitung der Daten: Die Funktion wird zum Zeitpunkt des Trainings des Modells verwendet, aber auch zum Zeitpunkt der Echtzeit-Inferenz, bei der die Antwortzeiten viel kürzer sein müssen.
  • Leistungserkennung: um Leistungseinbußen des Modells in der Produktion zu erkennen, die auf externe Ursachen zurückzuführen sind (z. B. die Erkennung von Gesichtern, die aufgrund von Covid-Masken nicht mehr funktionieren)
  • Die Standardisierung und Verallgemeinerung der ML-Pipeline.

Zu diesem letzten Punkt bringt Amazon SageMaker Pipelines eine Standardisierung mit sich und ermöglicht es, einen überwachten oder unüberwachten Algorithmus auf die gleiche Weise oder beispielsweise einen Anwendungsfall für die Bilderkennung zu behandeln. Alles wird mit der gleichen Schnittstelle verpackt und wird daher eine homogene Lieferpipeline haben.

„Amazon SageMaker Pipelines bringt Standardisierung und ermöglicht die gleiche Behandlung eines überwachten oder unbeaufsichtigten Algorithmus“

Lösungsarchitektur

Welche AWS-Komponenten wurden verwendet, um den Bedarf an Botify zu decken?
Das Ökosystem basiert auf Amazon SageMaker und insbesondere auf SageMaker-Pipelines und SageMaker Model Registry. Dieses Projekt, das 2021 durchgeführt wurde, war eines der ersten in Frankreich, das die Vorteile von Sagemaker Pipelines nutzte. SageMaker Pipelines ist die ML Ops-Lösung von AWS, die DevOps-Praktiken und -Prozesse in das maschinelle Lernen integriert.

Die rund um Amazon SageMaker Pipelines entwickelte Lösung hat es ermöglicht, die Ziele von Botify zu erreichen:

  • Skalierbarkeit sicherstellen
  • Verkürzung der Produktionszeit
  • Stärkung von Datenwissenschaftlern

Heute hat das Data Botify-Team seine Belegschaft verdreifacht und konnte seinen Lösungen mehr als 100 „intelligente Funktionen“ hinzufügen.