Avertissement : site en construction
Contact
Contact
Retour à toutes les études de cas

Système de publicité ciblée et API construits dans un environnement cloud AWS

Targeted advertising system & API
Détails clés

Performances des campagnes publicitaires accrues et coûts publicitaires réduits de 54 %.

  • Défi
    Système scalable pour traiter les données, télécharger des pages web avec des restrictions d'accès, et créer des groupes d'utilisateurs pertinents pour les campagnes
  • Solution
    système autonome d'analyse des données utilisateur, de priorisation des pages web et d'analyse sémantique
  • Technologies et outils
    Environnement cloud AWS, AWS S3, Amazon RDS, fonctions AWS Lambda, AWS SageMaker, AWS SQS, Memcached, Python, Hugging Face, Github

Client

Plateforme cliente est une plateforme de publicité digitale alternative aux annonces de recherche traditionnelles. Elle offre des solutions de suivi sans cookies en utilisant des données first party côté client, conformes à toutes les principales réglementations de protection des données telles que GDPR, PDPA, CASL et CCPA.

Le client a initialement contacté DataSqueeze avec une demande de développer un algorithme d'apprentissage automatique qui, pour un ensemble de mots-clés donné, identifie les utilisateurs les plus pertinents en fonction des sites qu’ils ont visités auparavant.

Défi : Système évolutif pour traiter les données, télécharger des pages web avec restrictions d'accès et créer des groupes d'utilisateurs pertinents pour les campagnes

L'équipe DataSqueeze a été chargée de développer une solution robuste Solution d'analyse sémantique NLP qui peut télécharger et analyser des millions de pages web visitées par les utilisateurs. La solution doit rapidement identifier et fournir à la plateforme publicitaire du client les segments d'utilisateurs les plus pertinents par rapport aux mots-clés spécifiés pour les campagnes publicitaires.

Construire un système de publicité ciblée pour l'optimisation efficace des campagnes publicitaires et analyse sémantique de textes nécessitait de résoudre de nombreux défis techniques, notamment :

  • Traitement scalable de grands volumes de données utilisateurs, arrivant chaque heure. Le volume mensuel estimé est d’environ 50 To, soit près d’un milliard d’événements.
  • Identification des pages web les plus prioritaires à télécharger. Comme le téléchargement est un processus long et coûteux, nos ingénieurs ont dû réduire ce nombre au minimum.
  • Téléchargement des pages web. Cela a nécessité la création d'un système fiable permettant de télécharger des pages depuis différentes régions et avec différentes restrictions d'accès.
  • Mise à jour des segments en temps réel. En raison de l’énorme quantité de data, la base de données relationnelle n’a pas pu gérer cela dans le délai requis.
  • Calcul des embeddings pour les pages téléchargées. La tâche principale était de trouver un équilibre entre la vitesse de calcul et la qualité des embeddings.
  • Coûts de maintenance. Le client souhaitait créer un système avec des coûts de maintenance mensuels limités.

Solution : Système autonome pour l'analyse des données utilisateurs, la priorisation des pages web et l'analyse sémantique

La tâche consistait à construire un système autonome en utilisant AWS Environnement Cloud et plusieurs produits open source qui communiquent avec la plateforme publicitaire du client via API.

Nous avons analysé en profondeur les besoins et exigences du client. Le projet a été scindé en trois phases :

  • Preuve de concept (PoC) – vérifier l'idée que l'apprentissage automatique peut être utilisé pour la publicité ciblée
  • Produit minimum viable (MVP) – construire le pipeline de données de bout en bout, du traitement des données utilisateur à la création des segments d'utilisateurs
  • Système scalable – rendre la solution scalable et la connecter à la plateforme publicitaire du client via une API.

Voici quelques détails techniques du projet :

  • Le stockage des données utilisateur d'entrée et des segments utilisateur de sortie a été organisé à l'aide de compartiments AWS S3 publics et privés
  • Pour traiter la Big Data plus rapidement et suivre le flux des données entrantes, nous avons utilisé la mise en cache pour filtrer les enregistrements des visites utilisateurs
  • Pour rendre le système plus résilient, nous avons utilisé une approche de couplage lâche en utilisant la file de messages AWS SQS
  • Pour résoudre le problème de mise à jour lente des segments d’utilisateurs, nous avons stocké les segments non pas dans RDS, mais dans Amazon Elastic Block Storage (EBS)
  • Nous avons atteint la scalabilité dans plusieurs parties du système (traitement des données historiques des utilisateurs, téléchargement des pages web et calcul des embeddings)
  • Pour accélérer le calcul des embeddings sur des instances EC2, nous avons créé notre propre code d’inférence dans SageMaker, et aussi Utilisé AWS option d’auto-scaling
  • L'API client a été mise en œuvre via des fonctions AWS Lambda.

Le Proof of Concept a été complété en 2 mois par l'équipe de 3 personnes : un Chef de projet, un Data Scientist,
et un/une AWS Data Engineer.

L'étape MVP a été complétée en 3 mois par l'équipe de 3 personnes : un Chef de projet, un Data Scientist, et un Ingénieur données AWS. La phase du système scalable a été achevée en 2 mois par une équipe de 4 personnes : un chef de projet, un Data Scientist, un ingénieur logiciel et un ingénieur de données `AWS`.

AWS Cloud Environment

Résultat : Augmentation des performances des campagnes publicitaires

Notre équipe a construit un système qui permet au client de créer des segments d'utilisateurs pertinents pour ses campagnes publicitaires, de surveiller la performance des campagnes publicitaires, augmentant ainsi leur efficacité. Le système construit est évolutif et leur permet d'augmenter/diminuer le nombre de travailleurs dans différentes parties du système si nécessaire.

Le test en conditions réelles réalisé par le client a montré que l'utilisation de ce système a réduit les coûts publicitaires de 54%.

Mots-clés :
  • Marketing et Publicité
  • Apprentissage automatique
  • Business Intelligence
  • NLP
  • Mégadonnées

Commencez dès aujourd'hui avec l'IA pour Entreprises

Parlons de votre projet.

En cliquant sur Envoyer le message, vous acceptez nos Conditions d'utilisation et Politique de confidentialité.