arrow_back

Procéder à l'ingénierie des données pour la modélisation prédictive avec BigQuery ML : atelier challenge

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Procéder à l'ingénierie des données pour la modélisation prédictive avec BigQuery ML : atelier challenge

Lab 1 heure universal_currency_alt 5 crédits show_chart Intermédiaire
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

GSP327

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

Dans un atelier challenge, vous devez suivre un scénario et effectuer une série de tâches. Aucune instruction détaillée n'est fournie : vous devez utiliser les compétences acquises au cours des ateliers de la quête correspondante pour déterminer comment procéder par vous-même. Vous saurez si vous avez exécuté correctement les différentes tâches grâce au score calculé automatiquement (affiché sur cette page).

Lorsque vous participez à un atelier challenge, vous n'étudiez pas de nouveaux concepts Google Cloud. Vous allez approfondir les compétences précédemment acquises. Par exemple, vous devrez modifier les valeurs par défaut ou encore examiner des messages d'erreur pour corriger vous-même les problèmes.

Pour atteindre le score de 100 %, vous devez mener à bien l'ensemble des tâches dans le délai imparti.

Cet atelier est recommandé aux participants inscrits au cours Engineer Data for Predictive Modeling with BigQuery ML et qui veulent obtenir le badge de compétence associé. Êtes-vous prêt pour le challenge ?

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Pour réaliser cet atelier :

  • vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
  • vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier afin d'éviter que des frais supplémentaires ne vous soient facturés.

Scénario du challenge

Vous venez de décrocher un poste d'ingénieur de données chez TaxiCab Inc. Vous devez importer des données de l'historique dans un ensemble de données de travail BigQuery, et créer un modèle de base qui prédit le prix de la course sur la base des informations disponibles lorsqu'une nouvelle course commence. La direction souhaiterait créer une application permettant à ses utilisateurs d'estimer le prix de la course. Les données sources seront fournies dans votre projet.

Vous êtes censé disposer des compétences et connaissances requises pour ces tâches. Ne vous attendez donc pas à vous recevoir des instructions détaillées.

Votre challenge

À peine assis à votre bureau et votre nouvel ordinateur portable ouvert, vous recevez votre première mission : créer un modèle de prédiction BigQuery ML de base pour la direction. Effectuez les tâches suivantes afin d'importer et de nettoyer les données. Créez ensuite le modèle et faites des prédictions par lots avec les nouvelles données afin que la direction puisse évaluer les performances du modèle, et décider de l'adopter ou non lors du déploiement de la fonctionnalité de l'application.

Tâche 1 : Nettoyer vos données d'entraînement

Vous avez déjà terminé la première étape en créant l'ensemble de données taxirides et en important les données historiques dans la table historical_taxi_rides_raw. Ces données correspondent aux courses datant d'avant 2015.

Remarque : Vous devrez peut-être patienter une à trois minutes pour que toutes les données soient insérées dans votre projet.

Pour réaliser cette tâche :

  • Nettoyez les données dans historical_taxi_rides_raw et copiez-les dans , qui fait partie du même ensemble de données. Vous pouvez créer cette table et nettoyer les données à l'aide de BigQuery, Dataprep ou Dataflow, par exemple. Assurez-vous que la colonne cible porte le nom .

Astuces :

  • Commencez par consulter l'ensemble de données source qui s'affiche dans l'UI BigQuery pour vous familiariser avec le schéma source.
  • Pour vous faire une idée des données disponibles au moment de la prédiction, consultez la table taxirides.report_prediction_data, qui indique le format dans lequel seront les données lors de la prédiction.

Tâches de nettoyage de données :

  • Assurez-vous que la valeur de trip_distance est supérieure à .
  • Supprimez les lignes où la valeur de fare_amount est très faible (moins de  $, par exemple).
  • Assurez-vous que les latitudes et longitudes conviennent pour ce cas d'utilisation.
  • Assurez-vous que la valeur de passenger_count est supérieure à .
  • Assurez-vous d'ajouter tolls_amount et fare_amount à en tant que variable cible puisque "total_amount" comprend les pourboires.
  • L'ensemble de données source étant volumineux (plus d'un milliard de lignes), échantillonnez-le afin de réduire son nombre de lignes à moins d'un million.
  • Ne copiez que les champs qui seront utilisés dans votre modèle (vous pouvez vous baser sur report_prediction_data).

Cliquez sur Vérifier ma progression pour valider l'objectif. Créer une copie nettoyée des données dans

Tâche 2 : Créer un modèle BigQuery ML

  1. En vous basant sur les données de , créez un modèle BigQuery ML prédisant la valeur de .

  2. Appelez le modèle .

Remarque : Pour cette tâche, votre modèle doit avoir une RMSE inférieure ou égale à 10.

Astuces :

  • Vous pouvez encapsuler toutes les transformations de données supplémentaires dans la clause TRANSFORM().
  • Gardez à l'esprit que seules les caractéristiques de la clause TRANSFORM() seront transmises au modèle. Vous pouvez utiliser la requête *EXCEPT(feature_to_leave_out) pour transmettre la totalité, ou une partie des fonctionnalités sans avoir à les appeler explicitement.
  • Les fonctions SIG ST_distance() et ST_GeogPoint() de BigQuery vous permettent de calculer facilement les distances euclidiennes (c'est-à-dire la distance parcourue par le taxi de la montée à la descente du véhicule) :
ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean

Cliquez sur Vérifier ma progression pour valider l'objectif. Créer un modèle BigQuery ML intitulé avec une RMSE inférieure ou égale à 10

Tâche 3 : Effectuer une prédiction par lot sur les nouvelles données

La direction souhaite connaître les performances de votre modèle par rapport à ces nouvelles données, à savoir ici toutes les données collectées en 2015. Ces données se trouvent dans taxirides.report_prediction_data. Seules les valeurs connues au moment de la prédiction sont incluses dans cette table.

  • Utilisez ML.PREDICT ainsi que votre modèle afin de prédire la valeur de , puis stockez les résultats dans une table intitulée 2015_fare_amount_predictions.

Cliquez sur Vérifier ma progression pour valider l'objectif. Effectuer des prédictions par lots et stocker les résultats dans une nouvelle table 2015_fare_amount_predictions

Félicitations !

Badge "Engineer Data for Predictive Modeling with BigQuery ML"

Gagnez un badge de compétence

Cet atelier d'auto-formation fait partie du cours Engineer Data for Predictive Modeling with BigQuery ML. Si vous terminez ce cours, vous obtiendrez le badge de compétence ci-dessus attestant de votre réussite. Ajoutez votre badge à votre CV et partagez-le sur les réseaux sociaux en utilisant le hashtag #GoogleCloudBadge.

Ce badge de compétence est associé au parcours de formation Data Engineer de Google Cloud. Si vous avez déjà terminé les autres cours de ce parcours de formation, explorez le catalogue pour découvrir d'autres cours auxquels vous pouvez vous inscrire pour gagner un badge de compétence.

Formations et certifications Google Cloud

Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.

Dernière mise à jour du manuel : 25 mars 2024

Dernier test de l'atelier : 11 septembre 2023

Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.