Décrocher une certification GCP Data engineer

Introduction

Dans le cadre de mon travail sur Google Cloud Platform, j’ai eu la chance de passer la certification GCP Professional Data Engineer.

Le but de cet article est de vous partager mon expérience et le maximum de conseils possibles afin de se préparer au mieux à cette d’épreuve. Cette méthodologie peut s’adapter facilement aux autres certifications, seuls les sujets changent.

Je ne prétends pas avoir la meilleure méthode mais celle-ci fonctionne très bien pour moi. Certains concepts sont une évidence mais je tiens à les rappeler. En espérant que cela vous économisera du temps !

Avant de commencer, il va falloir savoir sur quel niveau de difficulté on se positionne :

une certification associate ou professional ?

L’examen

Associate ou Data engineer PRO ?

Si vous êtes débutants, je vous recommande de passer une Associate et de revenir dans 6 mois à 1 an pour la Professional. Sinon passez directement à la Professional.

Pour atteindre nos objectifs on va s’imposer un cadre afin de réussir une certification Professional en deux semaines voir une seule si vous avez beaucoup de temps.

Informations sur l’examen

Comme l’examen de 2 heures est en anglais, on a le droit à 30 min supplémentaires (que l’on doit réclamer).

Il coûte 200$ et l’inscription passera par ce site de certification. Vous pouvez changer les dates jusqu’à 48 heures avant l’examen.

Si vous le passez à Paris, je vous conseille le centre IBS car ils ont tous les créneaux horaires disponibles. Si vous arrivez 2 heures à l’avance et qu’ils ont des places, vous pourrez le passer en avance.

Attention aux modifications de dernière minute !

Quelques jours avant mon examen, un mail me notifie de changements dans son contenu. J’avance donc ma date d’examen pour ne pas avoir à subir cela :

notice-1

Le cadre de travail

Si on se fixe un objectif ambitieux d’une semaine, il est important d’optimiser notre environnement de travail.

Entreprise

Profitez d’une baisse d’activité et prévenez votre manager que vous avez besoin de lever le pied une à deux semaines en fonction de vos objectifs.

Vie privée

Prévenez vos proches que vous allez être très occupé durant quelques jours.

Environnement de travail

Un endroit calme et/ou un casque avec atténuation de bruit sera un bon départ pour une révision efficace. Il a été scientifiquement prouvé que d'écouter des musiques douces et sans paroles peut être stimulant pour réviser. (ex : cette playlist spotify)

Bien être

Il ne faut pas se négliger et garder une bonne hygiène de vie, faire du sport, bien manger et dormir. N’oubliez pas de faire régulièrement des pauses pour vous aérer l’esprit (ex : toutes les 2 heures).

Déroulement des révisions

Renseignement

Un collègue qui a déjà passé la certification est une mine d’or.

Si ce n’est pas le cas, on pourra comme moi se rabattre sur internet.

Planification

Avec toutes les informations que l’on a récoltées, on va pouvoir se faire un plan de révision.

Révisions

Il faut dérouler le plan de manière méthodique car cela nous met dans une dynamique de réussite et de travail. Par exemple si on se donne un à deux sujets par soir en 4/5 heures on peut le passer facilement en deux semaines.

Capitalisation

La capitalisation résume et consolide nos connaissances afin de les réutiliser plus tard. Par exemple, pour former des personnes en servant de support et de trame ou comparer rapidement des produits lors d’avant ventes.

Entrainement

On va s'entraîner pour l’examen avec des tests blancs afin de valider nos acquis.

Réservation

Je vais enfin pouvoir réserver l’examen une fois que je suis prêt.

Ressources

Liste et poids des sujets estimé (en mars 2019)**

GCP Service Service Function Certification Weight
Cloud Storage Unified object storage 2 %
Cloud SQL & Spanner Fully-managed SQL Database 4 %
Cloud Datastore NoSQL database (think adhoc storage) 2 %
Big Table NoSQL massive data big data service 16 %
Big Query Petabyte scale data warehouse 16 %
Pub/Sub Asynchronous messaging service 6 %
Cloud Dataproc Managed hadoop and spark 12 %
Cloud Dataflow Data Processing (Pipelines) 16 %
Tensorflow Machine learning language 20 %

** La certification a été mise à jour en avril 2019 en ajoutant redis et airflow managé + RGPD

Google

Google nous fournit des informations essentielles dans son Guide de certification. Gardez bien les examens blancs pour la fin car ils serviront à tester notre niveau. Ensuite, on peut trouver beaucoup d’informations intéressantes sur le Blog Big Data Google.

Enfin, une Chaîne Youtube GCP et les vidéos du google next.

Les MOOC (non exhaustif)

Il est inutile de tous les faire, par contre c’est intéressant de récupérer les quizz d'entraînement gratuits grâce à la période d’essai.

Nom du site Pour Contre Tips Prix
Linux Academy Meilleur contenu pour la certification data GCP. Les cartes pour réviser. Le data dossier. Le prix peut être un frein. Chère (49$ pour un mois)
Udemy 10 $ si on attend les promos de la semaine Contenu étoffé Traduction parfois mauvaise On peut se faire rembourser les cours qui ne nous conviennent pas (vérifier les CGV/CGU) Pas très

chère

Coursera Cursus présenté par des internes google Inégale dans les sujets (un coup trop poussé un coup pas assez) Ne prenez pas la version payante car gagner un badge ne sert à rien Gratuit
Cloud Guru Le quizz ? Ne couvre pas tous les sujets (pas suffisant pour se préparer) On utilise la période d’essai pour parcourir rapidement le cours et s'entraîner. Gratuit si période d’essai.

Ceux que j’ai préféré de haut en bas.

Les labs

Ils ne remplacent pas la pratique mais sont une bonne introduction aux produits GCP.

Notez qu’on peut utiliser des ateliers Qwicklabs aussi afin de faire des tests qui n’ont rien à voir avec le lab lancé. Le temps sera la seule limite.

Ces ateliers sont essentiels si on ne connaît pas la technologie. Cela permet aussi de récupérer des bouts de code pour nos futurs projets.

GCP essentials

Baseline: Data, ML, AI

Data Engineering

Attention toutefois : la plupart de ces scénarios ne sont pas adaptés pour la production !

GCP et le free tier

Si votre entreprise n’a pas de labo GCP où vous exercer, Google propose 300$ sur 12 mois en plus d’un gros free tier et garantit que vous ne serez jamais débité.

Présentation du free tier

Les conditions et limitations du free tier

Sources diverses

  • Les publications sur le sujet (Medium, Linkedin...)
  • Exemple de blog technique sur GCP
  • Exemple de GIT/cheat sheet de personnes ayant déjà passé l’examen
  • Les retours d’expérience sont toujours bons à prendre
    • Attention, certains auteurs sont imprécis voir même se trompent…
    • On va donc pondérer les avis afin d’arriver à une estimation de la difficulté
    • On n’y passera pas toute notre vie (Rabbit Hole).

Architecture

Dans le cas de la GCP data Professional comme beaucoup d’autres, seulement connaître la data ne suffit pas. Il faut avoir des connaissances de base d’architecture.

ex : (service de transfert de données, Transfer Appliance, mise en réseau cloud)

Bases Data Engineer à connaître

Hadoop, Spark, Mapreduce, Hive, Hbase, Pig, RDBMS, Indexing, hashing.

L’apprentissage

La méthode

Grâce au poids estimé des questions on va savoir quels sujets méritent plus d’attention que d’autres. On va dérouler la liste des sujets avec chaque fois doc Google et si besoin MOOC + labs en même temps qu’une prise de notes.

Personnellement, je retiens beaucoup mieux ce que j’écris c’est pourquoi une phase de capitalisation est importante. Si vous avez une mémoire photographique, ma méthode ne sera pas forcément la bonne pour vous.

La synthèse

La capitalisation va nous permettre de faire une synthèse des produits GCP suite à la certification. Mes fiches de révision me serviront dans mes futurs avant ventes et/ou formations.

On passe

Si un sujet vous semble non maîtrisé, mettez-le de côté et réessayez avec un autre canal d’apprentissage plus tard. Cela permet de ne pas perdre de temps.

L'entraînement

Faire les tests

On va savoir si on est prêt et Identifier nos lacunes afin d’y remédier. Les tests des MOOC sont à faire en premier et on finit par le test blanc de l’éditeur.

Méthodologie

Les QCM sont formatés de tel manière qu’on peut y répondre avec des mots clefs.

Avec une bonne fiche pense bête de toutes les solutions on y répondra très facilement.

You are designing a relational data repository on Google Cloud to grow as needed. The data will be transactionally consistent and added from any location in the world. You want to monitor and adjust node count for input traffic,which can spike unpredictably. What should you do?

A. Use Cloud Spanner for storage. Monitor storage usage and increase node count if more than 70% utilized.

B. Use Cloud Spanner for storage. Monitor CPU utilization and increase node count if more than 70% utilized for your time span.

C. Use Cloud Bigtable for storage. Monitor data stored and increase node count if more than 70% utilized.

D. Use Cloud Bigtable for storage. Monitor CPU utilization and increase node count if more than 70% utilized for your time span.
  • En moins de 5 secondes je déduis ceci grâce à la première phrase :

  • transactionally consistent + any location in the world = globally scalable transactions=Cloud Spanner

    Cela nous limite à A et B avec la première.

  • La secondes phrase va aiguiller notre choix final :

  • adjust node count for input traffic = monitor CPU car le disque n’aura aucun impact sur le trafic.

Voici un exemple d’une partie de ma fiche pense bête (ici Cloud Spanner) :

Use Services Like Use case Structure When ? IAM
Cloud Spanner RDBMS distributed highly scalable - RDBMS > 10 TB Global.

- Horizontal scaling with high transactions consistency (no trade-off)

- High Availability with automatic replication and failover.

- Database, tables, columns, rows, PK (unique ID)

-Strong Typed schema (database and schema have data types)

- Interleaved tables with indexes

- One mandatory PK + only one other index max.

- Distributed OLTP

- ACID ++ (typed schemas)

Project, instance and database

Je passe

Gardez de côté les questions où vous hésitez ou mettez plus de 30 secondes à répondre. Cela permet de continuer d’y réfléchir inconsciemment tout en se donnant une chance de trouver une réponse plus loin dans le test.

En effet, certaines réponses à d’autres questions ou d’autres questions sur le même sujet peuvent contredire ou confirmer une réponse passée. Cela nous aidera pour valider nos choix.

Cadence et réussite

Si vous n’arrivez pas en moyenne à répondre en moins de 30 sec pour chaque question c’est que vous n’êtes pas prêts ! Il faut acquérir plus d’automatismes afin de répondre du tac-o-tac.

Si vous n’arrivez pas à avoir 3 examens blancs de suite à 90 % c’est que vous n’êtes pas prêts.

Réservation

Quand vous êtes prêt il faut réserver le plus rapidement possible un créneau d’examen. Si on habite loin, on n’hésite pas à prendre un hôtel près du centre pour être frais le lendemain.

Le jour J

Ça y est c’est le grand jour !

Première règle facile à dire, on ne stresse pas. On a seulement le droit d’être stressé pour ne rien oublier le jour J (2 pièces d’identité etc…) et/ou ne pas louper son moyen de transport.

Ce n’est pas le moment de réviser ! Relire vos supports ne sert plus à rien. On peut si on a le temps s’autoriser un dernier quizz histoire de se chauffer un peu.

Accordez-vous une bonne marge de sécurité. Prenez vos dispositions avant l’examen histoire de ne pas casser votre rythme durant l'épreuve.

Le final

Et voilà c’est marqué «Pass» et vous l’avez eu !

Google se donne le droit de crawler internet et de voir à travers les caméras du centre d’examen. En cas de triche, vous serez interdit de passage de certification pendant x temps.

Vous recevrez un mail 3 à 5 jours plus tard ainsi qu’un voucher pour la boutique GCP (pulls, T-shirts, sacs). Ne rêvez pas trop, ils sont tout le temps en rupture.

On peut capitaliser toutes nos documentations. Cela nous sert de base de faire des formations et/ou avant ventes plus tard.

Conclusion

  • Faites des révisions sérieuses ne vous laissez pas distraire.
  • Ne perdez pas votre temps sur internet.
  • Trouvez la méthode de travail qui vous convient.
  • Mettez en place rapidement un plan de révision et suivez-le.
  • Maîtrisez votre temps pendant la révision et durant l’examen !
  • Enchainer facilement les questions.
  • Soyez prêts le jour J pour ne pas stresser inutilement.
  • Essayez au maximum de réutiliser votre travail plus tard.
  • N’arrêtez jamais d’apprendre !