Introduction
Dans le cadre de mon travail sur Google Cloud Platform, j’ai eu la chance de passer la certification GCP Professional Data Engineer.
Le but de cet article est de vous partager mon expérience et le maximum de conseils possibles afin de se préparer au mieux à cette d’épreuve. Cette méthodologie peut s’adapter facilement aux autres certifications, seuls les sujets changent.
Je ne prétends pas avoir la meilleure méthode mais celle-ci fonctionne très bien pour moi. Certains concepts sont une évidence mais je tiens à les rappeler. En espérant que cela vous économisera du temps !
Avant de commencer, il va falloir savoir sur quel niveau de difficulté on se positionne :
une certification associate ou professional ?
L’examen
Associate ou Data engineer PRO ?
Si vous êtes débutants, je vous recommande de passer une Associate et de revenir dans 6 mois à 1 an pour la Professional. Sinon passez directement à la Professional.
Pour atteindre nos objectifs on va s’imposer un cadre afin de réussir une certification Professional en deux semaines voir une seule si vous avez beaucoup de temps.
Informations sur l’examen
Comme l’examen de 2 heures est en anglais, on a le droit à 30 min supplémentaires (que l’on doit réclamer).
Il coûte 200$ et l’inscription passera par ce site de certification. Vous pouvez changer les dates jusqu’à 48 heures avant l’examen.
Si vous le passez à Paris, je vous conseille le centre IBS car ils ont tous les créneaux horaires disponibles. Si vous arrivez 2 heures à l’avance et qu’ils ont des places, vous pourrez le passer en avance.
Attention aux modifications de dernière minute !
Quelques jours avant mon examen, un mail me notifie de changements dans son contenu. J’avance donc ma date d’examen pour ne pas avoir à subir cela :
Le cadre de travail
Si on se fixe un objectif ambitieux d’une semaine, il est important d’optimiser notre environnement de travail.
Entreprise
Profitez d’une baisse d’activité et prévenez votre manager que vous avez besoin de lever le pied une à deux semaines en fonction de vos objectifs.
Vie privée
Prévenez vos proches que vous allez être très occupé durant quelques jours.
Environnement de travail
Un endroit calme et/ou un casque avec atténuation de bruit sera un bon départ pour une révision efficace. Il a été scientifiquement prouvé que d'écouter des musiques douces et sans paroles peut être stimulant pour réviser. (ex : cette playlist spotify)
Bien être
Il ne faut pas se négliger et garder une bonne hygiène de vie, faire du sport, bien manger et dormir. N’oubliez pas de faire régulièrement des pauses pour vous aérer l’esprit (ex : toutes les 2 heures).
Déroulement des révisions
Renseignement
Un collègue qui a déjà passé la certification est une mine d’or.
Si ce n’est pas le cas, on pourra comme moi se rabattre sur internet.
Planification
Avec toutes les informations que l’on a récoltées, on va pouvoir se faire un plan de révision.
Révisions
Il faut dérouler le plan de manière méthodique car cela nous met dans une dynamique de réussite et de travail. Par exemple si on se donne un à deux sujets par soir en 4/5 heures on peut le passer facilement en deux semaines.
Capitalisation
La capitalisation résume et consolide nos connaissances afin de les réutiliser plus tard. Par exemple, pour former des personnes en servant de support et de trame ou comparer rapidement des produits lors d’avant ventes.
Entrainement
On va s'entraîner pour l’examen avec des tests blancs afin de valider nos acquis.
Réservation
Je vais enfin pouvoir réserver l’examen une fois que je suis prêt.
Ressources
Liste et poids des sujets estimé (en mars 2019)**
GCP Service | Service Function | Certification Weight |
Cloud Storage | Unified object storage | 2 % |
Cloud SQL & Spanner | Fully-managed SQL Database | 4 % |
Cloud Datastore | NoSQL database (think adhoc storage) | 2 % |
Big Table | NoSQL massive data big data service | 16 % |
Big Query | Petabyte scale data warehouse | 16 % |
Pub/Sub | Asynchronous messaging service | 6 % |
Cloud Dataproc | Managed hadoop and spark | 12 % |
Cloud Dataflow | Data Processing (Pipelines) | 16 % |
Tensorflow | Machine learning language | 20 % |
** La certification a été mise à jour en avril 2019 en ajoutant redis et airflow managé + RGPD
Google nous fournit des informations essentielles dans son Guide de certification. Gardez bien les examens blancs pour la fin car ils serviront à tester notre niveau. Ensuite, on peut trouver beaucoup d’informations intéressantes sur le Blog Big Data Google.
Enfin, une Chaîne Youtube GCP et les vidéos du google next.
Les MOOC (non exhaustif)
Il est inutile de tous les faire, par contre c’est intéressant de récupérer les quizz d'entraînement gratuits grâce à la période d’essai.
Nom du site | Pour | Contre | Tips | Prix |
Linux Academy | Meilleur contenu pour la certification data GCP. Les cartes pour réviser. Le data dossier. | Le prix peut être un frein. | Chère (49$ pour un mois) | |
Udemy | 10 $ si on attend les promos de la semaine Contenu étoffé | Traduction parfois mauvaise | On peut se faire rembourser les cours qui ne nous conviennent pas (vérifier les CGV/CGU) | Pas très
chère |
Coursera | Cursus présenté par des internes google | Inégale dans les sujets (un coup trop poussé un coup pas assez) | Ne prenez pas la version payante car gagner un badge ne sert à rien | Gratuit |
Cloud Guru | Le quizz ? | Ne couvre pas tous les sujets (pas suffisant pour se préparer) | On utilise la période d’essai pour parcourir rapidement le cours et s'entraîner. | Gratuit si période d’essai. |
Ceux que j’ai préféré de haut en bas.
Les labs
Ils ne remplacent pas la pratique mais sont une bonne introduction aux produits GCP.
Notez qu’on peut utiliser des ateliers Qwicklabs aussi afin de faire des tests qui n’ont rien à voir avec le lab lancé. Le temps sera la seule limite.
Ces ateliers sont essentiels si on ne connaît pas la technologie. Cela permet aussi de récupérer des bouts de code pour nos futurs projets.
Attention toutefois : la plupart de ces scénarios ne sont pas adaptés pour la production !
GCP et le free tier
Si votre entreprise n’a pas de labo GCP où vous exercer, Google propose 300$ sur 12 mois en plus d’un gros free tier et garantit que vous ne serez jamais débité.
Les conditions et limitations du free tier
Sources diverses
- Les publications sur le sujet (Medium, Linkedin...)
- Exemple de blog technique sur GCP
- Exemple de GIT/cheat sheet de personnes ayant déjà passé l’examen
- Les retours d’expérience sont toujours bons à prendre
- Attention, certains auteurs sont imprécis voir même se trompent…
- On va donc pondérer les avis afin d’arriver à une estimation de la difficulté
- On n’y passera pas toute notre vie (Rabbit Hole).
Architecture
Dans le cas de la GCP data Professional comme beaucoup d’autres, seulement connaître la data ne suffit pas. Il faut avoir des connaissances de base d’architecture.
ex : (service de transfert de données, Transfer Appliance, mise en réseau cloud)
Bases Data Engineer à connaître
Hadoop, Spark, Mapreduce, Hive, Hbase, Pig, RDBMS, Indexing, hashing.
L’apprentissage
La méthode
Grâce au poids estimé des questions on va savoir quels sujets méritent plus d’attention que d’autres. On va dérouler la liste des sujets avec chaque fois doc Google et si besoin MOOC + labs en même temps qu’une prise de notes.
Personnellement, je retiens beaucoup mieux ce que j’écris c’est pourquoi une phase de capitalisation est importante. Si vous avez une mémoire photographique, ma méthode ne sera pas forcément la bonne pour vous.
La synthèse
La capitalisation va nous permettre de faire une synthèse des produits GCP suite à la certification. Mes fiches de révision me serviront dans mes futurs avant ventes et/ou formations.
On passe
Si un sujet vous semble non maîtrisé, mettez-le de côté et réessayez avec un autre canal d’apprentissage plus tard. Cela permet de ne pas perdre de temps.
L'entraînement
Faire les tests
On va savoir si on est prêt et Identifier nos lacunes afin d’y remédier. Les tests des MOOC sont à faire en premier et on finit par le test blanc de l’éditeur.
Méthodologie
Les QCM sont formatés de tel manière qu’on peut y répondre avec des mots clefs.
Avec une bonne fiche pense bête de toutes les solutions on y répondra très facilement.
You are designing a relational data repository on Google Cloud to grow as needed. The data will be transactionally consistent and added from any location in the world. You want to monitor and adjust node count for input traffic,which can spike unpredictably. What should you do?
A. Use Cloud Spanner for storage. Monitor storage usage and increase node count if more than 70% utilized.
B. Use Cloud Spanner for storage. Monitor CPU utilization and increase node count if more than 70% utilized for your time span.
C. Use Cloud Bigtable for storage. Monitor data stored and increase node count if more than 70% utilized.
D. Use Cloud Bigtable for storage. Monitor CPU utilization and increase node count if more than 70% utilized for your time span.
-
En moins de 5 secondes je déduis ceci grâce à la première phrase :
-
transactionally consistent + any location in the world = globally scalable transactions=Cloud Spanner
Cela nous limite à A et B avec la première.
-
La secondes phrase va aiguiller notre choix final :
-
adjust node count for input traffic = monitor CPU car le disque n’aura aucun impact sur le trafic.
Voici un exemple d’une partie de ma fiche pense bête (ici Cloud Spanner) :
Use | Services Like | Use case | Structure | When ? | IAM |
Cloud Spanner | RDBMS distributed highly scalable | - RDBMS > 10 TB Global.
- Horizontal scaling with high transactions consistency (no trade-off) - High Availability with automatic replication and failover. |
- Database, tables, columns, rows, PK (unique ID)
-Strong Typed schema (database and schema have data types) - Interleaved tables with indexes - One mandatory PK + only one other index max. |
- Distributed OLTP
- ACID ++ (typed schemas) |
Project, instance and database |
Je passe
Gardez de côté les questions où vous hésitez ou mettez plus de 30 secondes à répondre. Cela permet de continuer d’y réfléchir inconsciemment tout en se donnant une chance de trouver une réponse plus loin dans le test.
En effet, certaines réponses à d’autres questions ou d’autres questions sur le même sujet peuvent contredire ou confirmer une réponse passée. Cela nous aidera pour valider nos choix.
Cadence et réussite
Si vous n’arrivez pas en moyenne à répondre en moins de 30 sec pour chaque question c’est que vous n’êtes pas prêts ! Il faut acquérir plus d’automatismes afin de répondre du tac-o-tac.
Si vous n’arrivez pas à avoir 3 examens blancs de suite à 90 % c’est que vous n’êtes pas prêts.
Réservation
Quand vous êtes prêt il faut réserver le plus rapidement possible un créneau d’examen. Si on habite loin, on n’hésite pas à prendre un hôtel près du centre pour être frais le lendemain.
Le jour J
Ça y est c’est le grand jour !
Première règle facile à dire, on ne stresse pas. On a seulement le droit d’être stressé pour ne rien oublier le jour J (2 pièces d’identité etc…) et/ou ne pas louper son moyen de transport.
Ce n’est pas le moment de réviser ! Relire vos supports ne sert plus à rien. On peut si on a le temps s’autoriser un dernier quizz histoire de se chauffer un peu.
Accordez-vous une bonne marge de sécurité. Prenez vos dispositions avant l’examen histoire de ne pas casser votre rythme durant l'épreuve.
Le final
Et voilà c’est marqué «Pass» et vous l’avez eu !
Google se donne le droit de crawler internet et de voir à travers les caméras du centre d’examen. En cas de triche, vous serez interdit de passage de certification pendant x temps.
Vous recevrez un mail 3 à 5 jours plus tard ainsi qu’un voucher pour la boutique GCP (pulls, T-shirts, sacs). Ne rêvez pas trop, ils sont tout le temps en rupture.
On peut capitaliser toutes nos documentations. Cela nous sert de base de faire des formations et/ou avant ventes plus tard.
Conclusion
- Faites des révisions sérieuses ne vous laissez pas distraire.
- Ne perdez pas votre temps sur internet.
- Trouvez la méthode de travail qui vous convient.
- Mettez en place rapidement un plan de révision et suivez-le.
- Maîtrisez votre temps pendant la révision et durant l’examen !
- Enchainer facilement les questions.
- Soyez prêts le jour J pour ne pas stresser inutilement.
- Essayez au maximum de réutiliser votre travail plus tard.
- N’arrêtez jamais d’apprendre !