10 — Analytics Platforms (AZ-305)

A. Vocabulaire analytics

A.1 OLTP vs OLAP ⭐⭐

	OLTP (Transactional)	OLAP (Analytical)
Quoi	Transactions temps-réel	Analyse gros volumes historiques
Queries	Simples, 1 row à la fois	Scans massifs, aggregations
Schema	Normalisé (3NF)	Dénormalisé (star/snowflake)
Services Azure	Azure SQL DB / MI / on VM, Cosmos DB, MySQL Flex, PG Flex	Synapse Dedicated SQL pool, Databricks SQL Warehouse, Fabric Warehouse
Cas	E-commerce → orders, panier, login	Dashboard CEO "ventes par région 2020-2025"

🎯 Au 305 : dès qu'on dit "transactional / OLTP" → Azure SQL ou Cosmos. Dès qu'on dit "OLAP DW structuré pour BI récurrent" → Dedicated SQL pool / Fabric Warehouse.

💡 Cas hybride à part : query data lake ad-hoc (CSV/Parquet sans provisioning) → Synapse Serverless SQL pool ou Databricks notebooks ou Fabric Lakehouse. Ce sont des lake query engines, pas des OLAP DW traditionnels.

A.2 MPP vs SMP (en 2 lignes)

SMP (single machine, scale vertical) = Azure SQL DB / MI / on VM.
MPP (N nodes en parallèle, scale horizontal) = Synapse Dedicated SQL pool ⭐ (le seul MPP managé Azure).

Pourquoi ça compte : 100 TB à scanner → SMP rame, MPP splitte sur 60 nodes en parallèle.

A.3 HNS (Hierarchical Namespace)

Sans HNS (Blob classique) : folders = préfixes (illusion). Rename /raw/2024 → /archive/2024 (1 TB) = re-copy tout.
Avec HNS (ADLS Gen2) : vrais folders + atomic rename en ms. Hadoop/Spark exigent un vrai filesystem.

A.4 ABFS (driver ADLS Gen2)

ABFS (abfss://) = driver Hadoop pour ADLS Gen2 → code Spark/Hive marche tel quel.
Remplace l'ancien WASB (Blob classique).
🎯 Migration Hadoop on-prem → Azure : ADLS Gen2 + ABFS.

A.5 POSIX ACLs vs RBAC

RBAC = accès gros grain (Storage Account / container niveau).
POSIX ACLs (HNS) = granularité dossier/fichier.
Best practice : RBAC pour le large + ACLs pour le métier fin par dossier.

A.6 HTAP (Hybrid Transactional/Analytical) ⭐

Idée : faire de l'analyse sur tes données OLTP en quasi-temps réel, sans ralentir l'OLTP.

Le problème : tu as Cosmos DB qui prend les commandes (OLTP, ultra-rapide). Si tu lances une grosse query d'analytics dessus pour faire un dashboard, ça ralentit les écritures clients. La solution HTAP : Azure recopie en arrière-plan tes data OLTP vers une copie analytique séparée (~5 min de latence). Tu queries cette copie sans impacter l'OLTP.

Services Azure qui font du HTAP : Synapse Link (legacy) et Fabric Mirroring (moderne).

A.7 Data Governance : Microsoft Purview vs Unity Catalog ⭐

Le problème : dans une boîte, tu as 50 sources de data (SQL on-prem, Azure SQL, Cosmos, Databricks, fichiers SharePoint, AWS RDS, etc.). Comment savoir qui possède quoi, qui peut accéder à quoi, où vivent les PII ?

Outil	Scope
Microsoft Purview ⭐	Gouvernance sur TOUT le patrimoine data : Azure, on-prem, multi-cloud, SaaS. Catalogue + classification PII auto + lineage (suivre la data d'un bout à l'autre).
Unity Catalog	Gouvernance interne à Databricks (catalogs/schemas/tables, lineage, ACLs, Delta Sharing).

🎯 "Gouvernance sur tout l'estate (au-delà de Databricks)" → Purview. "Gouvernance interne Databricks" → Unity Catalog.

A.8 Concepts à connaître en awareness (sans deep-dive)

Tu n'as pas besoin de maîtriser ces concepts en profondeur pour le 305, mais tu dois reconnaître les mots-clés si une question les utilise.

Medallion architecture (Bronze / Silver / Gold)

Façon d'organiser un data lake en 3 couches : bronze (data brute), silver (nettoyée), gold (agrégée prête pour BI). C'est juste une convention d'organisation des dossiers.

Delta Lake

Format de fichier moderne au-dessus de Parquet (format compressé pour analytics). Ajoute des features transactions ACID + rollback temporel que Parquet pur n'a pas. Utilisé par défaut par Databricks et Fabric.

Lakehouse pattern

Idée moderne de combiner data lake (stockage cheap) + data warehouse (queries rapides) dans une seule plateforme au lieu de les avoir séparés. Poussé par Databricks (Delta Lake) et Microsoft Fabric (OneLake).

Unités pricing

Tu n'as pas à connaître les détails, juste savoir qu'elles existent :

DWU = unité Synapse Dedicated SQL pool
DBU = unité Databricks
vCore = unité générique Azure SQL / Synapse Serverless

B. ADLS Gen2 — fondation du data lake

B.1 C'est quoi

Storage Account + HNS activé → vrais folders, ACLs POSIX, optimisé big data. Fondation data lake Azure compatible Hadoop/Spark/Databricks/Synapse.

B.2 Caractéristiques

Built sur Blob → tiers (Hot/Cool/Cold/Archive), lifecycle, encryption marchent
Multi-protocol : Blob API + ADLS driver (abfss://) + NFSv3
Compatible natif : Hadoop, Spark, Databricks, Synapse
Organisation type :

/raw       → brut ingéré (immutable, partitionné par date)
/cleansed  → nettoyé (silver)
/curated   → prêt analytics (gold)

B.3 Tiers / SKU

Performance : Standard / Premium (low-latency)
Redundancy : LRS / ZRS / GRS / RA-GRS / GZRS
Access tiers Blob : Hot / Cool / Cold / Archive (lifecycle policies)

B.4 Quand l'utiliser

Workload big data / analytics nécessitant vrai filesystem (Spark, Hadoop).
Besoin granularité ACLs POSIX dossier/fichier (vs RBAC SA-level).
Migration Hadoop on-prem → cloud (avec ABFS driver).
Medallion architecture (bronze/silver/gold).

B.5 Pièges 305

🚨 HNS = irréversible → cocher à la création (sinon SA = Blob classique).
🚨 WASB driver legacy → utiliser ABFS (abfss://) pour ADLS Gen2.
🚨 Tier Archive incompatible avec lecture Spark directe (rehydrate avant).

C. Synapse Analytics — la plateforme unifiée

C.1 C'est quoi

Plateforme unifiée : DW + big data + integration + viz dans un seul Workspace. Couvre OLAP MPP, query data lake serverless, Spark, KQL, pipelines.

C.2 Les composants du Workspace ⭐⭐

Synapse n'est pas UN service mais un container qui héberge plusieurs "pools" + features. Tu choisis le bon outil selon ton besoin :

Composant	Sert à...	Pricing
Dedicated SQL pool ⭐	DW MPP traditionnel (lift-and-shift SQL DW)	DWU (provisionné, pause/resume)
Serverless SQL pool ⭐	Query files directement dans le data lake (CSV, Parquet, JSON) sans rien provisionner	Pay-per-TB scanné
Apache Spark pool	Data engineering / ML / transformations big data	vCore + autoscale
Data Explorer pool	Time-series / logs en KQL (équivalent Azure Data Explorer)	vCore + autoscale
Pipelines	ETL/ELT orchestration (= ADF intégré dans le workspace)	Per-activity run
Synapse Link	Réplica HTAP near-real-time depuis OLTP (Cosmos/SQL DB/SQL Server 2022/Dataverse)	Selon source + analytical store

C.3 Quel composant pour quel scénario ⭐⭐ — LE tableau exam

Tu veux...	Composant Synapse
Analyser des fichiers du data lake (CSV/Parquet) sans setup, ponctuel	Serverless SQL pool ⭐
Charger du data lake vers un DW structuré pour BI	Dedicated SQL pool (loadé via Pipelines/Spark)
DW MPP classique pour analytics structuré récurrent	Dedicated SQL pool
Transformer du big data en Python/Scala (data eng/ML)	Spark pool
Query des logs / metrics / time-series (KQL)	Data Explorer pool
Orchestrer un ETL multi-sources vers le lake/DW	Pipelines
Analytics quasi-live sur OLTP (Cosmos, SQL DB) sans impacter l'OLTP	Synapse Link ⭐
Combiner data lake + DW dans une seule query	Serverless SQL pool (joint external Parquet + DW table)
Migrer SQL Server DW on-prem vers Azure	Dedicated SQL pool (lift-and-shift)
Migrer Hadoop on-prem vers Azure	Spark pool + ADLS Gen2

C.4 Charger data du lake → Dedicated SQL pool (vue d'ensemble)

Tu n'as pas à connaître les commandes T-SQL, juste savoir qu'il y a 3 façons :

Méthode	Quand
PolyBase	Legacy, T-SQL `EXTERNAL TABLE` pour query external data
COPY statement ⭐	Recommandé MS aujourd'hui : load depuis ADLS/Blob/Hadoop, plus simple et plus rapide que PolyBase
CTAS (`CREATE TABLE AS SELECT`)	Idiom Synapse pour créer une nouvelle table depuis une requête (load + distribute en 1 commande)

🎯 Au 305 : si la question dit "load data du lake vers le Dedicated SQL pool en 2026" → COPY statement.

C.5 Synapse Link — les 4 variantes (awareness)

Synapse Link = HTAP : réplique data OLTP vers Synapse pour analytics, sans impacter l'OLTP.

Source	Use case
Cosmos DB ⭐	Le plus connu. Analytical store séparé du transactional → query Spark/SQL sans charger le moteur OLTP
Azure SQL DB	Change feed Azure SQL → Synapse Dedicated pool
SQL Server 2022 (on-prem)	Hybride : on-prem SQL 2022 → cloud Synapse
Dataverse (Dynamics 365)	D365 data → Synapse pour analytics business

⚠️ 2026 : MS pousse Fabric Mirroring (GA) pour nouveaux projets — mais Synapse Link reste objectif AZ-305.

C.6 Pièges 305

🚨 Dedicated SQL pool ≠ Azure SQL DB. MPP analytics ≠ SMP OLTP.
🚨 Serverless SQL pool = query files sans provisioning (différent de Dedicated qui est provisionné).
🚨 PolyBase legacy, COPY moderne → MS recommande COPY pour nouveaux projets.
🚨 Synapse Pipelines = ADF sous le capot, juste intégré dans le workspace.

D. Azure Databricks

D.1 C'est quoi

Plateforme Spark managée par Databricks (partner MS). Référence pour ML / data science avancé + Delta Lake + Unity Catalog governance.

D.2 Architecture rapide

Élément	Quoi
Workspace	Container régional
Cluster	Compute Spark (VMs Azure) — All-purpose / Job / Pool
Notebook	Python/Scala/SQL/R
Job	Workflow planifié
Delta Lake ⭐	ACID au-dessus Parquet (MERGE, time-travel, schema enforcement)
Unity Catalog ⭐	Governance (lineage auto, ACLs, Delta Sharing)
Photon (Premium)	Engine vectorisé C++ 3-8× plus rapide vs Spark Java

D.3 Tiers / SKU

Tier	Note
Standard	Pas dispo toutes régions, features de base
Premium ⭐	RBAC + audit + Unity Catalog + SSO + Photon

Pricing : DBU + VMs Azure sous-jacentes (double facturation).

D.4 Quand l'utiliser

ML / Data Science avancé (MLflow natif excellent vs Synapse Spark).
Delta Lake medallion architecture (ACID, time-travel, MERGE).
Streaming massif / complex events / fraud detection ML scoring.
Migration Hadoop on-prem (alternative à Synapse Spark).

D.5 Synapse Spark pool vs Databricks ⭐

Critère	Synapse Spark pool	Databricks ⭐
Maturité ML / MLflow	OK	Excellente (référence)
Delta Lake	Supporté	Natif, optimisé
Unity Catalog	❌	✅
Photon	❌	✅ (Premium)
Intégration native Azure	✅ (dans workspace Synapse)	Plus standalone
Tarif	DWU/vCore	DBU + VM Azure

🎯 Question 305 : "ML avancé / Delta Lake medallion / Unity Catalog" → Databricks. "Plateforme unifiée Azure sans ML poussé" → Synapse.

E. Azure Data Factory (ADF)

E.1 C'est quoi

ETL/ELT orchestration drag-and-drop + code. Pipeline d'activités pour ingérer, transformer, charger data multi-sources vers Azure.

E.2 Architecture rapide

Élément	Quoi
Pipeline	Workflow de N activities
Activity	Action atomique (Copy, ML, Web hook, SP)
Dataset	Schéma source/dest
Linked Service	Connection vers source
Integration Runtime (IR)	Compute qui exécute
Mapping Data Flow	Visual transformation sur Spark (no-code)
Trigger	Schedule, Event, Tumbling Window, Manual

E.3 Les 3 Integration Runtimes ⭐

IR	Quand l'utiliser
Azure IR	Default cloud-to-cloud, public
Self-hosted IR ⭐	On-prem ou VM → accès SQL on-prem, file shares, etc. (outbound only, pas besoin port entrant)
Azure-SSIS IR	Exécuter packages SSIS legacy (lift-and-shift SQL Server ETL)

E.4 Triggers types

Trigger	Quand
Schedule	Cron simple (tous les jours à 3h)
Tumbling Window	Incrémental avec watermark (process la dernière fenêtre fermée)
Event-based	Blob créé / supprimé → déclenche pipeline
Manual	Sur demande

E.6 ADF vs Synapse Pipelines ⭐

Même engine sous le capot. Différence :

ADF standalone : service séparé, simple, intégration avec n'importe quel target.
Synapse Pipelines : ADF intégré dans le workspace Synapse → orchestration unifiée Spark/SQL pool + UI partagée.

🎯 "Multi-sources vers data lake, projet greenfield" → ADF ou Synapse Pipelines (les 2 OK). Si Synapse déjà en place → Pipelines pour cohérence.

E.7 Pièges 305

🚨 Self-hosted IR obligatoire pour accès on-prem (outbound only).
🚨 Data Flow = Spark sous le capot → coûte plus cher que Copy Activity simple.
🚨 Tumbling Window ≠ Schedule : Tumbling = incrémental avec watermark, Schedule = cron.
🚨 Azure-SSIS IR = pour lift-and-shift SSIS legacy, pas pour nouveaux ETL.

🚨 ADF — Schema Drift detection : Quand le schema source change (colonne ajoutée/renommée) → Mapping Data Flow le détecte automatiquement via l'option "Allow schema drift" (à activer dans Source + Sink settings). Use case : ingestion CSV partenaires dont structure évolue sans préavis → schema drift accepte les colonnes nouvelles, les propage en sortie sans casser le pipeline. ⚠️ Distractor exam : "détecter colonnes ajoutées dans CSV source automatiquement" → ADF Mapping Data Flow + Allow schema drift (pas pipeline Copy Activity manuel, pas Synapse pipeline qui n'a pas cette feature aussi développée).

F. Stream Analytics (awareness 305)

F.1 C'est quoi

Service managé de stream processing. SQL-like queries (T-SQL extensions) sur des flux en quasi-temps réel. No-code/low-code.

F.2 Quand l'utiliser

IoT telemetry → filter + aggregate → dashboard / alertes.
Détection simple d'événements (seuil dépassé, count par fenêtre).
ETL streaming léger sans code.

F.3 Stream Analytics vs Databricks Streaming ⭐

Critère	Stream Analytics	Databricks Streaming
Code	SQL-like	Python/Scala
Complexité	No-code, simple	Code-first, complex events
ML inline	Limité	Excellent (MLflow)
Cas	IoT → filter+aggregate → dashboard	Fraud detection ML scoring temps-réel

🎯 Question 305 : "Streaming simple SQL-like no-code" → Stream Analytics. "Streaming complex events + ML" → Databricks Streaming.

F.4 Sources / cibles supportées

Inputs : Event Hubs, IoT Hub, Blob/ADLS
Outputs : Power BI (live dashboard), Cosmos DB, Azure SQL, Blob/ADLS, Event Hubs, Functions

G. Microsoft Fabric (awareness 305) ⭐

Plateforme analytics unifiée moderne lancée par MS en 2023. MS pousse Fabric comme l'évolution de Synapse + Power BI + ADF dans une seule expérience SaaS.

G.1 Composants Fabric (vue 305)

Composant	Équivalent ancien	Quoi
OneLake	ADLS Gen2 unifié	Storage lake unique partagé par tous les workloads Fabric
Lakehouse	Data lake + DW combo	Stockage Delta + endpoint SQL pour query
Warehouse	Synapse Dedicated SQL	DW SQL classique mais serverless dans Fabric
Data Pipelines	ADF	ETL orchestration
Notebooks	Synapse / Databricks Spark	Data eng / ML en Python/Spark
KQL DB	Synapse Data Explorer pool	Time-series / logs
Real-Time Intelligence	Stream Analytics	Streaming
Power BI	Power BI	BI / dashboards
Mirroring ⭐	Synapse Link évolué	Réplica near-real-time Cosmos / SQL / Snowflake → Fabric

G.2 Quand le mentionner au 305

"Plateforme analytics unifiée moderne all-in-one" → Microsoft Fabric (réponse 2025+).
"Replica near-real-time OLTP pour analytics, projet nouveau" → Fabric Mirroring (Synapse Link sunset progressivement).
🎯 Au 305 : awareness suffisant. Pas de deep dive sur la config.

G.3 Pièges 305

🚨 Synapse encore objectif d'exam AZ-305 actuel — Fabric mentionné en awareness "futur direction".
🚨 Fabric ≠ Synapse. Fabric inclut Synapse-like features mais c'est une nouvelle plateforme SaaS avec OneLake comme storage unifié.

H. Architectures types AZ-305

Modern DW (le grand classique)

[Sources] → [ADF / Synapse Pipelines] → [ADLS Gen2 raw→cleansed→curated]
                                                ↓
                          [Synapse Spark / Databricks] (transform)
                                                ↓
                          [Synapse Dedicated SQL pool] → [Power BI]

Real-time (streaming + batch combinés)

[Sources] → [Event Hub / Kafka]
   ├─ [Stream Analytics / Databricks Streaming] → Cosmos/SQL real-time
   └─ [ADF + Databricks/Synapse] → ADLS → DW → Power BI

HTAP (Synapse Link)

[Cosmos OLTP] → [Synapse Link] → [Synapse Spark/SQL] (analytics SANS impact OLTP)
[Azure SQL OLTP] → [Synapse Link] → [Synapse]

Lakehouse moderne (Databricks ou Fabric)

[Sources] → [ADF/Spark] → [ADLS Gen2 / OneLake + Delta Lake]
                              ├─ /bronze (raw)
                              ├─ /silver (cleansed)
                              └─ /gold (BI-ready)
                              ↓
                          [Databricks SQL / Fabric Warehouse / Power BI]

Serverless data lake query

[ADLS Gen2 avec CSV/Parquet] ←──── OPENROWSET ──── [Synapse Serverless SQL pool]
                                                    pay-per-TB scanné, zéro provisioning

I. Decision tree analytics ⭐

Par source de data

D'où vient ta data ?
├─ Data lake (fichiers CSV/Parquet/JSON sur ADLS) ?
│   ├─ Query ad-hoc / ponctuel, zéro provisioning  → Synapse Serverless SQL pool ⭐
│   ├─ DW structuré récurrent pour BI              → Synapse Dedicated SQL pool (load depuis lake)
│   ├─ Transformation big data / ML                → Databricks (recommandé) ou Synapse Spark
│   └─ Plateforme moderne unifiée (greenfield)     → Microsoft Fabric (Lakehouse + Warehouse)
│
├─ Base OLTP (Cosmos / Azure SQL / SQL Server) ?
│   ├─ Besoin analytics quasi-live sans impacter   → Synapse Link / Fabric Mirroring (HTAP)
│   └─ Analytics offline batch                     → ADF/Spark → ADLS → DW
│
├─ Streaming (Event Hub / Kafka / IoT) ?
│   ├─ Simple aggregations SQL-like, no-code       → Stream Analytics
│   └─ Complex events / ML scoring temps-réel      → Databricks Streaming
│
├─ Source on-prem (SQL Server, Oracle, files) ?
│   └─ Ingestion vers Azure                        → ADF + Self-hosted IR
│
└─ Multi-sources SaaS (Salesforce, SAP, etc.) ?
    └─ Orchestration ETL                           → ADF (70+ connectors)

Par besoin business

Quel est ton objectif ?
├─ BI / Power BI dashboards récurrents             → Dedicated SQL pool / Fabric Warehouse
├─ Data Science / ML avec MLflow                   → Databricks Premium ⭐
├─ Exploration ad-hoc data lake (1× par mois)      → Serverless SQL pool
├─ Lift-and-shift DW SQL Server / Teradata         → Dedicated SQL pool (+ ADLS staging + ADF transport)
├─ Lift-and-shift SSIS packages                    → ADF + Azure-SSIS IR
├─ Time-series / logs analytics KQL                → Azure Data Explorer (ou Synapse Data Explorer pool)
├─ Dashboard temps-réel IoT/devices                → Event Hub → Stream Analytics → Power BI
├─ Détection fraude streaming + ML                 → Event Hub → Databricks Streaming
├─ Gouvernance data multi-source (catalogue, PII)  → Microsoft Purview ⭐
├─ Gouvernance interne Databricks                  → Unity Catalog
└─ Migration Hadoop on-prem complète               → Databricks (ou Synapse Spark) + ADLS Gen2 + ABFS

J. Decision matrix consolidée ⭐⭐

Scenario	Choix
Storage data lake big data	ADLS Gen2 (avec HNS)
Query files data lake sans provisioning, ponctuel	Synapse Serverless SQL pool ⭐
DW MPP classique (lift-and-shift SQL Server DW)	Synapse Dedicated SQL pool
Big data transform / ML dans Synapse	Synapse Spark pool
ML / Data Science avancé / Delta Lake medallion / Unity Catalog	Databricks ⭐
Time-series / logs en KQL	Synapse Data Explorer pool ou Azure Data Explorer standalone
ETL/ELT orchestration	ADF ou Synapse Pipelines
ETL lift-and-shift SSIS legacy	ADF + Azure-SSIS IR
Ingestion data on-prem vers Azure	ADF + Self-hosted IR
HTAP analytics sur OLTP sans impact	Synapse Link (ou Fabric Mirroring moderne)
Streaming simple SQL-like no-code	Stream Analytics
Streaming complex events / ML scoring	Databricks Streaming
Plateforme analytics unifiée moderne (post-Synapse)	Microsoft Fabric (awareness)
Data governance sur tout l'estate	Microsoft Purview ⭐
Data governance interne Databricks	Unity Catalog
Migration Hadoop on-prem vers Azure	Databricks ou Synapse Spark + ADLS Gen2
BI / dashboards	Power BI (typiquement on top du DW/Lakehouse)

DEMO

Demo Portail — Créer un Data Factory

Data factories > + Create
Onglet Basics : sub, RG, name (globalement unique), region
Onglet Git configuration : optionnel (Azure DevOps / GitHub pour versionning)
Onglet Networking : Public / Private (Managed VNet)
Review + Create
Une fois créé : Open Azure Data Factory Studio (UI séparée)

Demo Portail — Synapse workspace + SQL pool + Spark pool

1. Créer le workspace

Azure Synapse Analytics > + Create
Onglet Basics : RG, Workspace name, Region
Select Data Lake Storage Gen2 : Storage Account avec HNS + File system name raw
Onglet Security : SQL admin login + password + (recommandé) Entra admin
Onglet Networking : Managed virtual network : Enable, Public access : Disabled (prod)
Review + Create (5-10 min)
Ouvrir : Open Synapse Studio

2. Dedicated SQL pool

mysynapse > Analytics pools > SQL pools > + New
Name mydw, Performance level DW100c
Review + Create → Pause/Resume via la blade pour économiser

3. Apache Spark pool

mysynapse > Analytics pools > Apache Spark pools > + New
Name myspark, Node size Medium, Autoscale 3-10 nodes
Automatic pausing : Enabled (15 min idle), Spark version 3.4
Review + Create

📝 Pour Serverless SQL pool : il est créé automatiquement à la création du workspace (built-in, pas à provisionner).

Demo Portail — Créer un Databricks workspace

Azure Databricks > + Create
Onglet Basics : RG, Workspace name, Region, Pricing Tier : Premium ⭐
Onglet Networking : VNet injection si isolation
Review + Create → Launch Workspace
Dans Databricks UI :
- Compute > + Create cluster (autoscale, runtime, Photon enabled)
- Workspace > Create > Notebook (Python/SQL/Scala)
- Jobs > + Create Job pour scheduler
- Catalog (Unity Catalog) : metastore + catalogs + schemas

📝 Tier Standard = dev/test. Premium = prod (Unity Catalog, RBAC, audit, SSO, Photon).

Demo Portail — ADLS Gen2 + POSIX ACL

Storage accounts > + Create
Onglet Basics : RG, Name (globalement unique), Performance Standard, Redundancy LRS/ZRS/GRS
Onglet Advanced : Hierarchical namespace : Enabled ⭐ (irréversible)
Review + Create
Créer container : Storage Account > Containers > + Container → name raw
Créer folders : raw > + Add Directory → year=2026, month=01
POSIX ACL : naviguer vers le folder > ⋯ > Manage ACL
- Access : Add principal (user/group/SP) + Read/Write/Execute
- Default : ACL héritée par nouveaux fichiers du folder
- Save

⚠️ HNS = irréversible, à cocher impérativement à la création pour tout workload analytics.

Demo Portail — ADF pipeline simple (Blob → SQL DB)

Concept-level (pas step-by-step Data Flow).

Studio ADF > Manage > Linked services > + New :
- Azure Blob Storage (auth via Managed Identity)
- Azure SQL Database (auth MI + rôle db_datawriter)
Author > Datasets > + New :
- Source : Blob > DelimitedText (CSV)
- Sink : SQL DB > Table cible
Author > Pipelines > + New :
- Drag Copy data activity → configurer Source + Sink + Mapping
- (Optionnel) Data Flow : Filter → Derived Column → Aggregate → Sink
Author > Triggers > + New :
- Schedule (cron) ou Event-based (blob créé) ou Tumbling Window (incrémental watermark)
Debug dans le designer → Publish all pour activer

Demo Portail — ADF Self-hosted IR (accès on-prem)

Studio ADF > Manage > Integration runtimes > + New > Self-Hosted
Donner un name → générer 2 auth keys (sauvegarder)
Télécharger l'Integration Runtime agent (Windows)
Installer sur VM on-prem (ou Azure VM faisant proxy)
Entrer l'auth key → register → status Running dans ADF
Linked Services peuvent pointer SQL Server on-prem, file shares, etc.