WIKI Retour au Portfolio

Dernière mise à jour : 12 juin 2026

10 — Analytics Platforms (AZ-305)

A. Vocabulaire analytics

A.1 OLTP vs OLAP ⭐⭐

OLTP (Transactional) OLAP (Analytical)
Quoi Transactions temps-réel Analyse gros volumes historiques
Queries Simples, 1 row à la fois Scans massifs, aggregations
Schema Normalisé (3NF) Dénormalisé (star/snowflake)
Services Azure Azure SQL DB / MI / on VM, Cosmos DB, MySQL Flex, PG Flex Synapse Dedicated SQL pool, Databricks SQL Warehouse, Fabric Warehouse
Cas E-commerce → orders, panier, login Dashboard CEO "ventes par région 2020-2025"

🎯 Au 305 : dès qu'on dit "transactional / OLTP" → Azure SQL ou Cosmos. Dès qu'on dit "OLAP DW structuré pour BI récurrent" → Dedicated SQL pool / Fabric Warehouse.

💡 Cas hybride à part : query data lake ad-hoc (CSV/Parquet sans provisioning) → Synapse Serverless SQL pool ou Databricks notebooks ou Fabric Lakehouse. Ce sont des lake query engines, pas des OLAP DW traditionnels.

A.2 MPP vs SMP (en 2 lignes)

  • SMP (single machine, scale vertical) = Azure SQL DB / MI / on VM.
  • MPP (N nodes en parallèle, scale horizontal) = Synapse Dedicated SQL pool ⭐ (le seul MPP managé Azure).

Pourquoi ça compte : 100 TB à scanner → SMP rame, MPP splitte sur 60 nodes en parallèle.

A.3 HNS (Hierarchical Namespace)

  • Sans HNS (Blob classique) : folders = préfixes (illusion). Rename /raw/2024 → /archive/2024 (1 TB) = re-copy tout.
  • Avec HNS (ADLS Gen2) : vrais folders + atomic rename en ms. Hadoop/Spark exigent un vrai filesystem.

A.4 ABFS (driver ADLS Gen2)

  • ABFS (abfss://) = driver Hadoop pour ADLS Gen2 → code Spark/Hive marche tel quel.
  • Remplace l'ancien WASB (Blob classique).
  • 🎯 Migration Hadoop on-prem → Azure : ADLS Gen2 + ABFS.

A.5 POSIX ACLs vs RBAC

  • RBAC = accès gros grain (Storage Account / container niveau).
  • POSIX ACLs (HNS) = granularité dossier/fichier.
  • Best practice : RBAC pour le large + ACLs pour le métier fin par dossier.

A.6 HTAP (Hybrid Transactional/Analytical) ⭐

Idée : faire de l'analyse sur tes données OLTP en quasi-temps réel, sans ralentir l'OLTP.

Le problème : tu as Cosmos DB qui prend les commandes (OLTP, ultra-rapide). Si tu lances une grosse query d'analytics dessus pour faire un dashboard, ça ralentit les écritures clients. La solution HTAP : Azure recopie en arrière-plan tes data OLTP vers une copie analytique séparée (~5 min de latence). Tu queries cette copie sans impacter l'OLTP.

Services Azure qui font du HTAP : Synapse Link (legacy) et Fabric Mirroring (moderne).

A.7 Data Governance : Microsoft Purview vs Unity Catalog ⭐

Le problème : dans une boîte, tu as 50 sources de data (SQL on-prem, Azure SQL, Cosmos, Databricks, fichiers SharePoint, AWS RDS, etc.). Comment savoir qui possède quoi, qui peut accéder à quoi, où vivent les PII ?

Outil Scope
Microsoft Purview Gouvernance sur TOUT le patrimoine data : Azure, on-prem, multi-cloud, SaaS. Catalogue + classification PII auto + lineage (suivre la data d'un bout à l'autre).
Unity Catalog Gouvernance interne à Databricks (catalogs/schemas/tables, lineage, ACLs, Delta Sharing).

🎯 "Gouvernance sur tout l'estate (au-delà de Databricks)"Purview. "Gouvernance interne Databricks"Unity Catalog.


A.8 Concepts à connaître en awareness (sans deep-dive)

Tu n'as pas besoin de maîtriser ces concepts en profondeur pour le 305, mais tu dois reconnaître les mots-clés si une question les utilise.

Medallion architecture (Bronze / Silver / Gold)

Façon d'organiser un data lake en 3 couches : bronze (data brute), silver (nettoyée), gold (agrégée prête pour BI). C'est juste une convention d'organisation des dossiers.

Delta Lake

Format de fichier moderne au-dessus de Parquet (format compressé pour analytics). Ajoute des features transactions ACID + rollback temporel que Parquet pur n'a pas. Utilisé par défaut par Databricks et Fabric.

Lakehouse pattern

Idée moderne de combiner data lake (stockage cheap) + data warehouse (queries rapides) dans une seule plateforme au lieu de les avoir séparés. Poussé par Databricks (Delta Lake) et Microsoft Fabric (OneLake).

Unités pricing

Tu n'as pas à connaître les détails, juste savoir qu'elles existent :

  • DWU = unité Synapse Dedicated SQL pool
  • DBU = unité Databricks
  • vCore = unité générique Azure SQL / Synapse Serverless

B. ADLS Gen2 — fondation du data lake

B.1 C'est quoi

Storage Account + HNS activé → vrais folders, ACLs POSIX, optimisé big data. Fondation data lake Azure compatible Hadoop/Spark/Databricks/Synapse.

B.2 Caractéristiques

  • Built sur Blob → tiers (Hot/Cool/Cold/Archive), lifecycle, encryption marchent
  • Multi-protocol : Blob API + ADLS driver (abfss://) + NFSv3
  • Compatible natif : Hadoop, Spark, Databricks, Synapse
  • Organisation type :
/raw       → brut ingéré (immutable, partitionné par date)
/cleansed  → nettoyé (silver)
/curated   → prêt analytics (gold)

B.3 Tiers / SKU

  • Performance : Standard / Premium (low-latency)
  • Redundancy : LRS / ZRS / GRS / RA-GRS / GZRS
  • Access tiers Blob : Hot / Cool / Cold / Archive (lifecycle policies)

B.4 Quand l'utiliser

  • Workload big data / analytics nécessitant vrai filesystem (Spark, Hadoop).
  • Besoin granularité ACLs POSIX dossier/fichier (vs RBAC SA-level).
  • Migration Hadoop on-prem → cloud (avec ABFS driver).
  • Medallion architecture (bronze/silver/gold).

B.5 Pièges 305

  • 🚨 HNS = irréversible → cocher à la création (sinon SA = Blob classique).
  • 🚨 WASB driver legacy → utiliser ABFS (abfss://) pour ADLS Gen2.
  • 🚨 Tier Archive incompatible avec lecture Spark directe (rehydrate avant).

C. Synapse Analytics — la plateforme unifiée

C.1 C'est quoi

Plateforme unifiée : DW + big data + integration + viz dans un seul Workspace. Couvre OLAP MPP, query data lake serverless, Spark, KQL, pipelines.

C.2 Les composants du Workspace ⭐⭐

Synapse n'est pas UN service mais un container qui héberge plusieurs "pools" + features. Tu choisis le bon outil selon ton besoin :

Composant Sert à... Pricing
Dedicated SQL pool DW MPP traditionnel (lift-and-shift SQL DW) DWU (provisionné, pause/resume)
Serverless SQL pool Query files directement dans le data lake (CSV, Parquet, JSON) sans rien provisionner Pay-per-TB scanné
Apache Spark pool Data engineering / ML / transformations big data vCore + autoscale
Data Explorer pool Time-series / logs en KQL (équivalent Azure Data Explorer) vCore + autoscale
Pipelines ETL/ELT orchestration (= ADF intégré dans le workspace) Per-activity run
Synapse Link Réplica HTAP near-real-time depuis OLTP (Cosmos/SQL DB/SQL Server 2022/Dataverse) Selon source + analytical store

C.3 Quel composant pour quel scénario ⭐⭐ — LE tableau exam

Tu veux... Composant Synapse
Analyser des fichiers du data lake (CSV/Parquet) sans setup, ponctuel Serverless SQL pool
Charger du data lake vers un DW structuré pour BI Dedicated SQL pool (loadé via Pipelines/Spark)
DW MPP classique pour analytics structuré récurrent Dedicated SQL pool
Transformer du big data en Python/Scala (data eng/ML) Spark pool
Query des logs / metrics / time-series (KQL) Data Explorer pool
Orchestrer un ETL multi-sources vers le lake/DW Pipelines
Analytics quasi-live sur OLTP (Cosmos, SQL DB) sans impacter l'OLTP Synapse Link
Combiner data lake + DW dans une seule query Serverless SQL pool (joint external Parquet + DW table)
Migrer SQL Server DW on-prem vers Azure Dedicated SQL pool (lift-and-shift)
Migrer Hadoop on-prem vers Azure Spark pool + ADLS Gen2

C.4 Charger data du lake → Dedicated SQL pool (vue d'ensemble)

Tu n'as pas à connaître les commandes T-SQL, juste savoir qu'il y a 3 façons :

Méthode Quand
PolyBase Legacy, T-SQL EXTERNAL TABLE pour query external data
COPY statement Recommandé MS aujourd'hui : load depuis ADLS/Blob/Hadoop, plus simple et plus rapide que PolyBase
CTAS (CREATE TABLE AS SELECT) Idiom Synapse pour créer une nouvelle table depuis une requête (load + distribute en 1 commande)

🎯 Au 305 : si la question dit "load data du lake vers le Dedicated SQL pool en 2026"COPY statement.

Synapse Link = HTAP : réplique data OLTP vers Synapse pour analytics, sans impacter l'OLTP.

Source Use case
Cosmos DB Le plus connu. Analytical store séparé du transactional → query Spark/SQL sans charger le moteur OLTP
Azure SQL DB Change feed Azure SQL → Synapse Dedicated pool
SQL Server 2022 (on-prem) Hybride : on-prem SQL 2022 → cloud Synapse
Dataverse (Dynamics 365) D365 data → Synapse pour analytics business

⚠️ 2026 : MS pousse Fabric Mirroring (GA) pour nouveaux projets — mais Synapse Link reste objectif AZ-305.

C.6 Pièges 305

  • 🚨 Dedicated SQL pool ≠ Azure SQL DB. MPP analytics ≠ SMP OLTP.
  • 🚨 Serverless SQL pool = query files sans provisioning (différent de Dedicated qui est provisionné).
  • 🚨 PolyBase legacy, COPY moderne → MS recommande COPY pour nouveaux projets.
  • 🚨 Synapse Pipelines = ADF sous le capot, juste intégré dans le workspace.

D. Azure Databricks

D.1 C'est quoi

Plateforme Spark managée par Databricks (partner MS). Référence pour ML / data science avancé + Delta Lake + Unity Catalog governance.

D.2 Architecture rapide

Élément Quoi
Workspace Container régional
Cluster Compute Spark (VMs Azure) — All-purpose / Job / Pool
Notebook Python/Scala/SQL/R
Job Workflow planifié
Delta Lake ACID au-dessus Parquet (MERGE, time-travel, schema enforcement)
Unity Catalog Governance (lineage auto, ACLs, Delta Sharing)
Photon (Premium) Engine vectorisé C++ 3-8× plus rapide vs Spark Java

D.3 Tiers / SKU

Tier Note
Standard Pas dispo toutes régions, features de base
Premium RBAC + audit + Unity Catalog + SSO + Photon

Pricing : DBU + VMs Azure sous-jacentes (double facturation).

D.4 Quand l'utiliser

  • ML / Data Science avancé (MLflow natif excellent vs Synapse Spark).
  • Delta Lake medallion architecture (ACID, time-travel, MERGE).
  • Streaming massif / complex events / fraud detection ML scoring.
  • Migration Hadoop on-prem (alternative à Synapse Spark).

D.5 Synapse Spark pool vs Databricks ⭐

Critère Synapse Spark pool Databricks
Maturité ML / MLflow OK Excellente (référence)
Delta Lake Supporté Natif, optimisé
Unity Catalog
Photon ✅ (Premium)
Intégration native Azure ✅ (dans workspace Synapse) Plus standalone
Tarif DWU/vCore DBU + VM Azure

🎯 Question 305 : "ML avancé / Delta Lake medallion / Unity Catalog"Databricks. "Plateforme unifiée Azure sans ML poussé"Synapse.


E. Azure Data Factory (ADF)

E.1 C'est quoi

ETL/ELT orchestration drag-and-drop + code. Pipeline d'activités pour ingérer, transformer, charger data multi-sources vers Azure.

E.2 Architecture rapide

Élément Quoi
Pipeline Workflow de N activities
Activity Action atomique (Copy, ML, Web hook, SP)
Dataset Schéma source/dest
Linked Service Connection vers source
Integration Runtime (IR) Compute qui exécute
Mapping Data Flow Visual transformation sur Spark (no-code)
Trigger Schedule, Event, Tumbling Window, Manual

E.3 Les 3 Integration Runtimes ⭐

IR Quand l'utiliser
Azure IR Default cloud-to-cloud, public
Self-hosted IR On-prem ou VM → accès SQL on-prem, file shares, etc. (outbound only, pas besoin port entrant)
Azure-SSIS IR Exécuter packages SSIS legacy (lift-and-shift SQL Server ETL)

E.4 Triggers types

Trigger Quand
Schedule Cron simple (tous les jours à 3h)
Tumbling Window Incrémental avec watermark (process la dernière fenêtre fermée)
Event-based Blob créé / supprimé → déclenche pipeline
Manual Sur demande

E.6 ADF vs Synapse Pipelines ⭐

Même engine sous le capot. Différence :

  • ADF standalone : service séparé, simple, intégration avec n'importe quel target.
  • Synapse Pipelines : ADF intégré dans le workspace Synapse → orchestration unifiée Spark/SQL pool + UI partagée.

🎯 "Multi-sources vers data lake, projet greenfield"ADF ou Synapse Pipelines (les 2 OK). Si Synapse déjà en place → Pipelines pour cohérence.

E.7 Pièges 305

  • 🚨 Self-hosted IR obligatoire pour accès on-prem (outbound only).
  • 🚨 Data Flow = Spark sous le capot → coûte plus cher que Copy Activity simple.
  • 🚨 Tumbling Window ≠ Schedule : Tumbling = incrémental avec watermark, Schedule = cron.
  • 🚨 Azure-SSIS IR = pour lift-and-shift SSIS legacy, pas pour nouveaux ETL.

🚨 ADF — Schema Drift detection : Quand le schema source change (colonne ajoutée/renommée) → Mapping Data Flow le détecte automatiquement via l'option "Allow schema drift" (à activer dans Source + Sink settings). Use case : ingestion CSV partenaires dont structure évolue sans préavis → schema drift accepte les colonnes nouvelles, les propage en sortie sans casser le pipeline. ⚠️ Distractor exam : "détecter colonnes ajoutées dans CSV source automatiquement"ADF Mapping Data Flow + Allow schema drift (pas pipeline Copy Activity manuel, pas Synapse pipeline qui n'a pas cette feature aussi développée).


F. Stream Analytics (awareness 305)

F.1 C'est quoi

Service managé de stream processing. SQL-like queries (T-SQL extensions) sur des flux en quasi-temps réel. No-code/low-code.

F.2 Quand l'utiliser

  • IoT telemetry → filter + aggregate → dashboard / alertes.
  • Détection simple d'événements (seuil dépassé, count par fenêtre).
  • ETL streaming léger sans code.

F.3 Stream Analytics vs Databricks Streaming ⭐

Critère Stream Analytics Databricks Streaming
Code SQL-like Python/Scala
Complexité No-code, simple Code-first, complex events
ML inline Limité Excellent (MLflow)
Cas IoT → filter+aggregate → dashboard Fraud detection ML scoring temps-réel

🎯 Question 305 : "Streaming simple SQL-like no-code"Stream Analytics. "Streaming complex events + ML"Databricks Streaming.

F.4 Sources / cibles supportées

  • Inputs : Event Hubs, IoT Hub, Blob/ADLS
  • Outputs : Power BI (live dashboard), Cosmos DB, Azure SQL, Blob/ADLS, Event Hubs, Functions

G. Microsoft Fabric (awareness 305) ⭐

Plateforme analytics unifiée moderne lancée par MS en 2023. MS pousse Fabric comme l'évolution de Synapse + Power BI + ADF dans une seule expérience SaaS.

G.1 Composants Fabric (vue 305)

Composant Équivalent ancien Quoi
OneLake ADLS Gen2 unifié Storage lake unique partagé par tous les workloads Fabric
Lakehouse Data lake + DW combo Stockage Delta + endpoint SQL pour query
Warehouse Synapse Dedicated SQL DW SQL classique mais serverless dans Fabric
Data Pipelines ADF ETL orchestration
Notebooks Synapse / Databricks Spark Data eng / ML en Python/Spark
KQL DB Synapse Data Explorer pool Time-series / logs
Real-Time Intelligence Stream Analytics Streaming
Power BI Power BI BI / dashboards
Mirroring Synapse Link évolué Réplica near-real-time Cosmos / SQL / Snowflake → Fabric

G.2 Quand le mentionner au 305

  • "Plateforme analytics unifiée moderne all-in-one"Microsoft Fabric (réponse 2025+).
  • "Replica near-real-time OLTP pour analytics, projet nouveau"Fabric Mirroring (Synapse Link sunset progressivement).
  • 🎯 Au 305 : awareness suffisant. Pas de deep dive sur la config.

G.3 Pièges 305

  • 🚨 Synapse encore objectif d'exam AZ-305 actuel — Fabric mentionné en awareness "futur direction".
  • 🚨 Fabric ≠ Synapse. Fabric inclut Synapse-like features mais c'est une nouvelle plateforme SaaS avec OneLake comme storage unifié.

H. Architectures types AZ-305

Modern DW (le grand classique)

[Sources] → [ADF / Synapse Pipelines] → [ADLS Gen2 raw→cleansed→curated]
                                                ↓
                          [Synapse Spark / Databricks] (transform)
                                                ↓
                          [Synapse Dedicated SQL pool] → [Power BI]

Real-time (streaming + batch combinés)

[Sources] → [Event Hub / Kafka]
   ├─ [Stream Analytics / Databricks Streaming] → Cosmos/SQL real-time
   └─ [ADF + Databricks/Synapse] → ADLS → DW → Power BI
[Cosmos OLTP] → [Synapse Link] → [Synapse Spark/SQL] (analytics SANS impact OLTP)
[Azure SQL OLTP] → [Synapse Link] → [Synapse]

Lakehouse moderne (Databricks ou Fabric)

[Sources] → [ADF/Spark] → [ADLS Gen2 / OneLake + Delta Lake]
                              ├─ /bronze (raw)
                              ├─ /silver (cleansed)
                              └─ /gold (BI-ready)
                              ↓
                          [Databricks SQL / Fabric Warehouse / Power BI]

Serverless data lake query

[ADLS Gen2 avec CSV/Parquet] ←──── OPENROWSET ──── [Synapse Serverless SQL pool]
                                                    pay-per-TB scanné, zéro provisioning

I. Decision tree analytics ⭐

Par source de data

D'où vient ta data ?
├─ Data lake (fichiers CSV/Parquet/JSON sur ADLS) ?
│   ├─ Query ad-hoc / ponctuel, zéro provisioning  → Synapse Serverless SQL pool ⭐
│   ├─ DW structuré récurrent pour BI              → Synapse Dedicated SQL pool (load depuis lake)
│   ├─ Transformation big data / ML                → Databricks (recommandé) ou Synapse Spark
│   └─ Plateforme moderne unifiée (greenfield)     → Microsoft Fabric (Lakehouse + Warehouse)
│
├─ Base OLTP (Cosmos / Azure SQL / SQL Server) ?
│   ├─ Besoin analytics quasi-live sans impacter   → Synapse Link / Fabric Mirroring (HTAP)
│   └─ Analytics offline batch                     → ADF/Spark → ADLS → DW
│
├─ Streaming (Event Hub / Kafka / IoT) ?
│   ├─ Simple aggregations SQL-like, no-code       → Stream Analytics
│   └─ Complex events / ML scoring temps-réel      → Databricks Streaming
│
├─ Source on-prem (SQL Server, Oracle, files) ?
│   └─ Ingestion vers Azure                        → ADF + Self-hosted IR
│
└─ Multi-sources SaaS (Salesforce, SAP, etc.) ?
    └─ Orchestration ETL                           → ADF (70+ connectors)

Par besoin business

Quel est ton objectif ?
├─ BI / Power BI dashboards récurrents             → Dedicated SQL pool / Fabric Warehouse
├─ Data Science / ML avec MLflow                   → Databricks Premium ⭐
├─ Exploration ad-hoc data lake (1× par mois)      → Serverless SQL pool
├─ Lift-and-shift DW SQL Server / Teradata         → Dedicated SQL pool (+ ADLS staging + ADF transport)
├─ Lift-and-shift SSIS packages                    → ADF + Azure-SSIS IR
├─ Time-series / logs analytics KQL                → Azure Data Explorer (ou Synapse Data Explorer pool)
├─ Dashboard temps-réel IoT/devices                → Event Hub → Stream Analytics → Power BI
├─ Détection fraude streaming + ML                 → Event Hub → Databricks Streaming
├─ Gouvernance data multi-source (catalogue, PII)  → Microsoft Purview ⭐
├─ Gouvernance interne Databricks                  → Unity Catalog
└─ Migration Hadoop on-prem complète               → Databricks (ou Synapse Spark) + ADLS Gen2 + ABFS

J. Decision matrix consolidée ⭐⭐

Scenario Choix
Storage data lake big data ADLS Gen2 (avec HNS)
Query files data lake sans provisioning, ponctuel Synapse Serverless SQL pool
DW MPP classique (lift-and-shift SQL Server DW) Synapse Dedicated SQL pool
Big data transform / ML dans Synapse Synapse Spark pool
ML / Data Science avancé / Delta Lake medallion / Unity Catalog Databricks
Time-series / logs en KQL Synapse Data Explorer pool ou Azure Data Explorer standalone
ETL/ELT orchestration ADF ou Synapse Pipelines
ETL lift-and-shift SSIS legacy ADF + Azure-SSIS IR
Ingestion data on-prem vers Azure ADF + Self-hosted IR
HTAP analytics sur OLTP sans impact Synapse Link (ou Fabric Mirroring moderne)
Streaming simple SQL-like no-code Stream Analytics
Streaming complex events / ML scoring Databricks Streaming
Plateforme analytics unifiée moderne (post-Synapse) Microsoft Fabric (awareness)
Data governance sur tout l'estate Microsoft Purview
Data governance interne Databricks Unity Catalog
Migration Hadoop on-prem vers Azure Databricks ou Synapse Spark + ADLS Gen2
BI / dashboards Power BI (typiquement on top du DW/Lakehouse)

DEMO

Demo Portail — Créer un Data Factory

  1. Data factories > + Create
  2. Onglet Basics : sub, RG, name (globalement unique), region
  3. Onglet Git configuration : optionnel (Azure DevOps / GitHub pour versionning)
  4. Onglet Networking : Public / Private (Managed VNet)
  5. Review + Create
  6. Une fois créé : Open Azure Data Factory Studio (UI séparée)

Demo Portail — Synapse workspace + SQL pool + Spark pool

1. Créer le workspace

  1. Azure Synapse Analytics > + Create
  2. Onglet Basics : RG, Workspace name, Region
  3. Select Data Lake Storage Gen2 : Storage Account avec HNS + File system name raw
  4. Onglet Security : SQL admin login + password + (recommandé) Entra admin
  5. Onglet Networking : Managed virtual network : Enable, Public access : Disabled (prod)
  6. Review + Create (5-10 min)
  7. Ouvrir : Open Synapse Studio

2. Dedicated SQL pool

  1. mysynapse > Analytics pools > SQL pools > + New
  2. Name mydw, Performance level DW100c
  3. Review + Create → Pause/Resume via la blade pour économiser

3. Apache Spark pool

  1. mysynapse > Analytics pools > Apache Spark pools > + New
  2. Name myspark, Node size Medium, Autoscale 3-10 nodes
  3. Automatic pausing : Enabled (15 min idle), Spark version 3.4
  4. Review + Create

📝 Pour Serverless SQL pool : il est créé automatiquement à la création du workspace (built-in, pas à provisionner).

Demo Portail — Créer un Databricks workspace

  1. Azure Databricks > + Create
  2. Onglet Basics : RG, Workspace name, Region, Pricing Tier : Premium
  3. Onglet Networking : VNet injection si isolation
  4. Review + CreateLaunch Workspace
  5. Dans Databricks UI :
    • Compute > + Create cluster (autoscale, runtime, Photon enabled)
    • Workspace > Create > Notebook (Python/SQL/Scala)
    • Jobs > + Create Job pour scheduler
    • Catalog (Unity Catalog) : metastore + catalogs + schemas

📝 Tier Standard = dev/test. Premium = prod (Unity Catalog, RBAC, audit, SSO, Photon).

Demo Portail — ADLS Gen2 + POSIX ACL

  1. Storage accounts > + Create
  2. Onglet Basics : RG, Name (globalement unique), Performance Standard, Redundancy LRS/ZRS/GRS
  3. Onglet Advanced : Hierarchical namespace : Enabled ⭐ (irréversible)
  4. Review + Create
  5. Créer container : Storage Account > Containers > + Container → name raw
  6. Créer folders : raw > + Add Directoryyear=2026, month=01
  7. POSIX ACL : naviguer vers le folder > ⋯ > Manage ACL
    • Access : Add principal (user/group/SP) + Read/Write/Execute
    • Default : ACL héritée par nouveaux fichiers du folder
    • Save

⚠️ HNS = irréversible, à cocher impérativement à la création pour tout workload analytics.

Demo Portail — ADF pipeline simple (Blob → SQL DB)

Concept-level (pas step-by-step Data Flow).

  1. Studio ADF > Manage > Linked services > + New :
    • Azure Blob Storage (auth via Managed Identity)
    • Azure SQL Database (auth MI + rôle db_datawriter)
  2. Author > Datasets > + New :
    • Source : Blob > DelimitedText (CSV)
    • Sink : SQL DB > Table cible
  3. Author > Pipelines > + New :
    • Drag Copy data activity → configurer Source + Sink + Mapping
    • (Optionnel) Data Flow : Filter → Derived Column → Aggregate → Sink
  4. Author > Triggers > + New :
    • Schedule (cron) ou Event-based (blob créé) ou Tumbling Window (incrémental watermark)
  5. Debug dans le designer → Publish all pour activer

Demo Portail — ADF Self-hosted IR (accès on-prem)

  1. Studio ADF > Manage > Integration runtimes > + New > Self-Hosted
  2. Donner un name → générer 2 auth keys (sauvegarder)
  3. Télécharger l'Integration Runtime agent (Windows)
  4. Installer sur VM on-prem (ou Azure VM faisant proxy)
  5. Entrer l'auth key → register → status Running dans ADF
  6. Linked Services peuvent pointer SQL Server on-prem, file shares, etc.