Présentation de l'ingénierie des données Synapse dans Microsoft Fabric | Blogue Microsoft Fabric | Structure Microsoft (2023)

Voir le blog d'Arun Ulagaratchagan pour lire l'intégralitéAnnonce de la prévisualisation de Microsoft Fabric.

L'ingénierie des données joue un rôle de plus en plus fondamental dans le parcours d'analyse de chaque organisation. La quantité de données à traiter augmente plus rapidement que jamais, allant des données tabulaires aux documents non structurés, aux images, aux capteurs IoT et plus encore. Toutes ces données doivent être ingérées, traitées à grande échelle et partagées avec l'entreprise. Les ingénieurs de données doivent relever de nombreux défis, notamment la consolidation des données, les considérations de sécurité ainsi que la démocratisation des données, répondant à différents besoins de consommation. Ces processus sont complexes - les données sont fragmentées sur de nombreuses sources, le partage de données nécessite des travaux ETL et une synchronisation, souvent vers des magasins propriétaires, la sécurité doit être répliquée plusieurs fois, ce qui entraîne des incohérences. Cela entraîne des frictions et des obstacles au projet, ce qui entrave la productivité et entraîne de la frustration.

Aujourd'hui, nous sommes ravis d'annoncer la préversion de Synapse Data Engineering, l'une des principales expériences de Microsoft Fabric. Microsoft Fabric permet aux équipes de professionnels des données de collaborer de manière transparente, de bout en bout, sur leurs projets d'analyse, allant de l'intégration de données à l'entreposage de données, en passant par la science des données et l'informatique décisionnelle. Avec l'ingénierie des données comme expérience de base dans Fabric, les ingénieurs de données se sentiront comme chez eux et pourront tirer parti de la puissance d'Apache Spark pour transformer leurs données à grande échelle et créer une architecture Lakehouse robuste.

(Video) Can cross-cloud data analytics be easy? | Microsoft Fabric

Présentation de l'ingénierie des données Synapse dans Microsoft Fabric| Blogue Microsoft Fabric | Structure Microsoft (1)

Avec Synapse Data Engineering, nous aspirons à rationaliser le processus de travail avec vos données organisationnelles. Au lieu de gaspiller des cycles sur la "taxe d'intégration" consistant à relier une collection de produits, à se soucier de faire tourner et de gérer l'infrastructure et à assembler des sources de données disparates, nous voulons que les ingénieurs de données se concentrent sur les tâches à accomplir.

Voici quelques-unes des principales expériences Synapse Data Engineering qui sont lancées dans le cadre de Microsoft Fabric at Build :

Construisez une maison du lac pour toutes vos données organisationnelles

Le Lakehouse Synapse Data Engineering combine le meilleur du lac de données et de l'entrepôt, éliminant les frictions liées à l'ingestion, à la transformation et au partage des données organisationnelles, le tout dans un format ouvert. En faisant du Lakehouse un élément de première classe dans l'espace de travail, nous avons rendu très facile pour tout ingénieur de données de le créer et de travailler avec.

Les utilisateurs peuvent choisir parmi différentes manières d'apporter des données dans le Lakehouse, y compris le flux de données et les pipelines, et ils peuvent même utiliser des raccourcis pour créer des dossiers et des tables virtuels sans que les données ne quittent jamais leurs comptes de stockage. Les données ingérées sont fournies par défaut dans leLac Deltaformat, et les tables sont automatiquement créées pour les utilisateurs.

Le Lakehouse rationalise également le processus de collaboration sur les mêmes données. Étant donné que toutes les données de Microsoft Fabric sont automatiquement stockées au format Delta, différents professionnels des données peuvent facilement travailler ensemble. Le Lakehouse est livré avec un point de terminaison SQL qui fournit des fonctionnalités d'entreposage de données, notamment la possibilité d'exécuter des requêtes T-SQL, de créer des vues et de définir des fonctions. Chaque Lakehouse est également livré avec un ensemble de données sémantiques, permettant aux utilisateurs de BI de créer des rapports directement sur les données de Lakehouse. Power BI peut se connecter aux données du Lakehouse à l'aide du mode "Direct Lake", ce qui signifie qu'il peut lire les données dans le lac, sans mouvement de données et avec d'excellentes performances.

Présentation de l'ingénierie des données Synapse dans Microsoft Fabric| Blogue Microsoft Fabric | Structure Microsoft (2)

(Video) Accelerate innovation, achieve agility on trusted integrated platforms w/ hybrid capabilities | TS03

Runtime avec d'excellentes performances par défaut et des contrôles d'administration robustes

Nous sommes ravis d'annoncer que la préversion publique de Synapse Data Engineering est livrée avec "Runtime 1.1", qui comprend Spark 3.3.1, Delta 2.2 et Python 3.10. Pour éliminer les frictions lors du démarrage, le Spark Runtime est pré-câblé à chaque espace de travail Microsoft Fabric.

Présentation de l'ingénierie des données Synapse dans Microsoft Fabric| Blogue Microsoft Fabric | Structure Microsoft (3)

Dans Microsoft Fabric, nous nous efforçons de fournir aux utilisateurs d'excellentes performances prêtes à l'emploi, sans aucun réglage requis, et Spark ne fait pas exception. Il existe une variété d'optimisations intégrées à l'environnement d'exécution pour garantir que les ingénieurs de données bénéficient toujours d'une expérience performante. Celles-ci incluent des optimisations de requête Spark telles que la mise en cache de partition, mais également des optimisations Delta telles que "V-order". Tous les moteurs Microsoft Fabric écrivent automatiquement Delta avec l'ordre V, ce qui signifie que les données sont automatiquement optimisées pour les rapports BI, ce qui se traduit par d'excellentes performances de requête lors de l'utilisation de Power BI.

Nous nous engageons également à offrir des performances de démarrage incroyables. Dans Microsoft Fabric, chaque espace de travail est fourni avec un « pool de démarrage » Spark avec des configurations par défaut. Ces pools sont maintenus "en direct", ce qui signifie que les sessions Spark démarrent désormais dans les 5 à 15 secondes à partir du moment où vous exécutez votre ordinateur portable, sans frais supplémentaires.

Présentation de l'ingénierie des données Synapse dans Microsoft Fabric| Blogue Microsoft Fabric | Structure Microsoft (4)

Bien que les expériences prêtes à l'emploi soient essentielles, nous réalisons que les administrateurs ont besoin de contrôles plus granulaires lors de la gestion de leur charge de travail Spark. Nous donnons donc aux administrateurs la possibilité de créer leurs propres pools Spark personnalisés où ils peuvent configurer des paramètres tels que la taille des nœuds, le nombre de nœuds, les exécuteurs et la mise à l'échelle automatique.

Nous sommes également ravis d'annoncer que les pools Spark commenceront à partir d'un seul nœud, ce qui est une excellente option rentable pour les tests ou les charges de travail légères.

(Video) What is cloud computing? How does Azure work? | Data Engineering on Microsoft Azure (DP-203) | Ep 1

Présentation de l'ingénierie des données Synapse dans Microsoft Fabric| Blogue Microsoft Fabric | Structure Microsoft (5)

Les administrateurs pourront également installer des bibliothèques publiques et personnalisées dans le pool d'espaces de travail, ainsi que définir le runtime par défaut et configurer les propriétés Spark. Tous les notebooks et les travaux Spark hériteront du runtime, des bibliothèques et des paramètres sans avoir à gérer les éléments artefact par artefact.

Expérience de développeur

Notre objectif est que chaque ingénieur de données ait une expérience de création agréable, quel que soit l'outil de son choix.

Le canevas de création principal proposé dans Synapse Data Engineering est le bloc-notes. Le bloc-notes offre aux développeurs une intégration native Lakehouse, les utilisateurs peuvent facilement collaborer grâce à la co-création intégrée, tandis que le bloc-notes enregistre automatiquement, tout comme dans Microsoft Office. Les blocs-notes peuvent être planifiés ou ajoutés aux pipelines pour des flux de travail plus complexes.

Les ingénieurs de données qui souhaitent utiliser des bibliothèques ad hoc au cours de leur session peuvent installer les bibliothèques Python et R populaires en ligne en utilisant des commandes telles que pip install. Les ordinateurs portables peuvent également se référencer pour des méthodes de travail plus modulaires.

Présentation de l'ingénierie des données Synapse dans Microsoft Fabric| Blogue Microsoft Fabric | Structure Microsoft (6)

Les utilisateurs qui, d'autre part, préfèrent les expériences low-code peuvent également tirer parti de Data Wrangler, une expérience de préparation de données d'interface utilisateur basée sur des dataframes pandas. Les opérations low-code sont automatiquement traduites en code pour plus de transparence et de réutilisabilité.

Présentation de l'ingénierie des données Synapse dans Microsoft Fabric| Blogue Microsoft Fabric | Structure Microsoft (7)

Les ordinateurs portables offrent des expériences de surveillance Spark entièrement intégrées à l'intérieur des cellules de l'ordinateur portable. Le conseiller Spark intégré analyse les exécutions Spark et fournit aux utilisateurs des conseils et des conseils en temps réel.

Les utilisateurs peuvent également accéder au hub de surveillance complet où ils peuvent surveiller toutes les tâches Spark actuelles et passées, en plus d'autres éléments Fabric. Ils peuvent explorer les détails de la tâche, afficher les blocs-notes et les pipelines associés, explorer des instantanés de bloc-notes et accéder à l'interface utilisateur Spark et au serveur d'historique.

Nous savons que de nombreux développeurs préfèrent travailler dans des IDE et nous sommes donc également ravis d'annoncer l'intégration native de VS Code avec des artefacts de code Fabric. L'extension Synapse VS Code permet aux utilisateurs de travailler avec leurs ordinateurs portables, Spark Jobs et Lakehouses directement depuis VS Code. Les utilisateurs peuvent bénéficier d'une prise en charge complète du débogage tout en utilisant les clusters Spark dans leur espace de travail.

(Video) Real Time End to End Data Engineering Project - A Step by Step Guide

Présentation de l'ingénierie des données Synapse dans Microsoft Fabric| Blogue Microsoft Fabric | Structure Microsoft (8)

Enfin, les utilisateurs qui préfèrent travailler dans leur propre environnement peuvent tirer parti de la définition de tâche Spark (SJD) dans Microsoft Fabric. À l'aide du SJD, les utilisateurs peuvent télécharger leurs fichiers JAR existants, modifier les configurations Spark, ajouter une référence Lakehouse et soumettre leurs travaux. Tout comme les ordinateurs portables, les SJD sont livrés avec une surveillance, une planification et une intégration de pipeline.

En plus de ce qui est livré chez Microsoft Build, nous avons également toute une variété de fonctionnalités qui seront publiées dans les mois à venir. Restez à l'écoute des mises à jour mensuelles de notre blog, où nous vous tiendrons au courant de ce qui est nouvellement disponible. Voici le top 10 des choses à attendre :

  1. Partage de la maison du lac :Les utilisateurs finaux qui souhaitent utiliser le Lakehouse pour le reporting ou la science des données pourront découvrir facilement tous les Lakehouses auxquels ils ont eu accès dans OneLake Data Hub, le portail de découverte de données Microsoft Fabric.
  2. Sécurité du Lakehouse :Avec "One Security", la sécurité des tables et des dossiers est appliquée une fois à l'intérieur du Lakehouse et est automatiquement synchronisée sur tous les moteurs et même les services externes. Cela garantit que vos données sont protégées à tout moment, de manière cohérente et fiable.
  3. Réglage automatique Spark :Autotune utilise l'apprentissage automatique pour analyser les exécutions de tâches Spark précédentes et ajuste les configurations afin d'optimiser automatiquement les performances pour les utilisateurs.
  4. Mode de simultanéité élevée :Les clients pourront partager leurs sessions de bloc-notes, ce qui améliorera encore les temps de démarrage des blocs-notes attachés aux sessions existantes (ainsi que la réduction des coûts).
  5. Piscines en direct personnalisées :Les utilisateurs pourront garder leurs pools personnalisés "en direct", ce qui signifie qu'ils pourront également bénéficier des temps de démarrage rapides (comme les pools de démarrage).
  6. Environnements:Pour donner aux utilisateurs plus de flexibilité dans la gestion de leur charge de travail Spark, ils pourront configurer un "environnement". À l'intérieur, ils peuvent sélectionner leur pool Spark, l'environnement d'exécution par défaut et les bibliothèques d'installation. Les environnements peuvent être attachés aux blocs-notes et aux tâches Spark, en remplaçant la valeur par défaut.
  7. Intégration copilote :Les ordinateurs portables seront équipés de capacités de copilote sensibles aux données. Les utilisateurs pourront utiliser des commandes magiques pour générer des explications et du code. Les raccourcis de code vous aideront dans les tâches courantes telles que les corrections de bogues et la documentation.
  8. VSCode.dev :En plus de l'intégration actuelle de VS Code, les utilisateurs pourront également travailler avec VS Code en mode entièrement distant, le code se synchronisant automatiquement avec le service.
  9. Intégration CI/CD :Les utilisateurs pourront valider tous leurs artefacts d'ingénierie de données dans un référentiel git et tirer parti des pipelines de déploiement pour déployer des éléments entre le développement, le test et la production.
  10. Kit de développement Microsoft Fabric :Les utilisateurs pourront travailler avec des éléments d'ingénierie de données par programmation grâce aux API et au Fabric SDK. Nous prendrons également en charge le point de terminaison Livy pour la soumission de tâches par lots programmatiques.

Microsoft Fabric est actuellement en préversion. Essayez tout ce que Fabric a à offrir en vous inscrivant à l'essai gratuit - aucune information de carte de crédit n'est requise. Toute personne qui s'inscrit obtient une capacité d'essai Fabric fixe, qui peut être utilisée pour n'importe quelle fonctionnalité ou capacité, de l'intégration de données à l'utilisation de Spark dans les ordinateurs portables. Les clients Power BI Premium existants peuvent simplement activer Fabric via le portail d'administration Power BI. Après le 1er juillet 2023, Fabric sera activé pour tous les locataires Power BI.

Inscrivez-vous pour l'essai gratuit. Pour plus d'informations lire leDocuments d'essai de tissu.

Si vous souhaitez en savoir plus sur Microsoft Fabric, envisagez :

(Video) Around the Clock with Azure SQL & Azure Data Factory With Ask the Experts | Data Exposed Special

Ressources d'apprentissage

Pour vous aider à démarrer avec Microsoft Fabric, nous vous recommandons plusieurs ressources :

    • Parcours d'apprentissage Microsoft Fabric: découvrez une visite guidée de haut niveau de Microsoft Fabric et comment démarrer
    • Tutoriels Microsoft Fabric: obtenez des didacticiels détaillés avec un guide étape par étape sur la façon de créer une solution de bout en bout dans Microsoft Fabric. Ces didacticiels se concentrent sur quelques modèles communs différents, notamment une architecture Lakehouse, une architecture d'entrepôt de données, des analyses en temps réel et des projets de science des données.
    • Documentation sur les tissus Microsoft: lisez les documents Fabric pour voir la documentation détaillée de tous les aspects de Microsoft Fabric.

Rejoindre la conversation

Vous souhaitez en savoir plus sur Microsoft Fabric auprès des personnes qui l'ont créé ? Rejoignez-nous le 24 maieà 9h00 PST pour un événement en direct de deux jours pour voir Microsoft Fabric en action.Ces sessions seront disponibles sur demande après le 25 maie.Rejoignez l'événement en directou voir leliste complète des séances.

Videos

1. Creating a Metadata Driven Processing Framework Using Azure Integration Pipelines|Data Factory|SQL
(DataDrivenCommunity)
2. Intro to the Data LakeHouse
(nullQueries)
3. Cloud-native Semantic Layer on Data Lake
(Databricks)
4. The Future of Financial Services with Data + AI
(Databricks)
5. Unlock Your SAP Data, Continuously and in Real-Time, with HVR
(Ron Gerber Angelbeat)
Top Articles
Latest Posts
Article information

Author: Ms. Lucile Johns

Last Updated: 06/15/2023

Views: 5267

Rating: 4 / 5 (61 voted)

Reviews: 84% of readers found this page helpful

Author information

Name: Ms. Lucile Johns

Birthday: 1999-11-16

Address: Suite 237 56046 Walsh Coves, West Enid, VT 46557

Phone: +59115435987187

Job: Education Supervisor

Hobby: Genealogy, Stone skipping, Skydiving, Nordic skating, Couponing, Coloring, Gardening

Introduction: My name is Ms. Lucile Johns, I am a successful, friendly, friendly, homely, adventurous, handsome, delightful person who loves writing and wants to share my knowledge and understanding with you.