AWS annonce AWS Glue DataBrew – Cloud Computing | Cloud Computing | Centre de données

  • FrançaisFrançais



  • Le nouvel outil de préparation visuelle des données pour AWS Glue permet aux data scientists et aux analystes de données de nettoyer et de normaliser les données jusqu’à 80% plus rapidement que les approches traditionnelles de préparation des données

    NTT DOCOMO, bp et INVISTA parmi les clients utilisant AWS Glue DataBrew

    SEATTLE– (BUSINESS WIRE) – Aujourd’hui, Amazon Web Services, Inc. (AWS), une société d’Amazon.com, Inc. (NASDAQ: AMZN) a annoncé la disponibilité générale d’AWS Glue DataBrew, un nouvel outil de préparation de données visuelles qui permet aux clients pour nettoyer et normaliser les données sans écrire de code. Depuis 2016, les ingénieurs de données utilisent AWS Glue pour créer, exécuter et surveiller des tâches d’extraction, de transformation et de chargement (ETL). AWS Glue fournit à la fois des interfaces basées sur le code et visuelles, et a considérablement simplifié l’extraction, l’orchestration et le chargement de données dans le cloud pour les clients. Les analystes de données et les scientifiques des données ont souhaité un moyen plus simple de nettoyer et de transformer ces données, et c’est ce que DataBrew propose, avec un service qui permet l’exploration et l’expérimentation de données directement à partir des lacs de données AWS, des entrepôts de données et des bases de données sans écrire de code. AWS Glue DataBrew propose aux clients plus de 250 transformations prédéfinies pour automatiser les tâches de préparation des données (par exemple, filtrer les anomalies, normaliser les formats et corriger les valeurs invalides) qui nécessiteraient autrement des jours ou des semaines pour écrire des transformations codées à la main. Une fois les données préparées, les clients peuvent immédiatement commencer à les utiliser avec AWS et des services d’analyse et d’apprentissage automatique tiers pour interroger les données et former des modèles d’apprentissage automatique. Il n’y a pas d’engagements ou de coûts initiaux pour utiliser AWS Glue DataBrew, et les clients ne paient que pour la création et l’exécution de transformations sur des ensembles de données. Pour commencer, visitez https://aws.amazon.com/glue/features/databrew.

    La préparation des données pour l’analyse et l’apprentissage automatique implique plusieurs tâches nécessaires et chronophages, notamment l’extraction des données, le nettoyage, la normalisation, le chargement et l’orchestration des flux de travail ETL à grande échelle. Pour extraire, orchestrer et charger des données à grande échelle, les ingénieurs de données et les développeurs ETL qualifiés en SQL ou en langages de programmation tels que Python ou Scala peuvent utiliser AWS Glue. Les développeurs ETL préfèrent souvent les interfaces visuelles communes dans les outils ETL modernes à l’écriture de SQL, Python ou Scala, c’est pourquoi AWS a récemment introduit AWS Glue Studio, une nouvelle interface visuelle pour aider à créer, exécuter et surveiller des tâches ETL sans avoir à écrire de code. Une fois que les données ont été déplacées de manière fiable, les données sous-jacentes doivent encore être nettoyées et normalisées par des analystes de données et des scientifiques de données qui opèrent dans les secteurs d’activité et comprennent le contexte des données. Pour nettoyer et normaliser les données, les analystes de données et les scientifiques des données doivent soit travailler avec de petits lots de données dans Excel ou Jupyter Notebooks, qui ne peuvent pas accueillir de grands ensembles de données, soit compter sur des ingénieurs de données et des développeurs ETL rares pour écrire du code personnalisé pour effectuer nettoyage et transformations de normalisation. Dans le but de détecter les anomalies dans les données, des ingénieurs de données hautement qualifiés et des développeurs ETL passent des jours ou des semaines à écrire des flux de travail personnalisés pour extraire des données de différentes sources, puis pivoter, transposer et découper les données plusieurs fois, avant de pouvoir itérer avec les analystes de données. ou des scientifiques des données pour identifier et résoudre les problèmes de qualité des données. Une fois ces transformations développées, les ingénieurs de données et les développeurs ETL doivent toujours planifier les workflows personnalisés pour qu’ils s’exécutent en continu, afin que les nouvelles données entrantes puissent être automatiquement nettoyées et normalisées. Chaque fois qu’un analyste de données ou un scientifique des données souhaite modifier ou ajouter une transformation, les ingénieurs de données et les développeurs ETL doivent à nouveau extraire, charger, nettoyer, normaliser et orchestrer les tâches de préparation des données. Ce processus itératif peut prendre plusieurs semaines, voire plusieurs mois. et par conséquent, les clients passent jusqu’à 80% de leur temps à nettoyer et à normaliser les données au lieu de les analyser et d’en extraire de la valeur.

    AWS Glue DataBrew est un outil de préparation visuelle des données pour AWS Glue qui permet aux analystes de données et aux data scientists de nettoyer et de transformer les données avec une interface visuelle interactive pointer-cliquer, sans écrire de code. Avec AWS Glue DataBrew, les utilisateurs finaux peuvent facilement accéder et explorer visuellement n’importe quelle quantité de données dans leur organisation directement à partir de leur lac de données Amazon Simple Storage Service (S3), de l’entrepôt de données Amazon Redshift et des bases de données Amazon Aurora et Amazon Relational Database Service (RDS). Les clients peuvent choisir parmi plus de 250 fonctions intégrées pour combiner, faire pivoter et transposer les données sans écrire de code. AWS Glue DataBrew recommande des étapes de nettoyage et de normalisation des données telles que le filtrage des anomalies, la normalisation des données aux valeurs de date et d’heure standard, la génération d’agrégats pour les analyses et la correction des données invalides, mal classées ou duplicatives. Pour les tâches complexes telles que la conversion de mots en un mot de base ou racine commun (par exemple, la conversion de «annuel» et «d’une année» en «année»), AWS Glue DataBrew fournit également des transformations qui utilisent des techniques avancées d’apprentissage automatique telles que le traitement du langage naturel (NLP). Les utilisateurs peuvent ensuite enregistrer ces étapes de nettoyage et de normalisation dans un flux de travail (appelé recette) et les appliquer automatiquement aux futures données entrantes. Si des modifications doivent être apportées au flux de travail, les analystes de données et les data scientists mettent simplement à jour les étapes de nettoyage et de normalisation de la recette, et elles sont automatiquement appliquées aux nouvelles données à mesure qu’elles arrivent. AWS Glue DataBrew publie les données préparées sur Amazon S3, ce qui permet aux clients de les utiliser immédiatement dans l’analyse et l’apprentissage automatique. AWS Glue DataBrew est sans serveur et entièrement géré, de sorte que les clients n’ont jamais besoin de configurer, de provisionner ou de gérer des ressources de calcul.

    «Les clients AWS utilisent les données pour l’analyse et l’apprentissage automatique à un rythme sans précédent. Cependant, ces clients nous disent régulièrement que leurs équipes passent trop de temps sur les tâches indifférenciées, répétitives et banales associées à la préparation des données », a déclaré Raju Gulabani, vice-président de la base de données et de l’analyse, AWS. «Les clients apprécient l’évolutivité et la flexibilité des services de préparation de données basés sur le code comme AWS Glue, mais ils pourraient également bénéficier de la possibilité pour les utilisateurs métier, les analystes de données et les data scientists d’explorer visuellement et d’expérimenter les données indépendamment, sans écrire de code. AWS Glue DataBrew dispose d’une interface visuelle facile à utiliser qui aide les analystes de données et les data scientists de tous niveaux techniques à comprendre, combiner, nettoyer et transformer les données. »

    AWS Glue DataBrew est généralement disponible aujourd’hui dans les États-Unis Est (Virginie du Nord), USA Est (Ohio), USA Ouest (Oregon), UE (Irlande), UE (Francfort), Asie-Pacifique (Sydney) et Asie-Pacifique (Tokyo) , avec une disponibilité dans d’autres régions à venir.

    NTT DOCOMO, basé à Tokyo, est le plus grand fournisseur de services mobiles au Japon, servant plus de 80 millions de clients. «Nos analystes profilent et interrogent différents types de données structurées et non structurées afin de mieux comprendre les modèles d’utilisation», a déclaré Takashi Ito, directeur général du département de planification de la plate-forme marketing, NTT DOCOMO. «AWS Glue DataBrew fournit une interface visuelle qui permet à nos utilisateurs techniques et non techniques d’analyser les données rapidement et facilement. Sa capacité avancée de profilage des données nous aide à mieux comprendre nos données et à surveiller la qualité des données. AWS Glue DataBrew et d’autres services d’analyse AWS nous ont permis de rationaliser notre flux de travail et d’augmenter la productivité. »

    bp est l’une des plus grandes sociétés énergétiques intégrées au monde. «Un lac de données est un élément essentiel de notre stratégie d’analyse. L’un des défis auxquels nous sommes confrontés est de ne pas être en mesure d’explorer facilement les données avant de les intégrer dans notre lac de données », a déclaré John Maio, directeur, Data & Analytics Platforms Architecture, bp. «AWS Glue DataBrew dispose d’une fonctionnalité de profilage de données sophistiquée et d’un riche ensemble de transformations intégrées. Cela permet à nos ingénieurs de données d’explorer facilement de nouveaux ensembles de données dans une interface visuelle et d’apporter des modifications afin d’optimiser l’ingestion et de permettre aux analystes de façonner les données pour leurs solutions d’analyse. Nous considérons AWS Glue DataBrew comme un moyen de nous aider à mieux gérer notre plate-forme de données et à améliorer l’efficacité de nos pipelines de données. »

    INVISTA, filiale de Koch Industries, est l’un des plus grands producteurs intégrés au monde d’intermédiaires chimiques, de polymères et de fibres. «Les données sont essentielles pour optimiser nos processus de fabrication. L’un des défis auxquels nous sommes confrontés est de nous assurer que nous disposons d’un lac de données propre qui peut servir de source de vérité pour nos applications d’analyse et d’apprentissage automatique », a déclaré Tanner Gonzalez, responsable de l’analyse et du cloud chez INVISTA. «Les données ingérées dans notre lac de données contiennent souvent des valeurs en double, un formatage incorrect et d’autres imperfections qui les rendent difficiles à utiliser sous leur forme brute. Amazon AWS Glue DataBrew permettra à nos analystes de données d’inspecter visuellement de grands ensembles de données, de nettoyer et d’enrichir les données et d’effectuer des transformations avancées. AWS Glue DataBrew permettra à nos analystes et scientifiques de données d’effectuer des activités d’ingénierie de données avancées, leur donnant la liberté d’explorer leurs données et réduisant le temps nécessaire pour obtenir de nouvelles informations. »

    À propos d’Amazon Web Services

    Depuis 14 ans, Amazon Web Services est la plate-forme cloud la plus complète et la plus largement adoptée au monde. AWS propose plus de 175 services complets pour le calcul, le stockage, les bases de données, la mise en réseau, l’analyse, la robotique, l’apprentissage automatique et l’intelligence artificielle (IA), l’Internet des objets (IoT), le mobile, la sécurité, la réalité hybride, virtuelle et augmentée (VR et AR ), le développement, le déploiement et la gestion des médias et des applications à partir de 77 zones de disponibilité (AZ) dans 24 régions géographiques, avec des plans annoncés pour 15 zones de disponibilité supplémentaires et cinq autres régions AWS en Inde, en Indonésie, au Japon, en Espagne et en Suisse. Des millions de clients – y compris les startups à la croissance la plus rapide, les plus grandes entreprises et les principales agences gouvernementales – font confiance à AWS pour alimenter leur infrastructure, devenir plus agile et réduire les coûts. Pour en savoir plus sur AWS, visitez aws.amazon.com.

    À propos d’Amazon

    Amazon est guidé par quatre principes: l’obsession client plutôt que la concentration sur les concurrents, la passion pour l’invention, l’engagement envers l’excellence opérationnelle et la réflexion à long terme. Avis clients, achats en un clic, recommandations personnalisées, Prime, Fulfillment by Amazon, AWS, Kindle Direct Publishing, Kindle, tablettes Fire, Fire TV, Amazon Echo et Alexa sont quelques-uns des produits et services lancés par Amazon. Pour plus d’informations, visitez www.amazon.com/about et suivez @AmazonActualités.

    Contacts

    Amazon.com, Inc.

    Hotline médias

    Amazon-pr@amazon.com
    www.amazon.com/pr

    Source

    N'oubliez pas de voter pour cet article !
    1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
    Loading...

    Laisser un commentaire

    Votre adresse de messagerie ne sera pas publiée.