Big data abstract digital concept

Transformer l’infrastructure pour la nouvelle ère des grandes données et du calcul haute performance

Digitalisation Maximisez la valeur de l'entreprise grâce à des informations plus rapides, plus approfondies et de meilleure qualité en transformant l'infrastructure informatique en une infrastructure capable de gérer de manière fiable et efficace à la fois l'analyse de grosses données (Big Data Analytics BDA) et l'informatique haute performance (High Performance Computing HPC). Cet article traite des avantages de l'évolution vers une infrastructure logicielle (SDI) à partir d'environnements de calcul traditionnellement discrets. Un SDI est une infrastructure partagée unique, plus efficace et plus productive pour les charges de travail HPC et BDA ainsi qu'une nouvelle génération de charges de travail nées dans le cloud.

SMA

SMA

En raison de la nécessité d’obtenir des résultats plus rapides et de meilleure qualité, les frontières entre les charges de travail à forte intensité de calcul et les charges de travail à forte intensité de données s’estompent. Comme les techniques les techniques d’acquisition de données s’améliorent et que la simulation devient plus sophistiquée, de grandes quantités de données sont collectées, générées et stockées à chaque étape de l’analyse, depuis la saisie des données jusqu’à l’analyse, la visualisation et l’interprétation en passant par le traitement et la simulation jusqu’à l’analyse, la visualisation et l’interprétation en aval. Dans tous les secteurs d’activité, les entreprises s’efforcent de tirer le meilleur parti de leurs données, ce qui nécessite une infrastructure informatique plus rapide, plus évolutive et plus rentable.

Alors que nous collectons, traitons et stockons des ensembles de données plus importants provenant de toutes les sources, comme les capteurs, les instruments, les fichiers journaux, etc., les charges de travail du HPC ressemblent de plus en plus à des charges de travail importantes. Les gros volumes de données sont de plus en plus lourds, tant en termes de performances que de taille, et ressemblent davantage à des charges de travail HPC, en particulier dans les domaines de la cybersécurité, de la détection des fraudes et de l’analyse des données sociales. Les deux types de charges de travail imposent des exigences de plus en plus similaires aux infrastructures informatiques, de sorte que la même infrastructure peut prendre en charge les deux.

La nouvelle génération de charges de travail puissantes et exigeantes en données.

Dans l’industrie automobile, les ingénieurs utilisent des logiciels HPC pour simuler les collisions de véhicules, puis effectuent des essais de collision et recueillent des données à partir de dizaines de milliers de capteurs pour une analyse plus poussée. De plus en plus, ils analysent de grandes quantités de données telles que les données de défauts sur le terrain, les données de service et de garantie et la télémétrie en temps réel des véhicules utilisés. En étendant le HPC avec de grandes analyses de données, les fabricants peuvent obtenir une analyse plus approfondie des pétaoctets de données pour développer de meilleurs produits. Dans les soins de santé et les sciences de la vie, les pipelines médicaux génomiques sont des flux de travail importants et exigeants avec des douzaines de tâches de calcul et de données intensives qui couvrent le séquençage de la prochaine génération (NGS), la médecine translationnelle et les soins de santé personnalisés. Pour développer de nouvelles méthodes de traitement, les institutions s’appuient sur le HPC et les technologies de données de plus en plus importantes comme Apache Spark pour exécuter des centaines de milliers de tâches d’analyse de pétaoctets de données, y compris du texte et des images, souvent réparties sur des dizaines de milliers de fichiers.

Les sociétés de services financiers s’efforcent de maximiser la valeur de leurs activités existantes tout en tirant parti de nouvelles sources de revenus. Les entreprises comme Fannie Mae analysent de plus en plus de données structurées et non structurées, y compris les courriels et les fichiers PDF, afin d’améliorer les profits et le rendement des placements et d’identifier les tendances et les tendances dans les activités de leurs clients ou de leurs employés qui indiquent des occasions de placement ou des fraudes.

La nécessité d’une infrastructure commune de calcul et de données

Pour supporter ces charges de travail de calcul et de données plus exigeantes, les entreprises exigent une infrastructure informatique plus rapide, plus évolutive et plus puissante. L’ajout de matériel supplémentaire n’est pas toujours possible ou durable en raison des coûts, de la complexité et du risque de croissance des clusters et des données. Il est souhaitable et faisable de construire une infrastructure commune pour les deux types de charges de travail.

Dans un document conjoint de chercheurs de l’Université de l’Indiana et de l’Université Rutgers, ils ont conclu que le HPC et le Big Data Analytics ont de nombreuses similitudes et soutiennent l’utilisation d’une pile d’infrastructure commune et unifiée.

Les chercheurs ont conclu que le HPC et de grandes quantités de données peuvent partager la même infrastructure, éliminant ainsi le besoin de silos informatiques séparés. Le partage peut également réduire considérablement les coûts des données, de sorte que les données peuvent être stockées une seule fois et réparties sur différentes charges de travail. La consolidation des silos informatiques et de stockage simplifie l’administration du système afin de réduire davantage les coûts et d’augmenter l’efficacité.

Il est également difficile de combiner plusieurs charges de travail sur une même infrastructure, y compris la gestion des accords de niveau de service (SLA), l’harmonisation des gestionnaires de charge de travail et de ressources, et la prise en charge de plusieurs systèmes matériels et de fichiers sur site et dans le nuage. Comment une entreprise dispose-t-elle de cette infrastructure partagée et partagée sur différentes plates-formes matérielles, soit sur site, soit dans le cloud public et hybride ?

Introduction de l’approche de l’infrastructure définie par logiciel

Ces dernières années, les organisations informatiques ont reconnu les limites des architectures informatiques traditionnelles. Une approche en silo tend à promouvoir une utilisation et un accès inefficaces aux ressources informatiques, ce qui conduit à des goulets d’étranglement artificiels même lorsque la capacité globale est suffisante. L’introduction rapide de grands cadres de données tels que Hadoop MapReduce et Apache Spark, qui bénéficient d’une utilisation maximale des ressources en parallèle, a renforcé la nécessité d’une approche informatique plus cohérente.

En réponse, les entreprises recherchent maintenant une infrastructure logicielle (SDI), un environnement dynamique, conscient des ressources, du travail et des données, qui s’adapte automatiquement aux exigences de l’informatique en temps réel. Un SDI optimise le placement et l’exécution des charges de travail et orchestre les ressources de l’infrastructure à la demande pour répondre aux SLA. Il est indépendant de la plate-forme et prend en charge un large éventail de matériel, de cadres et d’API.

Le développement en SDI permet à votre organisation de gérer le HPC et les grandes applications de données et une nouvelle génération de frameworks Born-in-the-Cloud sur une infrastructure unique, plus efficace, plus rapide et plus agile.

Avantages de SDI

Un SDI supporte mieux les flux de travail à forte intensité de calcul et de données que les architectures informatiques en silo :

  • Prise en charge de la multilocation afin que différentes entreprises et applications puissent partager l’infrastructure d’une manière bien organisée. Le partage des ressources réduit les coûts et permet à l’informatique d’adapter les ressources pour prendre en charge les nouvelles activités ou les besoins de calcul intensif. Les ALS réglementent l’utilisation des ressources et garantissent l’équité pour tous.
  • Optimisation de l’utilisation des ressources de calcul de toutes sortes pour un temps de réponse jusqu’à 150 fois plus rapide

Mise à l’échelle pour le traitement d’un grand nombre de fichiers et de travaux et d’E/S extrêmes. Dans certaines industries, comme les sciences de la vie, un seul flux de travail peut créer et accéder à un million de fichiers. SDI prend en charge une variété d’architectures de stockage et de périphériques pour répondre aux besoins massifs d’entrées/sorties.

HPC-Software-Defined

Illustration : Exemple d’une infrastructure SDI

 

Les solutions IBM Software-Defined Infrastructure (SDI) améliorent l’agilité, la productivité, l’efficacité et la qualité de l’entreprise.

De nombreux clients reconnaissent déjà les avantages d’un SDI. A titre d’exemple d’un portefeuille SDI global, l’illustration montre les solutions IBM® Software Defined Infrastructure comprenant IBM SDI Computing et IBM Spectrum Storage™, qui se heurtent manifestement aux charges de travail les plus exigeantes.

Le portefeuille IBM Spectrum Computing (anciennement IBM Platform Computing™) fournit des solutions sophistiquées et éprouvées de gestion de la charge de travail et des ressources – IBM Spectrum LSF, IBM Spectrum Symphony™ et IBM Spectrum Conductor™ – pour de nombreuses organisations parmi les plus importantes au monde, notamment Red Bull Racing, Wellcome Sanger Trust, Cypress Semiconductor et CME Group. IBM Spectrum Storage est le premier portefeuille de stockage défini par logiciel conçu pour simplifier et accélérer la gestion du stockage.

IBM Software Defined Infrastructure a aidé les clients de Forbes 2000 et de Citigroup à accélérer leur analyse jusqu’à 100 fois tout en réduisant les coûts d’infrastructure grâce à une combinaison d’infrastructures sur site et en cloud tout en répondant plus rapidement aux exigences changeantes de l’entreprise.

Conclusions

En adoptant l’infrastructure logicielle (SDI), vous pouvez faire évoluer et accélérer l’analyse, même si le volume, la vitesse et la variété des données ne cessent de croître. Les clients de nombreuses industries utilisent le portefeuille de solutions IBM Software Defined Infrastructure – IBM Spectrum Computing et IBM Spectrum Storage – pour une plus grande agilité, productivité et efficacité des TI, et pour une meilleure compréhension des données de tous types.

 

Cet article est basé sur des informations d’IBM, rédigées par Michael Gähwiler, WIRD Group. WIRD Group est l’un des principaux fournisseurs d’IBM HPC Solutions et IBM Platinum Business Partner pour la Suisse.

Unbenannt