Qu'est-ce que le big data ?

Le terme big data fait référence aux données dont le coût de stockage, de gestion et d'analyse dans des systèmes de base de données traditionnels (relationnels et/ou monolithiques) serait généralement trop élevé. Habituellement, ces systèmes ne sont pas rentables, car ils ne disposent pas de la flexibilité nécessaire pour stocker des données non structurées (comme des images, du texte et des vidéos), pour accommoder des données "à haute vélocité" (en temps réel) ou pour s'adapter automatiquement à de très gros volumes de données (de l'ordre du pétaoctet).

C'est la raison pour laquelle l'adoption de nouvelles approches de gestion et de traitement du big data, parmi lesquelles les systèmes de base de données Apache Hadoop et NoSQL, s'est généralisée ces dernières années. Toutefois, ces solutions sont souvent complexes à déployer, à gérer et à utiliser sur site.

Dans quel contexte le big data est-il né ?

Par le passé, la plupart des données client (par exemple, les transactions bancaires) pouvaient être qualifiées de transactions bien structurées. Aujourd'hui, les flux de données générés au quotidien par les organisations sont issues d'interactions en ligne avec leurs clients. Elles ne sont pas structurées, et leur volume est gigantesque. L'émergence récente de "l'Internet des objets", un terme qui décrit le réseau mondial de milliards d'appareils et de capteurs interconnectés, a entraîné une explosion du volume de données sous la forme de texte, de vidéos, d'images et même de contenus audios. Enfin, dans certains secteurs réglementés, certaines données doivent rester accessibles à des fins de conformité, au lieu d'être archivées.

Pourquoi le big data est-il important ?

La capacité à dégager constamment une valeur commerciale des données est désormais une caractéristique des organisations qui prospèrent, quelle que soit leur activité ou leur taille. Dans certains secteurs (comme le commerce de détail, la publicité et les services financiers - la liste ne cesse de s'allonger), c'est même une question de survie.

Plus vous avez de données, plus l'analyse que vous en faite sera fructueuse. Nombreuses sont les entreprises, tous secteurs confondus, à avoir misé sur le potentiel immense du big data pour dégager des insights qui se sont révélés fondamentaux pour leur activité. De la même manière, plus vous disposez de données pour entraîner vos modèles de machine learning, plus ces derniers sont efficaces. C'est pourquoi le machine learning et le big data sont parfaitement complémentaires.

Comment savoir si vos données peuvent être qualifiées de "big data" ?

Bien que le volume de données de nombreuses entreprises n'ait pas encore atteint le pétaoctet, il est possible que leurs données possèdent l'une des deux caractéristiques essentielles du big data. Et si vous pouvez être sûr d'une chose, c'est que vos données vont croître avec le temps, probablement de manière exponentielle. À cet égard, le point de départ du "big data" est un "petit" volume de données.

Pourquoi le cloud constitue-t-il la meilleure plate-forme pour le big data ?

Le cloud computing permet de stocker, de traiter et d'analyser des données de manière plus évolutive, flexible et rentable qu'avec un déploiement sur site. Il offre également plus de sécurité. Lorsque vos volumes de données connaissent une croissance exponentielle, ces avantages font toute la différence. Vous disposez en toutes circonstances de ressources de stockage et de traitement adaptées à vos besoins, et vous pouvez ainsi exploiter toute la valeur de vos données. En outre, pour les entreprises qui se lancent dans l'analyse big data et le machine learning, gérer des systèmes de big data sur site peut s'avérer extrêmement complexe. Avec le cloud, vous pouvez expérimenter ces disciplines via des services gérés tels que Google BigQuery et Google Cloud ML Engine, avec une facturation à l'utilisation.

En savoir plus :