L’essor des big data

Une définition du big data

La définition du big data est en elle-même problématique. Son équivalent français, « mégadonnées », donne l’idée d’un ensemble volumineux de données. Mais s’en tenir à cette définition est réducteur, car elle ne prend pas en compte l’analyse, le traitement et l’exploitation de celles-ci, leur conférant ainsi une certaine valeur. L’aspect dimensionnel ne suffit donc pas à résumer le big data.

De multiples définitions de l’expression big data (figure 1) peuvent être proposées. Une caractéristique commune revient néanmoins régulièrement, celle du 3V : Volume, Variety et Velocity.

Volume : Le volume des données traitées est une caractéristique majeure du phénomène étudié, et explique son nom. Définir une taille précise semble non approprié, mais le téraoctet est un ordre de grandeur du volume de données traitées quotidiennement ¹.
Velocity : La rapidité d’exécution est souvent essentielle lors de l’application du big data tant la vitesse de génération de nouvelles données est importante. C’est pourquoi les services proposées par les big data tendent à s’exécuter le plus rapidement possible, voire à traiter les données en temps réel.
Variety : Les données à traiter sont souvent de natures diverses : photos, vidéos, tweets etc. Les algorithmes d’analyse doivent permettre de traiter tous les types de données qui l’alimentent afin d’en obtenir des interprétations exploitables.

A cela peuvent se greffer deux autres V optionnels : Veracity et Value, prônés respectivement par IBM et Oracle²
Figure 2 - Définitions de « big data » basée sur une étude auprès de 154 comités exécutifs en Avril 2012¹

Le big data désigne ainsi un processus visant à collecter massivement des données (vérifiant les 3V), à les traiter, les analyser et enfin les interpréter, avec une finalité bien définie. Se distinguent dès lors deux phases lors de l’application des big data : la gestion des données, comprenant la notamment la collecte et le stockage des données, et l’analyse de celles-ci.

Une évolution récente et fulgurante

Afin d’étudier l’essor des big data au cours du temps, le nombre d’article traitant du big data et des problématiques liées a été utilisé comme indicateur. Ainsi, en entrant comme équation de recherche « big data » AND (privacy OR security) dans Web of Science, « big data » (title) ; security OR privacy (keywords) dans Scopus et « big data » & « vie privée » & (risqu* | surveillance* | politiq*) dans Europresse, 257 articles ont été obtenus avec WoS et 409 avec Scopus. L’évolution chronologique suivante a été obtenue.

Figure 3 - Evolution du nombre d’articles répertoriés dans Scopus, Web of Science et parus dans la presse française

La chute en 2015 étant liée au commencement de l’année, une augmentation du nombre de publications est observée au cours du temps. Deux explications peuvent justifier ce phénomène :

Les technologies permettant de traiter ces données massives commencent à se développer : il s’agirait alors d’un phénomène en pleine expansion, d’où le nombre croissant de parutions scientifiques.
Edward Snowden a révélé en juin 2013 le projet PRISM : la tendance observée peut s’expliquer par le bouleversement provoqué par une telle révélation. On a d’ailleurs observé que le nom Snowden revenait un certain nombre de fois dans les articles de presse. En cherchant une occurrence de Snowden dans les résumés d’articles scientifiques (n’ayant accès pour l’analyse sous Gargantext du texte intégral), un seul article a été trouvé. Il y a donc un sensationnalisme qui n’est sans doute pas recherché par les chercheurs sur ce sujet.

Il faudrait attendre le nombre d’articles parus en 2015 pour confirmer ou infirmer une de ces hypothèses.

Les articles commencent à paraître en 2011. Il se peut que le sujet ait été traité avant 2011, en considérant les big data sous une autre appellation.

Mais il est plus probable que cet essor soit lié au développement des technologies et à la mise en place récente de systèmes permettant de collecter une quantité importante de données.

Des applications dans tout type de secteur

Le panorama des applications du big data est large : IBM, un des pionniers dans l’analyse des données, propose un éventail d’applications dans des domaines allant de l’énergie à la santé en passant par les télécommunications et la finance ³. Quelques usages concrets du big data dans trois cadres d’application distincts sont présentées ci-dessous.

Figure 4 – Différentes applications du big data

Les entreprises et les professionnels du secteur laissent ainsi apparaître différentes manières d’exploiter les procédés big data. Cela peut porter sur l’amélioration du quotidien (domaine médical) ou l’obtention d’offres personnalisées (sous forme financière pour Datanoos, ou sous forme de publicité ciblée pour Critéo).

Mais des acteurs comme la Cnil ou la Quadrature du net alertent et préviennent les risques de dérives concernant l’usage des big data. Ils ouvrent en effet la porte à la surveillance de masse, mise en place par exemple par la NSA avec son projet Prism (lien vers la partie vie privée à mettre).

Quelles données ? Quelles provenances ?

Les sources des données exploitées sont multiples et dépendent de la finalité visée. Ainsi, pour déterminer la météo de demain, les informations récoltées proviennent essentiellement de capteurs ou d’images satellites ; pour la médecine les dossiers médicaux.

Dans le cadre de la problématique étudiée, les données cruciales sont les données personnelles. Franck Baudot, membre du pôle technologique de la Cnil, définit dans un entretien qu’il nous a accordé la donnée personnelle comme étant « une donnée qui est rattachable à une personne identifiée directement ou indirectement ». Elles peuvent être générées lors des navigations sur internet : les cookies ⁴, les requêtes sur un moteur de recherche, les photos et vidéos postées sur un réseau social en sont des exemples. Au-delà du web, les informations comme le nom d’un individu, son adresse de résidence, le numéro de sécurité sociale sont des données personnelles susceptibles d’être exploitées par un procédé big data.

Techniquement rien n’empêche d’accéder aux conversations et commentaires des internautes, ainsi qu’à leurs données personnelles laissées lors de leur navigation sur internet ⁵.

Le stockage des données

Le stockage des données et leur analyse nécessite des entrepôts de données (ou datawarehouse) massifs et le plus souvent coûteux pour les entreprises. Les avancées du Cloud Computing ont permis de délocaliser ce stockage et de le rendre plus accessible. Ainsi, les capacités de calcul de super-ordinateurs (Saas : Software as a Service) et de stockage des serveurs du Cloud (IaaS : Infrastructure as a Service) sont mis à disposition des entreprises qui peuvent exploiter les données.

Le problème que soulève le stockage des informations dans le Cloud a été mis en lumière par une analyse quantitative menée avec Gargantext. A partir du corpus issu de Web of Science (décrit plus haut), la recherche des plus proches voisins du termes « privacy » a fait remonter des termes comme « cloud-based augmentation », « large clouds » mais aussi « streaming data collection », « malicious domains ».

Figure 5 – Occurrences du terme « privacy », permettant de déterminer les plus proches voisins de ce terme

Que le stockage se fasse dans les serveurs de l’entreprise ou dans le cloud, le problème de la sécurité des données se pose : comment être sûr que les données personnelles ne sont pas menacées ?

L’appellation « Cloud » regroupe différents types de services proposés. Ainsi, on distingue les clouds privés des clouds publics. Le premier type de cloud, aussi connu sous le nom de cloud interne, est employé par une entreprise unique. Seule cette dernière a accès aux ressources du cloud, qui sont stockées dans un serveur propre à l’entreprise. Le second type de cloud permet à l’entreprise de payer un service extérieur pour héberger ses données sur de nombreux serveurs, qui sont par ailleurs utilisés par d’autres utilisateurs⁶.

D’après les Echos, il n’y a pas de véritable sécurité dans le cloud ; mettant en avant sa vulnérabilité face aux attaques des pirates, son manque de fiabilité (sujet aux bugs, pannes etc.), mais aussi la possibilité d’espionner les données présentes sur le cloud (éventuellement par un technicien en charge du service)7. Un type de cloud en particulier n’est pas désigné, mais au vu des arguments avancés, il s’agit du cloud public.

Si les entreprises n’ont pas recours exclusivement à des clouds privés, c’est avant tout, d’après [6], pour des raisons économiques : un cloud privé peut être coûteux en infrastructures pour des entreprises ayant des besoins limités. Néanmoins, les clouds publics sont-ils si peu sûrs, comme l’affirment les Echos ? Un article scientifique de l’International Journal of Computer Science and Software Engineering (IJCSSE)[7] présente que les risques liés à la sécurité sont, d’une part mineurs (d’un point de vue client, puisque les arguments avancés sont que les principaux problèmes rencontrés sont les vitesses de traitements), et d’autre part connaissent des solutions pouvant être mises en place (une solution est l’emploi d’un cloud hybride, mêlant les caractéristiques des clouds publics et privés, permettant ainsi de réduire la traçabilité des données). Néanmoins, le nombre d’articles récents sous Scopus présentant de nouvelles méthodes de sécurisations du Cloud étant important, il est possible qu’il n’existe pas actuellement une méthode canonique mais plusieurs méthodes éparses de sécurisation.

Un modèle économique contesté ?

Les applications du big data ne sont pas nécessairement à but lucratif (les utilisations dans l’assistance médicale en sont des exemples). Néanmoins, la question de la monétisation des données s’impose, tant les possibilités offertes aux entreprises par l’exploitation des informations personnelles sont nombreuses, donnant potentiellement une plus-value à ces mêmes entreprises. À ce titre, la monétisation des données n’est pas définie par la vente des données, mais plutôt par l’obtention d’un bénéfice financier des données et de l’analyse « big data » de celles-ci. Critéo est en ce sens un exemple d’entreprise qui valorise ses données en offrant aux utilisateurs des offres personnalisée. Le service qu’offre Critéo est donc adressées aux entreprises qui souhaitent avoir une publicité ciblée donc plus efficace ⁹. Pour parvenir à ses fins, Critéo s’appuie sur les cookies générés lors des navigations sur les sites des entreprises partenaires. Mais une telle utilisation des cookies traduit une certaine dissymétrie des relations entre les utilisateurs qui génèrent ces données et les entreprises qui les exploitent, puisque seules ces dernières bénéficient de l’utilisation des données (en considérant que la publicité n’est pas un service profitable à l’utilisateur). En plus de cette dissymétrie des usages, il existe une dissymétrie des connaissances sur le sujet car les utilisateurs n’ont pas nécessairement conscience du fait qu’ils génèrent des données ; c’est en effet ce que note Reda Gomery, responsable Data et analytics chez Deloitte dans Le Monde¹⁰.

Ce modèle économique n’est cependant pas une généralité. Des entreprises comme Datanoos se proposent de jouer le rôle d’intermédiaire entre les entreprises et les utilisateurs de la plateforme. Ces derniers peuvent transmettre leurs données à Datanoos qui les revend à des entreprises en redonnant la moitié des bénéfices aux utilisateurs.

Le manque d’accord explicite entre les deux parties peut justifier le non-retour des bénéfices réalisés par les entreprises exploitant les données personnelles. Une entreprise comme Google peut valoriser de différentes manières les mots entrés sur son moteur de recherche. Selon la directrice générale de Datanoos ¹⁰, l’entreprise américaine gagne ainsi 50 milliards de dollars, sans que l’utilisateur ait conscience d’une telle utilisation de ses recherches sur internet. Par ailleurs, Franck Baudot¹¹ précise

« il n’existe pas de propriété de la donnée comme il existe de propriété intellectuelle. [Ainsi, la loi informatique et liberté sur laquelle se base la Cnil ne prévoit pas de] paternité de la donnée ; paternité qui permettrait peut-être d’exiger des contreparties, qu’elles soient financières ou autres ».

Mais derrière cette monétisation se cache, selon Le Monde¹⁰, un danger réel : celui de l’exploitation abusive des données. En effet, les offres proposées par les entreprises en échanges des données personnelles tendent à considérer la donnée comme une nouvelle monnaie¹². En cela, les données sensibles, vues comme monnaie d’échange, peuvent être exploitées par une entreprise tiers sans avoir connaissance de ce qui est transmis. Ceci illustre la dissymétrie des connaissances décrite précédemment. Néanmoins, d’après un sondage Toluna pour Le Monde, 84% des internautes sont inquiets de l’utilisation qui peut être faite de leurs données (74% craignent un usage frauduleux, 53% que leur vie privée soit atteinte).

Notes

1. Site internet de la société Criteo : http://www.criteo.com/fr/what-we-do/technology/; Site internet de la société IBM : http://www.ibm.com/fr/fr/.
2. Amir Gandomi, Haider Murtaza, Beyond the hype : Big data concepts, methods, and analytics, Int J. Information Management 35(2), 2015, p. 137-144.
3. Société IBM, Le Big Data à l’écoute de votre business : définition du Big Data, publié en 2015, consulté le 03/05/2015.
4. Société Microsoft, Qu’est-ce qu’un cookie ?, publié en 2015, http://www.microsoft.com/fr-fr/security/resources/cookie-whatis.aspx, consulté le 01/05/2015.
5. Brasseur Christophe, Enjeux et usages du Big Data : technologies, méthodes et mise en oeuvre. Lavoisier, 2014.
6. Nitish Chopra, Sarbjeet Singh, Deadline and Cost based Workflow Scheduling in Hybrid Cloud, 2nd International Conference on Advances in Computing, Communications and Informatics, 2013, p. 840-846.
7. Guillaume Pierre, Cloud et sécurité : le point sur 7 questions qui fâchent, Les Echos, publié le 09/04/2013, consulté le 15/05/2015
8. Elmustafa Sayed Ali Ahmed, Rashid A.Saeed, A Survey of Big Data Cloud Computing Security, International Journal of Computer Science and Software Engineering (IJCSSE), 2014, p. 78-85
9. Criteo, Choisir Criteo, publié en 2015, http://www.criteo.com/fr/why-criteo/, consulté le 01/05/2015.
10. Caulier Sophy, Vendre ses données pour prendre sa part du gâteau, Le Monde, publié le 03/11/2014, http://www.lemonde.fr/economie/article/2014/11/03/vendre-ses-donnees-pour-prendre-sa-part-du-gateau_4517360_3234.html, consulté le 04/05/2015.
11. Source: entretien Frank Baudot, le 24/03/2015. Voir Interview de Frank Baudot (Expert de la CNIL)
12. Vanlede Geneviève, Non, les big data ne sont pas toujours beautiful, La Provence, publié le 15/12/2014, disponible sur Europress, consulté le 15/12/2014

Des outils et méthodes controversées