Que ce que le Big Data ?
Le
monde aujourd’hui produit des centaines de Téraoctet de données
chaque minute (30 milliards de publications sur Facebook, Sur Tweeter
environ 400 millions de tweets par jour), cette réalité a obligé
les chercheur de concevoir des nouvelle méthodes de stockage,
d’analyse de ce gros volume de données. Ainsi que la naissance de
« Big Data »[ CITATION Ale16 \l 1033 ].
Selon
plusieurs spécialistes, le Big Data peut être définit par 7 V :
Volume qui
peut s’explique par l’évolution de l’utilisation d’internet
et smartphones et réseaux sociaux, capteurs des voitures, capteurs
sous les routes, données de prévision météo, données
historiques/statistiques de densité de trafic etc. [ CITATION IBM \l 1033 ]
Variété des
donnes des différentes type, texte, image ou vidéo, audio, opinion
exprimée sur un réseau social des différentes sources de donnes.
Vélocité
(vitesse) la rapidité d’accès
et d’analyse données en temps réel.
Véracité comment
on peut garantir que les données venant de Facebook par exemple sont
vrais et pas des rumeurs, ou venant d’un capteur en panne etc.
Plus
tard 3 autre v ont ajoutes, valeur,
variabilité,
visibilité
[ CITATION Ale16 \l 1033 ].
Problématique ?
Les
principal problématiques qui se posent au Big Data, ces sont :
-
Le Stockage des de ces gros volume de données sur les serveurs traditionnels ou les services du Cloud Computing.
-
La sécurité de Big Data devient le problème qui se pose aux entreprises.
-
Quelle architecture mettre en place centralisé ou repartie.
-
réduire le temps d'exécution des traitements.
-
Problème des erreurs dans les donnes « nettoyage des données »
-
Développer des nouvelles Services basées sur le Big Data[ CITATION dev \l 1033 ].
Les
outils de Big Data
Hadoop :
est un Framework open source Java principalement
conçu pour fonctionner sur
Big Data par traitement distribué [ CITATION Pra13 \l 1033 ]
Big Data par traitement distribué [ CITATION Pra13 \l 1033 ]
MapReduce :
est un modèle de programmation dérivé de
Google MapReduce pour le traitement de gros volumes de données
distribués.
Mahout :
est une populaire bibliothèque. Qui comprend les algorithmes les
plus populaires de Data Mining et d'apprentissage
automatique « machine Learning ».
HBase :
est une grande base de données distribuée pour Hadoop.
Hive :
est un entrepôt de données basé sur Hadoop comme un Framework
développé par Facebook.
Il permet aux utilisateurs de lancer des requêtes dans des langages de type SQL, tels que HiveQL.
Il permet aux utilisateurs de lancer des requêtes dans des langages de type SQL, tels que HiveQL.
Pig :
est une plate-forme open source basée sur Hadoop pour analyser les
ensembles de données à grande échelle via son propre langage
SQL-like : Pig Latin.
Et d’autre comme Sqoop,
Flume,
HCatalog,
Oozie,
HDFS,
Ambari etc.
[ CITATION Pra13 \l 1033 ]
L’analyse
de Big Data ?
En
général l’analyse de Big Data est destinée à
le Data Mining pour produire une
connaissance.
Et
le Data Mining intégrée plusieurs
disciplines comme les bases de données, entrepôts des données,
statistique, apprentissage automatique « machines Learning »,
calcul à haute performance « High
performance computing », la
reconnaissance de formes, les réseaux de Neurones, la visualisation
de données, la récupération d'informations, le traitement d'images
et de signaux et l'analyse spatiale ou temporelle des données [ CITATION Ale16 \l 1033 ].
Mais
au cours des dernières années plusieurs chercheurs travaillent sur
l’analyse de Big Data à l’aide des techniques de Machine
Learning « Apprentissage automatique » comme réseaux de
neurone, ce qui amène à la naissance de Deep Learning.
Deep
Learning va jouer un essentiel rôle dans l’analyse prédictive de
Big Data. Les géants de l’internet Facebook et Google applique le
Deep Learning dans certains de leurs produits, Facebook utilise Deep
Learning dans l’application DeepFace et Google l’utilise dans son
application Google's translator[ CITATION XWC14 \l 1033 ].
Les
objectifs de ce projet se résument donc en la mise au point, des
possibilités de ces techniques dans l’analyse de Big Data.
Références
(s.d.). Récupéré sur IBM: https://www.ibm.com https://www.ibm.com
(s.d.). Récupéré sur developpez.com:
http://soat.developpez.com/tutoriels/bigdata/datalakes-architecture-big-data/
AlexanderTolstoy, N. M. (2016). Big Data, Fast Data and Data Lake
Concepts. Procedia Computer Science.
Lin, X. W. (2014). Big Data Deep Learning: Challenges and
Perspectives. IEEE Access, 514-525.
Prajapati, V. (2013). Big Data Analytics with R and Hadoop.
Packt Publishing.
0 Comments