Que ce que le BigData


Préparer par : AhmedAbderrahmane

Que ce que le Big Data ?
Le monde aujourd’hui produit des centaines de Téraoctet de données chaque minute (30 milliards de publications sur Facebook, Sur Tweeter environ 400 millions de tweets par jour), cette réalité a obligé les chercheur de concevoir des nouvelle méthodes de stockage, d’analyse de ce gros volume de données. Ainsi que la naissance de « Big Data »[ CITATION Ale16 \l 1033 ].
Selon plusieurs spécialistes, le Big Data peut être définit par 7 V :
 Volume qui peut s’explique par l’évolution de l’utilisation d’internet et smartphones et réseaux sociaux, capteurs des voitures, capteurs sous les routes, données de prévision météo, données historiques/statistiques de densité de trafic etc. [ CITATION IBM \l 1033 ]
Variété des donnes des différentes type, texte, image ou vidéo, audio, opinion exprimée sur un réseau social des différentes sources de donnes.
Vélocité (vitesse) la rapidité d’accès et d’analyse données en temps réel.
Véracité comment on peut garantir que les données venant de Facebook par exemple sont vrais et pas des rumeurs, ou venant d’un capteur en panne etc.
Plus tard 3 autre v ont ajoutes, valeur, variabilité, visibilité [ CITATION Ale16 \l 1033 ]
Problématique ?
Les principal problématiques qui se posent au Big Data, ces sont :
  • Le Stockage des de ces gros volume de données sur les serveurs traditionnels ou les services du Cloud Computing.
  • La sécurité de Big Data devient le problème qui se pose aux entreprises.
  • Quelle architecture mettre en place centralisé ou repartie.
  • réduire le temps d'exécution des traitements.
  • Problème des erreurs dans les donnes « nettoyage des données »
  • Développer des nouvelles Services basées sur le Big Data[ CITATION dev \l 1033 ].
Les outils de Big Data 
Hadoop : est un Framework open source Java principalement conçu pour fonctionner sur
Big Data par traitement distribué
[ CITATION Pra13 \l 1033 ]
MapReduce : est un modèle de programmation dérivé de Google MapReduce pour le traitement de gros volumes de données distribués.
Mahout : est une populaire bibliothèque. Qui comprend les algorithmes les plus populaires de Data Mining et d'apprentissage automatique « machine Learning ».
HBase : est une grande base de données distribuée pour Hadoop.
Hive : est un entrepôt de données basé sur Hadoop comme un Framework développé par Facebook.
Il permet aux utilisateurs de lancer des requêtes dans des langages de type SQL, tels que HiveQL.
Pig : est une plate-forme open source basée sur Hadoop pour analyser les ensembles de données à grande échelle via son propre langage SQL-like : Pig Latin.
Et d’autre comme Sqoop, Flume, HCatalog, Oozie, HDFS, Ambari etc. [ CITATION Pra13 \l 1033 ]
L’analyse de Big Data ?
En général l’analyse de Big Data est destinée à le Data Mining pour produire une connaissance.
Et le Data Mining intégrée plusieurs disciplines comme les bases de données, entrepôts des données, statistique, apprentissage automatique « machines Learning », calcul à haute performance « High performance computing », la reconnaissance de formes, les réseaux de Neurones, la visualisation de données, la récupération d'informations, le traitement d'images et de signaux et l'analyse spatiale ou temporelle des données [ CITATION Ale16 \l 1033 ].
Mais au cours des dernières années plusieurs chercheurs travaillent sur l’analyse de Big Data à l’aide des techniques de Machine Learning « Apprentissage automatique » comme réseaux de neurone, ce qui amène à la naissance de Deep Learning.
Deep Learning va jouer un essentiel rôle dans l’analyse prédictive de Big Data. Les géants de l’internet Facebook et Google applique le Deep Learning dans certains de leurs produits, Facebook utilise Deep Learning dans l’application DeepFace et Google l’utilise dans son application Google's translator[ CITATION XWC14 \l 1033 ].
Les objectifs de ce projet se résument donc en la mise au point, des possibilités de ces techniques dans l’analyse de Big Data.



Références

(s.d.). Récupéré sur IBM: https://www.ibm.com https://www.ibm.com
AlexanderTolstoy, N. M. (2016). Big Data, Fast Data and Data Lake Concepts. Procedia Computer Science.
Lin, X. W. (2014). Big Data Deep Learning: Challenges and Perspectives. IEEE Access, 514-525.
Prajapati, V. (2013). Big Data Analytics with R and Hadoop. Packt Publishing.

Post a Comment

0 Comments