Apache Spark : Différence entre versions

De BIGDATA
Aller à : navigation, rechercher
Ligne 2 : Ligne 2 :
  
 
La grande force de Spark est d'être capable de mettre les RDD en mémoire vive, le gain de temps devient considérable sur des algorithmes utilisant de manière itérative un même jeu de données.
 
La grande force de Spark est d'être capable de mettre les RDD en mémoire vive, le gain de temps devient considérable sur des algorithmes utilisant de manière itérative un même jeu de données.
 +
 +
 +
'''Use case 1'''
 +
We use Spark in order to implement a well know clustering algorithm, the mean shift. Results are encouraging and show that if we multiply by 3 the number of nodes in a cluster, we decrease the execution time by 2.
 +
 +
https://github.com/Kybe67/Mean-Shift-LSH

Version du 29 janvier 2016 à 14:54

Apache Spark est un framework originellement écrit en Scala permettant de réaliser des opérations de façon distribué selon le paradigme MapReduce. Son abstraction de base est le RDD pour Resilient Distributed Dataset sur lequel vont s'effectuer les différentes opérations de Map et de Reduce.

La grande force de Spark est d'être capable de mettre les RDD en mémoire vive, le gain de temps devient considérable sur des algorithmes utilisant de manière itérative un même jeu de données.


Use case 1 We use Spark in order to implement a well know clustering algorithm, the mean shift. Results are encouraging and show that if we multiply by 3 the number of nodes in a cluster, we decrease the execution time by 2.

https://github.com/Kybe67/Mean-Shift-LSH