How to use Spark on Grid5000 : Différence entre versions

De BIGDATA
Aller à : navigation, rechercher
Ligne 1 : Ligne 1 :
 
Bienvenue sur la page Grid5000
 
Bienvenue sur la page Grid5000
  
 
+
'''1 : Install hadoop_g5k'''
1 : Install hadoop_g5k
+
 
https://github.com/mliroz/hadoop_g5k/wiki
 
https://github.com/mliroz/hadoop_g5k/wiki
  
Lancement du cluster
+
'''Lancement du cluster'''
  
Réserver des noeuds
+
'''Réserver des noeuds'''
  
 
oarsub -t allow_classic_ssh -l nodes=10,walltime=2 -r '2015-06-14 19:30:00'
 
oarsub -t allow_classic_ssh -l nodes=10,walltime=2 -r '2015-06-14 19:30:00'
Ligne 15 : Ligne 14 :
 
oarsub -I -p "cluster='paranoia'" -t allow_classic_ssh -l nodes=8,walltime=12
 
oarsub -I -p "cluster='paranoia'" -t allow_classic_ssh -l nodes=8,walltime=12
  
Prendre la réservation
+
'''Prendre la réservation'''
  
 
oarsub -C job_ID
 
oarsub -C job_ID
  
Prendre des noeuds en direct  
+
'''Prendre des noeuds en direct'''
  
 
oarsub -I -t allow_classic_ssh -l nodes=6,walltime=2
 
oarsub -I -t allow_classic_ssh -l nodes=6,walltime=2
  
Initialisation du cluster
+
'''Initialisation du cluster'''
  
 
hg5k --create $OAR_NODEFILE --version 2
 
hg5k --create $OAR_NODEFILE --version 2
Ligne 38 : Ligne 37 :
  
  
Mettre les fichiers dans le hdfs
+
'''Mettre les fichiers dans le hdfs'''
  
 
hg5k --putindfs 900k.csv /ds900.csv
 
hg5k --putindfs 900k.csv /ds900.csv
  
Exécuter le jar
+
'''Exécuter le jar'''
  
 
spark_g5k --scala_job mean-shift_2.10-0.1.jar
 
spark_g5k --scala_job mean-shift_2.10-0.1.jar
 
spark_g5k --scala_job --exec_params executor-memory=1g driver-memory=1g num-executors=2 executor-cores=3 mean-shift_2.10-0.1.jar
 
spark_g5k --scala_job --exec_params executor-memory=1g driver-memory=1g num-executors=2 executor-cores=3 mean-shift_2.10-0.1.jar
  
Trouver les fichiers dans le HDFS
+
'''Trouver les fichiers dans le HDFS'''
  
 
hg5k --state files
 
hg5k --state files
  
Récupérer le résultat res
+
'''Récupérer le résultat res'''
  
 
hg5k --getfromdfs res /home/gbeck/reims
 
hg5k --getfromdfs res /home/gbeck/reims
Ligne 62 : Ligne 61 :
  
  
Fin
+
'''Fin'''
 
spark_g5k --delete
 
spark_g5k --delete
 
hg5k --delete
 
hg5k --delete

Version du 28 janvier 2016 à 12:10

Bienvenue sur la page Grid5000

1 : Install hadoop_g5k https://github.com/mliroz/hadoop_g5k/wiki

Lancement du cluster

Réserver des noeuds

oarsub -t allow_classic_ssh -l nodes=10,walltime=2 -r '2015-06-14 19:30:00'

oarsub -p "cluster='paranoia'" -t allow_classic_ssh -l nodes=8,walltime=12 -r '2015-07-09 21:14:01'

oarsub -I -p "cluster='paranoia'" -t allow_classic_ssh -l nodes=8,walltime=12

Prendre la réservation

oarsub -C job_ID

Prendre des noeuds en direct

oarsub -I -t allow_classic_ssh -l nodes=6,walltime=2

Initialisation du cluster

hg5k --create $OAR_NODEFILE --version 2

hg5k --bootstrap /home/gbeck/public/hadoop-2.6.0.tar.gz

hg5k --initialize feeling_lucky --start

spark_g5k --create YARN --hid 1

spark_g5k --bootstrap /home/gbeck/public/spark-1.6.0-bin-hadoop2.6.tgz

spark_g5k --initialize feeling_lucky --start


Mettre les fichiers dans le hdfs

hg5k --putindfs 900k.csv /ds900.csv

Exécuter le jar

spark_g5k --scala_job mean-shift_2.10-0.1.jar spark_g5k --scala_job --exec_params executor-memory=1g driver-memory=1g num-executors=2 executor-cores=3 mean-shift_2.10-0.1.jar

Trouver les fichiers dans le HDFS

hg5k --state files

Récupérer le résultat res

hg5k --getfromdfs res /home/gbeck/reims

  1. list of resources of your reservation

uniq $OAR_NODEFILE

  1. spark 1.4.0

mkdir -p /tmp/spark/logs/events


Fin spark_g5k --delete hg5k --delete