Colors of Ray+Hue'

spark RDD

spark2015. 11. 20. 09:29

spark 1.3.1

****************

*       rdd.py     *

****************

RDD는 두가지 종류의 

class RDD(object):

method:     

def saveAsTextFile(self, path, compressionCodecClass=None):

RDD를 text file 형태로 저장한다. 

...


class PipelinedRDD(RDD):

RDD를 parallelize 한다

...


'spark' 카테고리의 다른 글

spark source code tag cscope building  (0) 2015.11.20
PySpark Import Error  (0) 2015.10.14
Spark Installation on ubuntu 12.04  (0) 2015.10.14

* CSCOPE*

find `pwd` -name "*.xml" -o -name "*.md" -o -name "*.java" -o -name "*.js" -o -name "*.ini" -o -name "*.scala" -o -name "*.sbt" -o -name "*.py" > cscope.files

cscope -b -q -k


*ETAGS*

find `pwd` -name "*.xml" -o -name "*.md" -o -name "*.java" -o -name "*.js" -o -name "*.ini" -o -name "*.scala" -o -name "*.sbt" -o -name "*.py" -print | xargs etags -a 


'spark' 카테고리의 다른 글

spark RDD  (0) 2015.11.20
PySpark Import Error  (0) 2015.10.14
Spark Installation on ubuntu 12.04  (0) 2015.10.14

PySpark Import Error

spark2015. 10. 14. 06:11
from pyspark import SparkContext
ImportError: No module named py4j.java_gateway
echo $SPARK_HOME 을 확인할것, 만일 spark 설치 폴더가 아닐경우, export 할것

해당 라이브러리를 사용하고자 할경우, 2개의 PATH (SPARK_HOME, PYTHONPATH) 를 설정해야 한다. 


export SPARK_HOME=/working/spark/spark-1.3.1-bin-hadoop2.6

export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH

py4j 를 사용하기 위해서 해당 디렉토리의 zip 파일을 path로 설정해야 한다. 


.bashrc에 포함하여 해당 account의 shell이 실행될 때마다 위의 path export가 실행 될 수 있도록 한다. 


  


'spark' 카테고리의 다른 글

spark RDD  (0) 2015.11.20
spark source code tag cscope building  (0) 2015.11.20
Spark Installation on ubuntu 12.04  (0) 2015.10.14

1. 소스를 가져온다. spark-1.4.1

 http://spark.apache.org/downloads.html 

2. 압축풀고 메이븐 실행 

 mvn -DskipTests clean package

3. (2)가 실패할 경우, 메이븐(maven) 설치

    3.1. maven 3.3 source 다운로드 (http://maven.apache.org/install.html)

    3.2. 압축풀고, maven 3.3 directory에 bin 폴더를 생성

    3.3. 자바 홈 디렉토리의 환경변수가 제대로 설정되어 있는지 확인

 echo $JAVA_HOME

        3.3.1 아닐경우, export JAVA_HOME 설정 (update-alternatives 정보 확인) 

      /usr/lib/jvm/jdk1.8.0_11 (최소 jde 7 이상)

    3.4. 환경변수 설정

 export PATH=/opt/apache-maven-3.3.3/bin:$PATH

4. (2) 재실행 --> 설치완료


'spark' 카테고리의 다른 글

spark RDD  (0) 2015.11.20
spark source code tag cscope building  (0) 2015.11.20
PySpark Import Error  (0) 2015.10.14