spark 1.3.1
****************
* rdd.py *
****************
RDD는 두가지 종류의
class RDD(object):
method:
def saveAsTextFile(self, path, compressionCodecClass=None):
RDD를 text file 형태로 저장한다.
...
class PipelinedRDD(RDD):
RDD를 parallelize 한다
...
'spark' 카테고리의 다른 글
spark source code tag cscope building (0) | 2015.11.20 |
---|---|
PySpark Import Error (0) | 2015.10.14 |
Spark Installation on ubuntu 12.04 (0) | 2015.10.14 |
spark source code tag cscope building
* CSCOPE*
find `pwd` -name "*.xml" -o -name "*.md" -o -name "*.java" -o -name "*.js" -o -name "*.ini" -o -name "*.scala" -o -name "*.sbt" -o -name "*.py" > cscope.files
cscope -b -q -k
*ETAGS*
find `pwd` -name "*.xml" -o -name "*.md" -o -name "*.java" -o -name "*.js" -o -name "*.ini" -o -name "*.scala" -o -name "*.sbt" -o -name "*.py" -print | xargs etags -a
'spark' 카테고리의 다른 글
spark RDD (0) | 2015.11.20 |
---|---|
PySpark Import Error (0) | 2015.10.14 |
Spark Installation on ubuntu 12.04 (0) | 2015.10.14 |
PySpark Import Error
from pyspark import SparkContext
ImportError: No module named py4j.java_gateway
해당 라이브러리를 사용하고자 할경우, 2개의 PATH (SPARK_HOME, PYTHONPATH) 를 설정해야 한다.
export SPARK_HOME=/working/spark/spark-1.3.1-bin-hadoop2.6
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH
py4j 를 사용하기 위해서 해당 디렉토리의 zip 파일을 path로 설정해야 한다.
.bashrc에 포함하여 해당 account의 shell이 실행될 때마다 위의 path export가 실행 될 수 있도록 한다.
'spark' 카테고리의 다른 글
spark RDD (0) | 2015.11.20 |
---|---|
spark source code tag cscope building (0) | 2015.11.20 |
Spark Installation on ubuntu 12.04 (0) | 2015.10.14 |
Spark Installation on ubuntu 12.04
1. 소스를 가져온다. spark-1.4.1
http://spark.apache.org/downloads.html |
2. 압축풀고 메이븐 실행
mvn -DskipTests clean package |
3. (2)가 실패할 경우, 메이븐(maven) 설치
3.1. maven 3.3 source 다운로드 (http://maven.apache.org/install.html)
3.2. 압축풀고, maven 3.3 directory에 bin 폴더를 생성
3.3. 자바 홈 디렉토리의 환경변수가 제대로 설정되어 있는지 확인
echo $JAVA_HOME |
3.3.1 아닐경우, export JAVA_HOME 설정 (update-alternatives 정보 확인)
/usr/lib/jvm/jdk1.8.0_11 (최소 jde 7 이상)
3.4. 환경변수 설정
export PATH=/opt/apache-maven-3.3.3/bin:$PATH |
4. (2) 재실행 --> 설치완료
'spark' 카테고리의 다른 글
spark RDD (0) | 2015.11.20 |
---|---|
spark source code tag cscope building (0) | 2015.11.20 |
PySpark Import Error (0) | 2015.10.14 |