Google AdSense (text)

hidden logo stop

Moving

거지 같은 이글루스 광고노출 정책이 싫어서,
새 보금자리(http://blog.leocat.kr/)로 이사감.

[Hadoop] 여러개 streaming 스크립트 파일 지정 Computer & Program

hadoop은 코드를 jar로 묶어야 하는 불편함이 있다. 정말 jar 파일 안에 여러 클래스들이 포함되어서 사용하는 경우는 별 불만 없는데, 아주 간단한 MR 코드만 있다면 배 보다 배꼽이 더 크다. 일일이 프로젝트 컴파일하고 패키징한 다음 복사까지.. 이럴 때 간단히 쓸 수 있는 Hadoop Streaming 이 있다.

책을 좀 따라했는데, mapper만 지정하는 경우의 실행 커맨드 예제는 있는데, mapper와 reducer를 함께 사용할 때는 커맨드 예제가 없다. mapper와 reducer에서 사용하는 스크립트 파일을 지정해 줘야 하는데, -file 옵션은 이미 mapper 파일로 지정하고 있고 reducer를 지정해줄 파라미터가 없다.


여기저기 찾아보다가 hadoop 문서에서 Hadoop Streaming을 발견했다.

$ hadoop jar [HADOOP_HOME]/contrib/streaming/hadoop-streaming-1.2.1.jar \
    -input tmp/user.csv \
    -output tmp/output \
    -mapper 'groovy map.groovy' \
    -reducer 'groovy reduce.groovy' \
    -file map.groovy \
    -file reduce.groovy


-file 파라미터는 여러번 사용해도 되는 것 같다. 왠지 같은 이름의 파라미터를 두번 쓰려니 이상한 것 같은데.. 예제를 찾아보니 그렇게 쓰여 있고 잘 동작한다. 음.. 뭔가 이상하지만 이렇게 -file을 두번 쓰는거 같다. TㅅT


- 출처
Hadoop Streaming

덧글

댓글 입력 영역

Google AdSense (text/image)