목록2017/11 (4)
Jeongchul Kim
Spark MLlib ALS lastfm dataset1. Spark MLlib Spark MLlib은 머신 러닝(ML, Machine Learning)을 사용할 수 있는 Spark의 Library 입니다.모든 데이터가 RDD로 표현된 distributed dataset을 이용해 Spark 클러스터에서 병렬(parallel execution)로 실행할 수 있게 설계되어 있습니다 Distributed Random Forests(RF), K-means, ALS(Alternating Least Squares) 알고리즘을 포함하고 있습니다. MLlib은 사이즈가 큰 분산 대용량 dataset에 적용하기 적절하며 작은 dataset을 갖고 있다면, single machine을 위한 학습 라이브러리(scikit-l..
Spark Scala Wikipedia dataset Spark와 Scala language를 이용해 Wikipedia의 full-text articles에서 programming language가 출현한 빈도수(occurrences)를 count합니다. wikipedia data downloadwikipedia data를 다운받습니다.$ wget http://alaska.epfl.ch/~dockermoocs/bigdata/wikipedia.dat 다운받은 wikipedia dataset을 hadoop hdfs에 dataset 디렉토리를 생성하여 업로드합니다.$ hdfs dfs -mkdir /dataset/$ hdfs dfs -put wikipedia.dat /dataset/ 다운 받은 wikipedia..
DART: Dropouts meet Multiple Additive Regression Trees K. V. Rashmi Department of Electrical Engineering and Computer ScienceUC Berkeley Ran Gilad-BachrachMachine Learning DepartmentMicrosoft Research https://arxiv.org/pdf/1505.01866.pdfABSTRACTMART(Friedman, 2001, 2002)는 Boosting된 Regression Tree의 Ensemble모델로 다양한 task에 대해 높은 예측 정확도를 제공하는 것으로 알려져 있으며, 실제로 널리 사용됩니다. 그러나, 이후의 iteration에서 tree가 추가될..
01 Scala와 Scala IDEScala 개요Scala는 간결하고 유연한 문법을 사용하는 정적 타입의 다중 패러다임 JVM언어로, 작은 인터프리터(Interpreter) 방식의 스크립트로부터 대규모의 복잡한 애플리케이션(Application)에 이르기까지 폭넓은 규모 확장성을 제공하는 도구이다. Scala는 Scalable Language에서 비롯되었다. Scala는 JVM의 성능과 최적화를 활용하며, Java를 중심으로 구축된 기존 라이브러리와 도구를 사용할 수 있다.* JVM(Java Virtual Machine)은 자바 바이트 코드를 실행할 수 있는 주체이며, 다른 컴퓨터 기종에서도 바이트 코드를 실행할수 있도록 구현되거나, Java Processor처럼 하드웨어와 소프트웨엉를 혼합해 구현하기도..