Bloom Filter(블룸 필터)
·
MachineLearning
Bloom Filter(블룸 필터) 블룸 필터(Bloom filter)는 원소가 집합에 속하는지 여부를 검사하는데 사용되는 확률적 자료 구조입니다. 1970년 Burton Howard Bloom에 의해 개발되었습니다. 그 당시 컴퓨터의 저장 공간은 매우 부족하였습니다. 사용자가 입력하는 password의 보안을 올리고자, 영어 사전에 나오는 단어에 해당하는지 검사를 개발하였습니다. 코딩을 해보자면 hash-table이나 binary-search-tree로 구현할 수 있겠으나, 그 당시의 적은 저장 공간과 메모리로 어떻게 개발할 수 있을까요? 모든 단어를 집합의 원소로 생각하고 입력으로 들어온 패스워드가 집합에 속해있는지 검색을 하는 방식으로 구현할 수 있습니다. 여기서 membership checking..
Finding Similar Items : Locality Sensitive Hashing
·
MachineLearning
Finding Similar Items : Locality Sensitive Hashing다음의 게시글은 Stanford University에서 제공하는 Mining of Massive Datasets(http://www.mmds.org)를 이용하여 작성하였습니다. Introduction유사 아이템을 찾는 것은 중요한 기술 중에 하나입니다. 유사한 이미지, 유사한 사용자를 통한 상품 추천, 논문 표절 검사, 유사한 파일 비교 등 많은 분야에서 사용되고 있습니다. 유사한 이미지 검색을 살펴봅시다.바닷가를 전망으로 한 사진과 유사한 이미지를 찾는다면 다음의 과정을 진행합니다. 우선 입력으로 들어가는 사진에 지붕을 삭제합니다. 그리고 유사한 이미지를 20,000 장의 이미지에서 찾아 제일 가까운 10장(nea..
EigenDecomposition 고유값 분해, eigenvector
·
MachineLearning
EigenDecomposition 고유값 분해, eigenvectorEigenVector, EigenValue우선 eigenvector 뭔지 살펴봅시다. 선형대수학에서 eigenvector는 선형 변환(linear transformation)을 통해 나온 결과가 자기 자신의 벡터의 상수배를 만족해야 하며, eigenvector는 non-zero(0이 아닌 값) 여야 합니다. 즉 다음의 수식을 만족해야 합니다. Eigenvector의 중요성을 알기 위해서는 기하학적인 측면으로 많이 접근합니다.예를 들어서 컬러 그림(3차원 RGB의 값으로 이루어진 Matrix)을 각도 회전(rotation) 시킨다고 생각을 해봅시다. 이미지 전체를 회전을 하는 경우(선형 변환) 벡터 중에 방향은 보존이 되고 크기(scale..
Genetic Algorithm 유전알고리즘 - Introduction
·
MachineLearning
Genetic Algorithm 유전알고리즘 - Introduction유전자 알고리즘 (Genetic Algorithm, GA)은 유전학 및 자연 선택의 원칙을 기반으로하는 검색 기반 최적화 기법입니다. 문제를 해결하기 위해 평생 동안 걸리는 어려운 문제에 대해 최적 또는 거의 최적의 솔루션을 찾는 데 자주 사용됩니다. 이것은 주로 최적화 문제, 연구 및 기계 학습을 해결하는 데 사용됩니다. Optimization최적화는 더 나은 것을 만드는 과정입니다. 어떤 프로세스에서 다음 그림과 같이 일련의 입력과 일련의 출력이 있습니다. 최적화 란 "최상의"출력 값을 얻는 방식으로 입력 값을 찾는 것을 의미합니다. "최상의"의 정의는 문제마다 다르지만 수학 용어로는 입력 매개 변수를 변경하여 하나 이상의 객관적인..
Incorporating Field-aware Deep Embedding Networks and Gradient Boosting Decision Trees for Music Recommendation
·
MachineLearning
Incorporating Field-aware Deep Embedding Networks and Gradient Boosting Decision Treesfor Music RecommendationABSTRACTKKBOX와 같은 온라인 음악 스트리밍 서비스는 사용자가 모든 종류의 음악에 액세스 할 수있는 편리함을 제공하는 반면, 노래 및 사용자의 무작위 관심사를 설명하는 계층 적 데이터는 알고리즘이 정확한 권장 사항을 만드는 데 특히 어려움을 겪습니다. 충분한 역사적인 데이터. WSDM-KKBOX의 음악 추천 챌린지에서 WSDM 및 KKBOX는 많은 사용자(User)/노래(Song)가 Cold-Start되는 상황에서 반복적으로 사용자가 노래를들을 기회를 예측하는 것에 도전했습니다. 이 백서에서는 작업에 ..
Machine Learning - Classification : Analyzing Sentiment
·
MachineLearning
Machine Learning - Classification : Analyzing Sentiment출처 : Coursera / Emily Fox & Carlos Guestrin / Machine Learning Specialization / University of Washington Machine Learning IntroductionMachine Learning with the tools IPython Notebook & GraphLab CreateMachine Learning with the tools IPython Notebook & GraphLab Create on AWSMachine Learning with the tools IPython Notebook UsageMachine Learning..
Machine Learning - Predicting House Prices : python
·
MachineLearning
Machine Learning - Predicting House Prices : python 출처 : Coursera / Emily Fox & Carlos Guestrin / Machine Learning Specialization / University of Washington Machine Learning IntroductionMachine Learning with the tools IPython Notebook & GraphLab CreateMachine Learning with the tools IPython Notebook & GraphLab Create on AWSMachine Learning with the tools IPython Notebook UsageMachine Learning wi..
Machine Learning - Predicting House Prices : Regression
·
MachineLearning
Machine Learning - Predicting House Prices : Regression 출처 : Coursera / Emily Fox & Carlos Guestrin / Machine Learning Specialization / University of Washington Machine Learning IntroductionMachine Learning with the tools IPython Notebook & GraphLab CreateMachine Learning with the tools IPython Notebook & GraphLab Create on AWSMachine Learning with the tools IPython Notebook UsageMachine Learnin..
김 정출
'MachineLearning' 카테고리의 글 목록