Interview/Etc

분산 시스템에서의 hash

김 정출 2024. 10. 20. 22:54

분산 시스템에서의 hash

  • 분산 시스템에서의 해시(hash)는 데이터나 요청을 효율적으로 분산하고 관리하기 위해 사용되는 기술입니다. 해시는 데이터를 고정된 크기의 숫자나 문자열로 매핑하는 알고리즘을 의미하며, 이를 통해 데이터의 위치를 효율적으로 계산하거나 라우팅할 수 있습니다. 해시를 사용하는 이유와 활용 방식을 좀 더 구체적으로 설명하겠습니다.

분산 시스템에서 해시의 역할

  1. 데이터 분산: 분산 시스템에서는 데이터를 여러 노드에 분산 저장해야 하는데, 이때 해시 알고리즘을 사용해 데이터를 특정 노드에 매핑합니다. 예를 들어, 데이터의 키 값을 해싱하여 이를 통해 해당 데이터가 저장될 노드를 결정할 수 있습니다.
  2. 로드 밸런싱: 해시를 통해 요청이 적절하게 분배되도록 하여 로드 밸런싱을 수행할 수 있습니다. 예를 들어, 클라이언트의 IP 주소나 세션 ID를 해싱하여 요청을 여러 서버에 균등하게 분배할 수 있습니다.
  3. Consistent Hashing: 분산 시스템에서 노드가 동적으로 추가되거나 제거될 수 있는데, Consistent Hashing 기법을 사용하면 기존 데이터의 재분배를 최소화하면서도 새로 추가된 노드나 제거된 노드에 대해 해시를 재계산할 수 있습니다. 이는 대규모 시스템에서 데이터 이동의 오버헤드를 줄이는 데 효과적입니다.

분산 시스템에서 해시의 활용 예시

  1. 분산 해시 테이블 (DHT): 분산 시스템에서 데이터를 분산 저장하기 위해 많이 사용하는 구조입니다. 예를 들어, P2P 네트워크에서 각 피어(노드)에 데이터를 해싱하여 분산시킵니다.
  2. 캐시 분산: Redis나 Memcached와 같은 분산 캐시 시스템에서 캐시된 데이터를 고르게 분배하기 위해 키를 해싱하여 캐시 노드를 선택합니다.
  3. 메시지 큐와 로드 밸런서: 메시지 큐(RabbitMQ, Kafka)나 로드 밸런서에서 메시지 또는 요청을 적절한 소비자(consumer)로 분배하기 위해 해시를 사용합니다.

분산 해시 테이블 구현해보기

import hashlib

class Node:
    def __init__(self, node_id):
        self.node_id = node_id
        self.data = {}

    def store_data(self, key, value):
        hashed_key = hashlib.sha1(key.encode()).hexdigest()
        self.data[hashed_key] = value

    def get_data(self, key):
        hashed_key = hashlib.sha1(key.encode()).hexdigest()
        return self.data.get(hashed_key, None)

    def __repr__(self):
        return f"Node({self.node_id})"

class DistributedHashTable:
    def __init__(self):
        self.nodes = []

    def add_node(self, node):
        self.nodes.append(node)
        self.nodes.sort(key=lambda x: x.node_id)  # Sort nodes by ID for consistency

    def remove_node(self, node_id):
        self.nodes = [node for node in self.nodes if node.node_id != node_id]

    def _hash_key(self, key):
        """Generate SHA-1 hash of the key and find appropriate node."""
        hashed_key = int(hashlib.sha1(key.encode()).hexdigest(), 16)
        for node in self.nodes:
            if hashed_key <= int(hashlib.sha1(str(node.node_id).encode()).hexdigest(), 16):
                return node
        return self.nodes[0]  # If no suitable node found, wrap around to the first node

    def store(self, key, value):
        node = self._hash_key(key)
        node.store_data(key, value)
        print(f"Stored key '{key}' on {node}")

    def retrieve(self, key):
        node = self._hash_key(key)
        value = node.get_data(key)
        print(f"Retrieved key '{key}' from {node}: {value}")
        return value

# Example usage
if __name__ == "__main__":
    # Create nodes with unique IDs
    node1 = Node("Node1")
    node2 = Node("Node2")
    node3 = Node("Node3")

    # Create DHT and add nodes
    dht = DistributedHashTable()
    dht.add_node(node1)
    dht.add_node(node2)
    dht.add_node(node3)

    # Store data in DHT
    dht.store("apple", "fruit")
    dht.store("carrot", "vegetable")
    dht.store("banana", "fruit")

    # Retrieve data from DHT
    dht.retrieve("apple")
    dht.retrieve("carrot")
    dht.retrieve("banana")

설명

  1. Node 클래스:
    • 각 노드는 고유의 node_id를 가집니다.
    • 노드는 데이터를 SHA-1 해시를 이용해 키로 저장합니다.
  2. DistributedHashTable 클래스:
    • DHT는 여러 개의 노드를 관리하며, 각 노드에 데이터를 분산시킵니다.
    • _hash_key 메서드는 주어진 키를 해싱하여 적절한 노드를 찾습니다.
    • store 메서드는 데이터를 적절한 노드에 저장하고, retrieve 메서드는 해당 노드에서 데이터를 검색합니다.
  3. Consistent Hashing을 단순화:
    • 이 구현은 기본적으로 노드 ID를 정렬하고, 키 해시가 각 노드의 해시 ID보다 작거나 같은 노드를 선택합니다.
    • 실제로는 노드 추가/삭제 시 데이터를 최소한으로 이동시키기 위해 Consistent Hashing 알고리즘을 더 복잡하게 구현할 수 있습니다.

분산 해시 테이블 구현해보기 2

  • 아래 코드는 Consistent Hashing을 기반으로 한 복잡한 해시 링 구조를 고려한 DHT 구현입니다. 여기서는 노드 추가/삭제 시 데이터의 재분배를 최소화하며, 데이터를 복제하는 기능도 포함합니다.
import hashlib
import bisect

class Node:
    def __init__(self, node_id):
        self.node_id = node_id
        self.data = {}

    def store_data(self, key, value):
        hashed_key = hashlib.sha1(key.encode()).hexdigest()
        self.data[hashed_key] = value

    def get_data(self, key):
        hashed_key = hashlib.sha1(key.encode()).hexdigest()
        return self.data.get(hashed_key, None)

    def __repr__(self):
        return f"Node({self.node_id})"

class ConsistentHashRing:
    def __init__(self, replication_factor=3):
        self.ring = {}
        self.sorted_keys = []
        self.nodes = {}
        self.replication_factor = replication_factor

    def _hash(self, key):
        """Generate SHA-1 hash of the key."""
        return int(hashlib.sha1(key.encode()).hexdigest(), 16)

    def add_node(self, node):
        """Add a node to the hash ring and handle replication."""
        for i in range(self.replication_factor):
            virtual_node_id = f"{node.node_id}#{i}"
            hashed_key = self._hash(virtual_node_id)
            self.ring[hashed_key] = node
            self.sorted_keys.append(hashed_key)
        self.sorted_keys.sort()
        self.nodes[node.node_id] = node

    def remove_node(self, node_id):
        """Remove a node and its virtual nodes from the hash ring."""
        for i in range(self.replication_factor):
            virtual_node_id = f"{node_id}#{i}"
            hashed_key = self._hash(virtual_node_id)
            if hashed_key in self.ring:
                del self.ring[hashed_key]
                self.sorted_keys.remove(hashed_key)
        self.nodes.pop(node_id, None)

    def _find_node(self, key):
        """Find the closest node in the ring to the hashed key."""
        hashed_key = self._hash(key)
        idx = bisect.bisect(self.sorted_keys, hashed_key)
        if idx == len(self.sorted_keys):
            idx = 0
        return self.ring[self.sorted_keys[idx]]

    def store(self, key, value):
        """Store key-value pair in the appropriate node."""
        primary_node = self._find_node(key)
        primary_node.store_data(key, value)
        print(f"Stored key '{key}' on primary node {primary_node}")

        # Replicate data to backup nodes
        for i in range(1, self.replication_factor):
            backup_node_key = self.sorted_keys[(self.sorted_keys.index(self._hash(primary_node.node_id)) + i) % len(self.sorted_keys)]
            backup_node = self.ring[backup_node_key]
            backup_node.store_data(key, value)
            print(f"Replicated key '{key}' to backup node {backup_node}")

    def retrieve(self, key):
        """Retrieve key-value pair from the appropriate node."""
        primary_node = self._find_node(key)
        value = primary_node.get_data(key)
        if value is not None:
            print(f"Retrieved key '{key}' from primary node {primary_node}: {value}")
            return value

        # Try to find the key in backup nodes if not in primary node
        print(f"Primary node {primary_node} does not have key '{key}'. Checking backup nodes.")
        for i in range(1, self.replication_factor):
            backup_node_key = self.sorted_keys[(self.sorted_keys.index(self._hash(primary_node.node_id)) + i) % len(self.sorted_keys)]
            backup_node = self.ring[backup_node_key]
            value = backup_node.get_data(key)
            if value is not None:
                print(f"Retrieved key '{key}' from backup node {backup_node}: {value}")
                return value

        print(f"Key '{key}' not found in any nodes.")
        return None

# Example usage
if __name__ == "__main__":
    # Create nodes with unique IDs
    node1 = Node("Node1")
    node2 = Node("Node2")
    node3 = Node("Node3")

    # Create Consistent Hash Ring with replication factor of 3
    hash_ring = ConsistentHashRing(replication_factor=3)
    hash_ring.add_node(node1)
    hash_ring.add_node(node2)
    hash_ring.add_node(node3)

    # Store data in DHT
    hash_ring.store("apple", "fruit")
    hash_ring.store("carrot", "vegetable")
    hash_ring.store("banana", "fruit")

    # Retrieve data from DHT
    hash_ring.retrieve("apple")
    hash_ring.retrieve("carrot")
    hash_ring.retrieve("banana")

    # Remove a node and see how data is distributed
    print("\\nRemoving Node2...")
    hash_ring.remove_node("Node2")

    hash_ring.retrieve("apple")
    hash_ring.retrieve("carrot")
    hash_ring.retrieve("banana")

코드 설명

  1. Node 클래스:
    • 각 노드는 node_id를 가지며, 데이터를 해시 값으로 저장합니다.
  2. ConsistentHashRing 클래스:
    • 해시 링 구조: 노드의 가상 ID를 기반으로 해시를 계산하여 노드를 해시 링에 추가합니다.
    • Replication Factor: 복제 인자를 설정하여 기본적으로 데이터를 복제합니다.
    • 노드 추가/삭제: 새로운 노드를 추가하거나 기존 노드를 제거하면, 데이터 이동이 최소화되도록 설계되었습니다.
    • 데이터 저장 및 검색: 키를 해시화하여 적절한 노드에 데이터를 저장하고, 복제를 통해 데이터의 안정성을 높입니다. 데이터를 검색할 때도 복제된 백업 노드에서 데이터를 찾을 수 있습니다.
  3. 데이터 복제:
    • 기본적으로 모든 데이터는 3개의 노드에 저장됩니다. 이는 노드가 고장 날 경우에도 데이터의 가용성을 높입니다.
  4. Consistent Hashing 적용:
    • sorted_keys 배열과 bisect 모듈을 활용하여 적절한 노드를 빠르게 찾을 수 있습니다.
    • 노드가 추가되거나 삭제될 때, 데이터를 재분배하는 과정을 최소화합니다.

정리

분산 시스템에서의 해시는 데이터나 요청을 효율적으로 분배하고 관리하기 위해 사용되는 필수적인 기법입니다. 해시를 적절하게 활용하면, 시스템의 확장성 및 안정성을 크게 개선할 수 있습니다. Consistent Hashing은 이러한 시스템에서 자주 사용되는 중요한 기법 중 하나입니다.