본문 바로가기

분류 전체보기175

하둡(Hadoop) / HDFS란? 하둡이란? 분산 환경에서 빅 데이터를 저장하고 처리할 수 있는 자바 기반의 오픈 소스 프레임 워크 구성 요소 1. 하둡 분산형 파일 시스템 (Hadoop Distributed File System, HDFS) - 하둡 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일 시스템 특징 : 1) HDFS는 데이터를 저장하면, 다수의 노드에 복제 데이터도 함께 저장해서 데이터 유실을 방지 2) HDFS에 파일을 저장하거나, 저장된 파일을 조회하려면 스트리밍 방식으로 데이터에 접근해야 함. 3) 한번 저장한 데이터는 수정할 수 없고, 읽기만 가능하게 해서 데이터 무결성을 유지. (2.0 알파버전부터는 저장된 파일에 append가 가능하게 됨) 4) 데이터 수정은 불가능 하지만 파일이동, 삭제, 복사할 수 있는.. 2022. 4. 29.
[데이터베이스] 주키퍼 (zookeeper)란? 분산 코디네이션 서비스를 제공하는 오픈소스 프로젝트로 직접 어플리케이션 작업을 조율하는 것을 쉽게 개발할 수 있도록 도와주는 도구이다. API를 이용해 동기화나 마스터 선출 등의 작업을 쉽게 구현할 수 있게 해준다. 기본적으로 복수 개의 주키퍼 서버의 집합인 Ensemble로 구성된다. Ensemble은 leader-follower 구조를 사용하며, Leader가 Follower에게 동기화를 위한 명령을 내리게 된다. 각 어플리케이션의 정보를 중앙 집중화하고 구성관리, 그룹 관리 네이밍, 동기화 등의 서비스를 제공한다. 주키퍼의 데이터는 메모리에 저장되고, 영구 저장소에 스냅샷을 저장한다. 분산 코디네이션 서비스란? - 분산 시스템에서 시스템 간의 정보 공유, 상태 체크, 서버들 간의 동기화를 위한 락 .. 2022. 4. 20.
[데이터베이스] 아파치 카프카 (Apache Kafka)란? 데이터 파이프라인(Data Pipeline)을 구축할 때 가장 많이 고려되는 시스템 중 하나가 '카프카(Kafka)' 일 것이다. 아파치 카프카(Apache Kafka)는 링크드인(LinkedIn)에서 처음 개발된 분산 메시징 시스템이다. Publish/Subscribe (펍/섭) 시스템 카프카는 기본적으로 Publish-Subscribe 모델을 구현한 분산 메시징 시스템이다. Publish-Subscribe 모델은 데이터를 만들어내는 프로듀서(Producer, 생산자), 소비하는 컨슈머(Consumer, 소비자) 그리고 이 둘 사이에서 중재자 역할을 하는 브로커(Broker)로 구성된 느슨한 결합(Loosely Coupled)의 시스템이다. 프로듀서는 브로커를 통해 메시지를 발행(Publish) 한다... 2022. 4. 20.
[데이터베이스] DBeaver 설치 및 실행 (Windows 10) 데이터베이스 Tool 설치하기 https://dbeaver.io/download/ Download | DBeaver Community Download Tested and verified for MS Windows, Linux and Mac OS X. Install: Windows installer – run installer executable. It will automatically upgrade version (if needed). MacOS DMG – just run it and drag-n-drop DBeaver into Applications. Debian package dbeaver.io 사이트를 방문하여 OS에 맞게 다운로드 설치 관련 선택 사항 : 각 선택 사항에 맞게 설치를 진행한다. 설.. 2022. 4. 18.