이 문서에서는 아주 간단하게 Docker-compose를 이용해서 MongoDB를 구동하고 Golang을 통해서 연결하는 부분에 대해서 정리하고 있습니다.
환경은 맥북, VSCode, Golang, Docker 등이 이미 설치되어 있는 것을 기준으로 합니다.
간단한 MongoDB 정리
RDBMS와의 비교
RDB vs. NoSQL (MongoDB)
RDBMS
MongoDB
Database
Database
Table
Collection
Tuple/Row
Document
Column
Key/Field
Table Join
Embedded Documents
Primary Key
Primary Key (_id)
특징과 장/단점
주요 특징들은 다음과 같다.
Document-Oriented Storage : Database > Collections > Documents 구조로 Document는 key-value 형태의 BSON (Binary JSON)으로 되어 있다.
Full Index Support : 다양한 인덱싱을 제공한다.
Single Field Indexes : 기본적인 인덱스 타입
Compound Indexes : RDBMS의 복합 인덱스 타입
Multikey Indexes : Array에 매칭되는 값이 하나라도 있으면 인덱스에 추가하는 인덱스 타입
Geospatial Indexes and Queries : 위치기반 인덱스와 쿼리 지원
Text Indexes : String에 대한 인덱스 지원
Hashed Indexes : Btree 인덱스가 아닌 Hash 타입의 인덱스도 지원
Replication & High Availablity : 간단한 설정을 통해서 데이터 복제를 지원하므로 가용성이 향상된다.
Auto-Sharding : 자동으로 데이터를 분산해서 저장하며, 하나의 컬랙션처럼 사용할 수 있도록 수평적 확장 기능을 제공한다.
Querying (Document based query) : 필터링, 수집, 정렬, 정규표현식 등의 다양한 쿼리문 지원
Fast In-Place Updates : 고성능 atomic operation 지원
Map/Reduce : 맵리듀스 지원 (map과 reduce 함수의 조합을 통해서 분산/병렬 시스템 운용 지원, 하둡처럼 MR전용 시스템에 비해서는 성능이 떨어진다)
GridFS : 분산 파일 저장을 지원하기 때문에 실제 파일이 어디 저장되는지를 알 필요가 없으며 복구도 자동으로 지원된다.
Commerical Support : 10gen에서 관리
장점
데이터를 쌓아놓고 삭제가 필요없는 경우가 가장 적합하다. (ex. 로그 데이터 등)
Flexibility : Schema-less (or Schema-Free) 라서 어떤 형태의 데이터라도 저장이 가능하다.
Performance : Read & Write 성능이 뛰어나다.캐싱이나 많은 트래픽을 감당할때 사용해도 좋다.
Scalability : 기본적으로 Scale-out 구조를 채택해서 쉽게 운용이 가능하다. Auto-Sharding 지원
Deep Query Ability : 문서 지향적 Query Language를 사용해서 SQL만큼 강력한 Query성능을 제공한다.
Conversion / Mapping : JSON 형태로 저장 (실제는 BSON) 되기 때문에 직관적이고 개발이 편리하다.
단점
정합성이 요구되어 트랜잭션 관리가 필요한 경우는 부적합하다. (ex. 금융, 회계, 회원정보 등)
Join이 없다 : JOIN이 필요없도록 데이터의 구조를 잡아야 한다.
File 기반이다 : Memroy mapped file 기반의 파일 엔진 DB이며 메모리 관리를 OS에 의존한다. 따라서 메모리 의존성이 있으며 메모리 크기가 성능을 좌우한다.
SQL을 완전히 이관할 수 없다 : SQL을 그대로 이전할 수 없으며 맞도록 변환해야 한다.
BTree 성능 이슈가 있다 : 인덱스를 BTree 기반으로 하고 있으므로 크기가 커질수록 새로운 데이터를 입력하거나 삭제할 때 성능이 저하된다. 따라서 데이터를 넣어두고 조회만 하는데 적합하다.
메모리 관련 이슈
데이터를 저장할 때 논리적으로 메모리에 먼저 저장하고 일정 주기에 따라서 메모리 블럭들을 디스크로 출력하는데 이 부분을 OS의 의존하고 있다. 실제 메모리가 작아도 OS의 가상메모리 운영 방식에 따라서 운영된다.
이런 운영 구조 때문에 메모리에서 데이터 블럭을 참조할 때 없다면 “Page Fault” 오류가 발생하고, 이 상황에서 디스크에서 해당 블록을 찾아서 메모리에 로드하여 처리하게 된다. 이 과정에서 모자라는 메모리 때문에 다른 블럭을 디스크에 쓰고 제거한 후 필요한 블럭을 메모리로 올리는 작업이 처리되기 때문에 디스크 I/O가 발생하므로 성능 저하가 발생할 수 밖에는 없다.
따라서 메모리 크기가 성능을 좌우한다는 것은 Page Fault 오류의 발생 반도에 근거하고 있다고 보면 된다. 따라서 데이터 설계를 할 때 자주 사용되는 데이터가 메모리에 상주할 수 있도록 key 설계를 하는 것이 매우 중요하다. 또한 테이블을 풀 스캔하는 작업은 무조건 Page Fault를 발생시키게 되므로 이런 경우는 Index Table (Summary Table) 등을 만들어서 운영하는 것이 성능을 위한 방법이라고 할 수 있다.
주요 용어
Document
RDBMS의 Tuple / Row와 대응되는 개념으로 Key-Value 쌍으로 구성되며, Value에는 또 다른 document가 설정될 수도 있다. 동적 스키마를 가지고 있기 때문에 같은 Collection (Table) 안에 있는 Document끼리도 다른 스키마를 가질 수 있다. (Free Schema)
Primary Key
RDBMS의 Primary Key와 대응되는 개념으로 ObjectId는 12bytes의 16진수 값으로 각 Document의 유일성을 보장하는 역할을 담당한다.
4bytes : Timestamp Data
3bytes : Machine id Data
2bytes : MongoDB 서버의 Process id Data
3bytes : Sequenctial number Data
개념적으로는 RDBMS의 auto increment와 비슷한 개념으로 생각하면 될 듯 하다.
MongoDB에서 Collection에 저장된 각 Document들은 반드시 기본 키 역할을 담당하는 “_id” 라는 필드를 가져야 한다.
Collection
RDBMS의 Table에 대응되는 개념으로 Document의 그룹이며, Document들이 Collection 내부에 위치한다.
Database
RDBMS의 Database에 대응되는 개념으로 Collection들의 물리적인 컨테이너다. 따라서 각 Database는 물리적인 파일 시스템에 여러 개의 파일로 저장된다.
MongoDB 실행하기 (docker-compose)
MongoDB 자체를 실행하는 것은 그렇게 어렵지 않다. 아래와 같이 아주 단순한 docker-compose.yml을 구성하면 바로 구동된다.
위와 같이 구성하고 docker-compose.yml 파일이 존재하는 경로에서 아래의 명령으로 실행하면 된다.
로그를 확인해 보면 중간에 root 계정을 생성하는 것을 확인할 수 있으며, 인증 모드로 동작하고 있는 것을 확인할 수 있다.
좀 더 많은 구성 옵션들과 실행과 관련된 스크립트들 (예를 들어 일반 사용자 추가 등)을 더 설정할 수 있지만, 여기서는 이 정도만 구성해도 충분하다.
Golang으로 연결하기
처음 Golang으로 연결하면서 여러 가지 정보들을 확인해 봤지만 Golang 버전에 따라서 Mongo Driver 들에 따라서 다양한 글들과 방법들이 나오지만 이런저런 오류들이 발생하면서 오히려 헷갈리는 상황들이 존재한다.
이 문서에는 Golang 버전의 MongoDB Official 격이라고 판단되는 mongo-go-driver를 기준으로 한다.
import 구성
아래의 코드는 mongodb driver의 go 라이브러리를 import 하는 것이다. 두 가지 방법 중에 무엇을 사용해도 상관없지만 코드 구성 후에 자동 import 처리되는 것을 확인해 보니
go.mongodb.org
로 사용되기 때문에 이를 기준으로 했다.
클라이언트 연결과 검증 코드
구동 중인 mongodb가 authentication mode로 동작하고 있고, root 사용자만 만들어 놓은 상태기 때문에 이를 아래의 코드를 통해서 연결과 검증을 하면 된다.
클라이언트 옵션에 더 많은 구성들이 있지만 이 부분들은 mongodb 매뉴얼등을 검토해 보면서 적용하면 된다.
발생했던 문제점들
ApplyURI에 “mongodb://ID:PW@localhost:27017” 방식으로 구성할 때 오류
un-escaped character @ in user info 오류
위의 같은 오류 메시지는 ID나 PW에 @ 문자가 존재하는 경우에 직접 전달되면 발생하게 된다. 이를 해결하기 위해서는 "net/url" 패키지를 import 하고 아래와 같이 escape 처리를 해 줘야 한다.
url.QueryEscape
함수를 이용해서 데이터에 존재하는 특수문자를 안전하게 인식될 수 있도록 변환해 주면 된다.
데이터 처리할 때 ”(Unauthorized) command insert requires authentication” 오류
위에 언급했던 Authentication Mode로 구동되고 있는 mongodb에 인증을 처리하지 않고 Connection을 연결한 후 실제 데이터를 처리할 때 인증되지 않은 사용자로 인해서 발생하는 오류다. 이 경우는 위의 코드에서 보여진 것과 같이 인증을 한 Connection을 사용하면 오류가 해결된다.
Authentication 처리를 구성한 Client Option 사용한 연결
처리가 필요하다.