MongoDB
08/30
MongoDB
UNIX(c/c++)-LINUX(c/c++)-android, GNOME
-MACos(UNIX + GUI)-windowsprimitive type: 직접값을 기억, 빠름 a=10 (C, Go가 지원)
blob: binray로 저장(16진수로 보여줌)
timestamp: 1970/1/1부터 지나온 시간
NoSQL에서는 배열의 원소 순서가 다르면 다른 값
락 걸리면 읽고쓰기 불가
맵리듀스
삽입삭제갱신-RDBMS, 조회-NoSQL(유연, 스타트업이 많이 사용)
프로그램 접속 시 두가지 필요: 도메인/IP주소(컴퓨터구별) + 포트번호(프로세스 구별)
mongodb에서 use ex하면 이름만 생성, 데이터 넣어야 db 공간 할당
Mongodb 명령어
- db->현재db확인
- showdbs->db목록확인
- use 이름->db 생성 및 전환
- db.dropDatabase() 이름->현재 사용중 db 삭제
- 샘플 데이터 삽입: db.mycollection.insertOne({name:1})
- mongodb에서는 db에 데이터가 존재해야 실제로 db 생성
Collection
- RDBMS에서 테이블 또는 릴레이션에 해당
- 테이블은 정규화된 데이터, 컬렉션은 비정규화된 데이터
- mongoDB에서는 JOIN을 지원하지 않음, 하나의 컬렉션에 최대한 많은 양의 데이터를 저장하는 것 권장
- 성능측면에서는 하나의 컬렉션에 너무 많은 데이터 저장하게 되면 디스크 읽기 오퍼레이션이 많이 필요, 캐시 효율이 떨어지므로 여러개의 컬렉션을 생성
- OS-Memory(주기억장치)-디스크(보조기억장치)
- Cache Ratio: 캐시에 데이터 있을 확률
- 컬렉션 직접 생성: db.createCollection(“컬렉션이름”)
- db 모든 컬렉션 조회: db.getCollectionNames() 또는 show collections
- 컬렉션 제거: db.컬렉션이름.drop()
- 이름 변경: db.컬렉션이름.renameCollection(이름)
- 로그 데이터나 일정 시간 동안만 보관하는 통계 데이터를 보관하고자 하는 경우에 유용
- view: 조회만 가능한 db개체
Capped Collection
- Capped Collection: 크기 초과 시 자동으로 가장 오래된 데이터를 삭제하고 데이터를 삽입
db.createCollection('cappedcollection', {capped:true, size:10000})
db.cappedcollection.insertOne({x:1})
db.cappedcollection.find()
for문 사용가능 for(i=0;i<1000;i++){db.cappedcollection.insertOne({x:i})}
도큐먼트 생성-insert
- 도큐먼트 레벨에서 원자적으로 실행
- 데이터는 JSON 형식으로 표현
- 데이터 삽입할 때 _id 라는 key 값을 설정하지 않으면, _id 라는 컬럼의 값으로 key를 생성해서 삽입을 해줌
- 삽입하는함수로는 insert, save, insertOne, insertMany가 있음
- 데이터를 삽입할 때 배열로 삽입하면 데이터를 분리해서 저장
- JSON: 배열이 맨 밖에 있는 것 불가 {} 안에 위치
- 배열 사용시 순서 있지만 의미부여 X, 세세하게 알려줘야
db.num.insert([1,2,3])
db.num.find()
ordered
- 데이터를 삽입할 때 2번째 매개변수로 ordered 설정 가능
- 이 값이 true이면 싱글스레드 이용, false이면 멀티 스레드 이용
- 여러 개의 데이터를 한꺼번에 삽입할 때 싱글 스레드를 사용하는 경우 에러가 발생하면 뒤의 데이터는 삽입되지 않음
- 멀티스레드를 사용하면 에러가 발생한 데이터만 삽입되지 않음
db.sample.createIndex({name:1}, {unique:true})
db.sample.insert({name:"park"})
db.sample.insert([{name:"kim"}, {name:"park"}, {name: "lee"}]) #싱글스레드일 때 위 경우 lee는 못들어감
db.sample.find()
db.sample.insert([{name:"lee"}, {name:"park"}, {name: "choi"}], {ordered:false}) #멀티스레드일 경우 choi가 삽입
db.sample.find()
- 멀티스레드 프로그래밍 할때 별도의 작업 할당
ObjectId
- 12Byte로 구성된 자료형
- _id필드에 ObjectID를 할당하는 방식으로 도큐먼트를 삽입할 때 일련번호를 부여
- new ObjectId()를 이용해서 직접 생성가능하고, _id필드에 직접 삽입하는 것이 가능
CRUD
- 데이터삽입
- writeConcern
- thashing: 커밋 너무 많이 해 다른 작업 불가->일정한 시간, 개수단위로 커밋, 임시데이터베이스 생성 후 원본에 커밋
- insertOne, insertMany
CQRS패턴: 읽기와 쓰기 분리
- 애플리케이션 분리, 저장소도 분리
- Read App생성(NoSQL), 메시지브로커/카프카(read & Write 사이 버퍼로 데이터 일치하게 사용), Write App생성(RDBMS), 저장소 생성, 백업본 필요
- MongoDB는 Read가 강함
- UPSERT: 있으면 수정, 없으면 삽입
- mongodb는 js 프로그래밍 가능
let num = 1
for(let i=0; i<3; i++)(db.sample.insertOne({name:"user"+i, score:num}))
- 확인: db.sample.find()
데이터 조회
- 관계형 db는 조회를 하면 row의 집합리턴, mongodb는 cursor를 리턴
db.컬렉션이름.find(query-행에대한조건, projection-속성이름)
- json 파일로 만들어진 데이터를 가져오기
mongoimport -d 데이터베이스이름 -c 컬렉션이름 < 파일경로
- inventory 컬렉션에서 item 속성의 값이 hello인 데이터를 조회
db.inventory.find({item:{$eq:"hello"}})
- inventory 컬렉션에서 tags 속성의 값이 blank 이거나 blue인 데이터를 조회
db.inventory.find({tags:{$in:["blank", "blue"]}})
Regex
- users컬렉션에서 name에 a가 포함된 데이터
db.users.find({name: /a/})
db.users.find({name: /[0-9]/})
[ab] a or b
[a-z A-Z] 알파벳
^S: S로 시작하는
S$: S로 끝나는
pa로 시작하는 데이터 조회
db.users.find({name: /^pa/})
1개:
- 데이터 존재: 데이터 리턴
- 데이터 없음->NULL리턴
0개 이상:
- 데이터가 존재하면 데이터리턴
- 데이터 없음: [] 빈 배열 리턴
inventory 컬렉션에는 item, qty, tags 속성이 존재
tags 속성에는 배열로 데이터가 존재
tags 속성에서 red를 포함하는 데이터 조회
db.inventory.find({tags:"red"})
db.inventory.find({tags:"red"}, {"_id":0, "item":1}) #_id 생략
- red와 blank순으로 있는 데이터만 조회
db.inventory.find({tags:["red", "blank"]}, {"_id":0, "item":1, "tags":1})
- 데이터 개수 제한은 limit 함수
* db.inventory.find().limit(2) // 2개만 표시
데이터 1개만 조회할 때는 db.inventory.findOne() 또는 db.inventory.find().limit(1)
건너뛸 때는 skip
db.inventory.find().skip(2)
- 데이터 정렬: sort 함수를 이용, 매개변수로 객체를 대입
sort({속성:1이나 -1}) #1이면 오름차순, -1이면 내림차순정렬
여러 개의 속성 나열 가능
db.inventory.find({}, {_id:0, tags:0}).sort({"qty":1})
cursor(iterator)
데이터를 가리키는 포인터
mongoDB에서는 find를 이용해서 조회하면 결과로 cursor를 리턴
cursor는 2개의 기본적인 메서드를 제공, hasNext()는 다음 데이터 존재 여부를 리턴하고 next()는 다음 데이터를 리턴
변수=find구문 // 변수에 find의 결과를 접근할 수 있는 cursor가 저장
let cur = db.inventory.find()
cur.hasNext()
cur.next()
cur.hasNext() ? cur.next():null
- 파일: 커서로 파일 읽어옴 BOF ~ EOF:NULL
while(cursor;hasNext())
{
cursor.next()
}
- python에서 iter 있으면 순회 가능
쿼리 성능 조회
find함수 다음에 explain(“executionStats”)를 호출하면 쿼리 계획을 확인할 수 있음
거의 모든 데이터베이스에서 이 기능은 제공
접속 도구가 제공되는 경우도 있음
복잡한 subquery를 만들거나 join을 할 때 실행 계획을 확인하고 쿼리를 만드는 것이 좋음
이 부분은 데이터베이스 질의 튜닝을 할 때 이용
인덱스 생성
db컬렉션이름.createIndex({"컬럼이름":1})
인덱스는 조회성능을 높여줌
컬렉션 삭제
db.inventory.drop()
- 데이터추가
db.inventory.insert({_id:1, item:"f1", type:"food", quantity:500})
- 조회 실행 계획 확인
db.inventory.find({quantity:10}).explain("executionStats")
인덱스
- 인덱스만드는경우: 특정 컬럼을 조회에 많이 사용할 때, 결과가 2~4%정도 될때
- 이 외의 경우 풀테이블 스캔 시 안만드는게 나음
EX)
1001 1002 1003 1004 1005 5개의 데이터 있음
커서가 하나씩 읽음
루트 인덱스 생성: 1003
/ \
1001, 1002 <--> 1004, 1005
트리 형태로 인덱스 생성
트리로 만드는 이유: 속도가 더 빠름
특정 데이터 찾을때는 트리 방식이 빠름. 하지만 모든 데이터 조회시 순차적 검색이 더빠름<
[3] -> 0, 0-1, 0-1-2 방식으로 찾음
커서는 0,1,2,3 방식으로 찾음
인덱스는 더블링크드리스트로 만들어짐, 풀테이블 스캔 시 포인터 계속 따라다녀야 함
링크드리스트vs배열: 배열 속도가 더 빠름
링크드리스트 데이터는 비연속적, 포인터가 다음 데이터 가리킴
db.inventory.drop()
db.inventory.insert({_id:1, item:"f1", type:"food", quantity:500})
- 인덱스를 생성하지 않고 조회한 경우 실행 계획 확인
db.inventory.find({quantity:10}).explain("executionStats")
- 인덱스 생성
db.inventory.createIndex({quantity:1})
db.inventory.find({quantity:10}).explain("executionStats")
between 사용 시 인덱스 사용 효율적
age 10<30일때 age>=10 and age<=30 보단 age between 10 and 30이 더 효율적(두개 비교vs 한개 비교)
verbose: 로그 출력 여부
try..catch..finally or try..catch
try..catch..finally: finally에 작성 시 무조건 실행, db와 끊는 것
try..catch: 성공적으로 수행 못할 시 수행못할 가능성
Map-Reduce
그룹화해서 연산을 수행해 결과를 사용하고자 하는 경우 사용할 수 있는 기능
그룹화를 한 후 동시에 연산을 수행한 후 결과를 만들어 리턴
rating컬렉션에서 rating속성별로 그룹화해서 데이터의 개수를 조회
- 그룹화에 사용할 함수를 생성
let 이름=function() {
emit(그룹화할 속성, 집계에 사용할 데이터 속성)
let mapper = function() {
emit(this.rating, this.user_id)
}
- 집계에 사용할 함수에 key로 rating이 넘어가고 value로 user_id 가 넘어감
- 집계에 사용할 함수를 생성
let 이름=function(key, values) {
return 그룹별로 사용할 결과
}
key는 map에서 리턴해주는 그룹화한 속성의 값
values는 앞에서 넘겨준 데이터의 배열
ex) key:1, values:[2]
key: 2, values:[3]
key: 3, values: [4, 1]
let reducer = function(key, values) {
return values.length
}
- 사용
db.컬렉션.mapReduce(Map 함수, Reduce 함수, {out:{inline:1}})
=>
db.rating.mapReduce(mapper, reducer, {out:{inline:1}})
db.rating.aggregate([{$group:{_id:{"category":"$rating"}, sum_prices:{$sum:"$user_id"}}}])
- MongoDB에서 수정을 하게 되면 행 전체를 갱신
- One이 붙는 함수는 조건에 맞는 데이터 1개만 갱신
db.user.insertOne({username:"karoid", age:30})
db.user.insertOne({username:"karoid", age:20})
db.user.replaceOne({username: "karoid"},
{
username: "Karpoid" , status: "Sleep" , points: 100, password: 2222
});
db.user.find()로 확인 -> 문서 자체가 변경됨
업데이트 할 때 기존 속성의 값을 그대로 사용하고자 할 때는 $set:{수정할 내용} 형태로 설정해야
db.user.update({username:"Kaproid"}, {$set:{score:100}}) #매칭된 값 하나만 수정
db.user.updateMany({username:"Karpoid"}, {$set:{score:1020}}) #매칭된 모든 값 수정
db.user.find()