E D R , A S I H C RSS

Bigtable기능명세

1. 기능

태블릿 할당 ★★★★★
로드밸런싱/태블릿 서버 복구
B+ 트리 갱신 ★★★★★
마스터 SCAN ★★★★★
클라이언트의 요청 ★★★★
read/write
커밋로그에 쓰기 ★★★
Tablet Server 등록 ★★★
Master Server 등록 ★★★
클라이언트 에러코드 ★★
SSTABLE Compaction ★★★
minor compaction
major compaction
태블릿 복구 ★★
마스터 복구 ★★
태블릿 Split ★★
heartbeat ★
만기 ★

2. 로드 밸런싱 ★★★★★

가장 load가 적은 TS에게 가장 load가 많은 TS의 태블릿을 할당.
TS와 TS간의 태블릿 할당
신규 TS에 태블릿 할당하기도 같음.

2.1. 기능명세

  1. 트리거
    1. 태블릿 개수, cpu rate, 메모리 사용량의 비율을 계산해서
    2. ISSUE : 평균+일정 수치를 이용한 계산식 필요
      1. 평균으로 트리거를 결정하지만 값이 일정 수치보다 작다면 로드 밸런싱은 일어나지 않는다.
  2. 마스터 역할
    1. 가장load가 큰 TS(source)와 가장load가 적은 TS(target)와의 차이가 일정수준 이상일때
    2. source 에게 target의 ip와 전달할 태블릿의 개수를 전달
  3. TS 역할
    1. 소스 TS
      1. 해당 태블릿의 SSTABLE들을 minor compaction
      2. source는 target에게 정해진 갯수만큼의 태블릿을 리스트로 이름전달 ( 연속된 태블릿을 전달한다)
      3. 자신의 태블릿 리스트에서 전달한 태블릿들을 삭제
      4. target에게서 제대로 전달받았는지 확인
    2. 타겟 TS
      1. 전달받은 태블릿 리스트로 태블릿들을 읽어온다
      2. 소스 TS에게 성공 메세지 보냄
    3. 소스 TS
      1. 마스터에게 성공 메세지 전달(마스터 업데이트)
  4. 마스터 역할
    1. b+ 트리(메타태블릿) 갱신
  5. ISSUE
    1. 클러스터의 로드가 적어서 하나의 TS가 커버할 수 있는 정도도 로드 밸런싱이 필요한가?
    2. target이 제대로 전달받았는지 어떻게 알지?
      1. target이 직접 마스터에게 자신의 태블릿 리스트를 전달하고 마스터가 target의 이전 태블릿 리스트와 현재 태블릿 리스트를 비교해 밸런싱이 잘 되었는지 확인.
    3. 더 나은 로드밸런싱 정책필요
      1. 로드밸런싱시 전송할 태블릿 개수 어떻게?

3. TS 복구 ★★★★★

TS가 다운되면 해당 TS가 가지고 있던 태블릿들을 다른 TS에 분산해 나누어준다.
마스터와 TS사이의 태블릿 할당

3.1. 기능명세

  • 마스터
    1. 마스터는 주기적으로 TS들에게서 heartbeat를 받는다
    2. 마스터는 주기적으로 TS들의 태블릿 리스트를 스캔한다.
      1. 스캔한 태블릿 리스트들과 메타태블릿(루트태블릿이었나?)과 비교해 누락된 태블릿 리스트가 있는지 검사
        1. 누락된 태블릿 리스트가 있다면 해당 태블릿 리스트를 가지고 있는 TS가 만기된 것임.(<- 만기가 되지 않았다면?)
        2. 해당 태블릿 리스트를 다른 TS들에게 할당해야함.
        3. target들을 정한다. (어떤 기준으로? 몇개나?)
        4. traget들에게 직접 태블릿 리스트를 전달한다.
  • TS
    1. 읽기 성공시 마스터에게 성공 메세지 전달 (마스터 업데이트)
  • ISSUE
    1. 태블릿 분산시 어떤 정책을 쓸까?
      1. 평균?
      2. 개수?

3.2. ISSUE

  • 메타데이터 태블릿 갱신 (B+ 트리 갱신)
    1. 갱신 : 마스터가
    2. 언제 : 마스터 업데이트 후
    3. 마스터 업데이트 : target이 태블릿 리스트를 전달받고 DFS에서 태블릿 읽기에 성공하면 source에게 성공 메세지 전달.
    4. source는 target에게 성공 메세지를 받으면 자신의 태블릿 리스트에서 전달한 태블릿들을 삭제한다.
    5. source는 마스터에게 성공 메세지를 보내 마스터를 업데이트한다.
    6. 마스터는 메타태블릿을 업데이트한다.
  • 로드 밸런싱 중간에 target이 다운된다면 : 마스터는 로드밸런싱을 위해 다른 target을 선택. 이후 TS 복구를 한다.
  • 로드 밸런싱 중간에 source가 다운된다면? : TS 복구
  • 소스TS는 전달할 태블릿을 어떻게 정할 것인가 : 태블릿 리스트에서 앞에서부터 연속되는 태블릿 N개
  • DFS에서 태블릿 읽기 실패시 대처
    1. 무한 읽기 시도 -> DFS 부하 증가
    2. 읽기 실패한 태블릿 삭제요청 -> 정보 손실

4. 메타 테이블 갱신 ★★★★★

태블릿의 삽입(혹은 split)이 있을 때마다 마스터(또는 TS 스스로)가 b+ 트리를 갱신한다.
client는 b+ 트리를 이용해 row key 탐색을 할 수 있다.

5. 마스터 SCAN ★★★★★

마스터의 스캔요청에 대한 응답. TS가 관리중인 모든 태블릿의 리스트를 마스터에게 전달한다.
  1. 마스터의 스캔요청
  2. TS가 자신이 관리하고 있는 태블릿의 리스트들을 전달한다.

5.1. 기능명세

6. 클라이언트의 요청 ★★★★

  • 캐싱 필요

6.1. 기능명세

6.1.1. read

  • 클라이언트 역할
    1. B+트리에서 원하는 row를 가지고 있는 TS를 탐색
  • TS역할
    1. 클라이언트의 ROW의 읽기 요청이 들어온다 (ISSUE 6. 클라이언트는 어떤 형식으로 TS에게 ROW를 요청할 것인가)
    2. TS는 자신이 가진 태블릿들에서 요청받은 ROW를 검색
    3. 검색결과들을 merge한다.
    4. merge결과를 String의 리스트로 클라이언트에게 돌려준다

6.1.2. write

  • 클라이언트 역할
    1. (태블릿은 같은 ROW를 담고 있으므로 클라이언트는 트리탐색을 통해 TS를 할당받는다)
  • TS 역할
    1. 클라이언트에게 요청받은 row는 먼저 커밋로그에 기록 후 memtable에 쓴다.

7. 커밋로그에 쓰기 ★★★

쓰기(write) 연산시에만 기록됨
크기 제한(2GB) 필요
원형 자료구조를 사용해 공간의 재활용필요 -> 한바퀴 돌아서 공간이 없어지면 memtable들의 minor compaction이 필요하다.
그러나 compaction시에는 모든 수정작업이 중지되므로 로그는 적절히 커야한다.

7.1. 기능명세

7.1.1. 기록

  1. memtable에 쓰기를 하기 전
  2. 커밋로그에 sstable명과 쓰려는 값 기록

7.1.2. 말소

  1. memtable이 copaction으로 sstable이 되면 해당 sstable의 로그는 삭제되어야 한다.
  2. 로그의 삭제도 쓰기연산
    1. 플래그를 이용해 삭제됨을 명시

7.2. 비기능 명세

  1. 커밋로그는 DFS에 있다.
  2. TS당 한개.

8. TS 등록 ★★★

신규 TS는 Locker에 자신의 정보를 등록한다
Locker는 잠금파일을 이용해 TS를 관리한다.

8.1. 기능명세

  1. Locker에 자신의 정보를 등록한다
    1. 자신의 ip
    2. port
    3. 그 외의 시스템 전체가 공유해야 하는 정보는?
  2. Locker는 해당 ip와 port#로 파일을 생성하며 해당 TS에게만 수정권한을 준다.

9. 마스터 등록 ★★★

마스터 서버는 클러스터 내에 하나만 존재한다.
시작시 Locker에 등록을 하고 Locker는 이미 등록된 마스터가 있는지 검사 후 허가/거절 메세지 전달.
거절 메세지를 받은 마스터는 exit();

10. SSTABLE Compaction ★★★

마스터는 태블릿의 SSTABLE 리스트도 알고있어야 하나?

10.1. Minor Compaction

memtable에 더이상 쓰기 연산을 수행할 수 없을 때 SSTABLE로 변환. 파일형태로 DFS에 쓴다.
  1. 트리거
    1. memtable에게 할당된 메모리를 다 사용해서 더 이상 쓰기를 할 수 없을 때
    2. 커밋로그에게 할당된 용량을 다 사용해서 더 이상 쓰기를 할 수 없을 때

10.2. Major Compaction

SSTABLE들을 합병하여 최근 기록만을 남긴다.
client의 읽기 요청 응답시에 효율이 좋음
  • ISSUE
    1. SSTABLE 합병 시기?
    2. major compaction을 하면 SSTABLE이 항상 1개가되나?

11. 태블릿 복구 ★★

커밋로그에서 로그를 읽어와 memtable 복구하는 것

11.1. 기능명세

  1. map&reduce 연산으로 TS별 정렬이 필요하다.
  2. 정렬된 로그에서 특정 TS의 로그를 재실행(redo)한다.

12. 마스터 복구 ★★

마스터 서버 다운시 복구

12.1. 기능명세

  1. 마스터가 다운되었음을 감지하는 즉시 ?는 새로운 마스터를 결정한다.
    1. ISSUE
      1. 마스터의 다운을 어떻게 감지하지?
      2. 누가 새로운 마스터를 결정하지?
  2. 새로운 마스터의 시작을 알린다
    1. ISSUE : 누가 마스터를 알리지?
      1. 마스터가? TS가?
  3. 마스터는 Locker에서 TS리스트를 읽어온다.
  4. 마스터는 Locker에서 루트태블릿의 정보를 읽어온다.
  5. 마스터는 TS들에게서 태블릿 리스트를 스캔한다.

13. 태블릿 Split ★★

태블릿의 크기가 일정 수준 이상 커지면 두개로 나눈다.

13.1. 기능명세

  1. 태블릿의 크기가 200MB를 넘으면 major compaction
    1. 태블릿 split시 키는 반드시 sort되어 있어야 한다.
  2. 후 split한다
  3. SSTABLE은 논리적으로 분할된다
    1. 여러 태블릿이 하나의 SSTABLE을 참조할 수 있다.
    2. ISSUE
      1. 하나의 sstable을 여러 태블릿이 공유할 수 있게 한다.
      2. merge compaction등으로 두개의 sstable만들면 sstable의 복수참조를 막을 수 있다.

14. 클라이언트 에러코드 ★★

클라이언트의 요청이 제대로 수행되지 않았을 때 TS에게 받은 응답메세지별로 다른 시도를 할 수 있다.

14.1. 비기능명세

  1. TS 시작시에 등록한다. 등록에 성공하지 못하면 다시 시도한다.
  2. 재시도할 때 마다 시간간격 늘림
  3. 일정횟수 이상시 멈춤(Locker의 부하 고려)

15. heartbeat ★

TS가 마스터(또는 Locker)에 일정 간격마다 지속적으로 전송하는 더미 패킷.
TS가 활성화중임을 알린다.

  • ISSUE
    1. heartbeat에 응답을 해야하나?
      1. 장 : 마스터 실패를 TS가 감지할 수 있다.
      2. 단 : 마스터의 부하 증가

16. 만기 ★

유닛들은 스스로를 파기하지 않는다.
서버에 장애가 생겨 기능을 하지 못하게 되었을 때 만기(expired) 되었다고 한다.

16.1. 기능명세

  1. TS 복구
  2. 마스터 복구
  3. Locker와 DFS의 복구는 논외로 한다.

16.2. 비기능명세

  1. 만기/실패시 복구

17. 태블릿 서버

태블릿을 관리하는 서버

  1. 속성
    1. 태블릿
    2. 커밋로그
  2. 기능
    1. 자신의 정보 등록 (Locker)
    2. 태블릿 스캔 (마스터)
    3. heartbeat 보내기 (마스터)
    4. 태블릿 분할 (태블릿)
    5. 태블릿 합병 (태블릿)
    6. 태블릿에서 데이터 읽기 (클라이언트)
    7. 태블릿에 데이터 쓰기 (클라이언트)
    8. 태블릿 리스트 전달하기(태블릿 서버)
    9. 태블릿 리스트 받기 (태블릿 서버)
    10. 커밋로그에 쓰기 (DFS)

18. 마스터 서버

클러스터 관리 서버
  1. 속성
    1. 태블릿 서버 정보/timeout 리스트
    2. 태블릿 ID 리스트
  2. 기능
    1. 자신의 정보(ip, port) 등록 (Locker)
    2. 태블릿 서버 신규(또는 실패) 감지 (Locker)
    3. 태블릿 스캔 (태블릿 서버)
    4. hearbeat 체크, 타임아웃 초기화 (태블릿 서버)
    5. 로드밸런싱 (태블릿 서버)

19. 클라이언트

데이터 읽기/쓰기의 주체
Locker나 태블릿 서버 접근은 클라이언트 API로 한다.

  1. 속성
    1. root tablet 주소 캐싱
    2. meta tablet 블럭 캐싱
  2. 기능
    1. root tablet 주소 요청 (Locker)
      1. 클라이언트 api 사용
    2. 데이터 읽기 요청 (태블릿 서버)
      1. 클라이언트 api 사용
    3. 데이터 쓰기 요청 (태블릿 서버)
      1. 클라이언트 api 사용

20. 클라이언트 API

태블릿 서버용 api
클라이언트는 빅테이블의 내부 구조를 알지 못해야 한다.
  1. 기능
    1. root table 주소 얻기 (Locker)
    2. 데이터 읽기요청 태블릿 서버)
      1. 최초 접근시에만 b+ 트리 탐색
      2. 읽기시 row key 또는 key로 검색가능
    3. 데이터 쓰기 요청 (태블릿 서버)
      1. 최초 접근시에만 b+ 트리 탐색
      2. 쓰기시 key:value로만 쓰기 가능

21. Locker

태블릿 서버/마스터 정보 관리
데이터 저장보다는 빠른 응답과 안정성을 요구함.
  1. 속성
    1. 마스터 서버 주소 파일저장
    2. 태블릿 서버 주소 파일저장
    3. 루트 태블릿 주소 파일저장
  2. 기능
    1. 태블릿 서버 정보(ip, port)를 받아 파일로 저장
    2. 마스터 지정
      1. 마스터 서버 정보(ip, port)를 받아 파일로 저장
      2. 주소 요청에 응답
    3. 루트 태블릿 주소 가짐
      1. 마스터 서버에게 받는다

22. DFS

key와 value가 실제 저장되는 분산 파일 시스템
  1. 속성
  2. 기능
    1. 태블릿 서버에게 받은 SSTableIDDFSFileName으로 변환한다.
Valid XHTML 1.0! Valid CSS! powered by MoniWiki
last modified 2021-02-07 05:22:36
Processing time 0.0691 sec