반응형
개인적으로 스토리지 공부를 위해 정리한 내용들입니다.
함께 공부하자는 취지로 내용을 공유합니다.
‘최근 가격 하락으로 주목받고 있는 고성능 스토리지는?’이라고 묻는다면 ‘SSD’라고 즉시 답할 수 있는 한편, ‘SSD를 풀어서 쓰면 뭐라고 하나요.’라고 물어본다면 철자를 하나하나 꼬집어서 기억해 내는 과정이 생겨 답이 조금 느려집니다.
이처럼 일상에서 자주 쓰이는 용어는 바로 기억해 답할 수 있지만, 알아 둬도 나쁘지 않은 정도로 중요성이 떨어지는 정보는 다시 끄집어내는 데 시간이 걸립니다.
스토리지에 저장되는 데이터에도 우선순위가 있는데, 이 우선도(티어)에 따라 빠르게 접근할 수 있게 적합한 스토리지에 저장 및 이동시키는 기술을 데이터 티어링(data tiering)이라고 합니다.
1. 데이터 티어링의 개념
- 스토리지 티어링
- 자주 접근하는 데이터를 빠른 스토리지에 두고 접근 빈도가 낮은 데이터를 그보다 느린 스토리지에 구분해서 저장하거나 이동시키는 것
- 미션 크리티컬한 온라인 거래나 고객정보, 어플리케이션 데이터는 최소의 지연시간으로 즉각적인 전달이 필요해 고속의 플래시 메모리나 파이버 채널 기반 SAN 등에 위치
- 일반적인 업무 데이터나 중요성이 떨어지는 대규모 비정형 데이터는 SATA 디스크나 테이프, 공용 클라우드 등에 위치
- 데이터가 오래되고 접근 빈도가 낮아질수록 고가의 고성능 스토리지에서 낮은 가격의 느린 스토리지로 이동
티어 | 스토리지 | 성능, 비용, 접근빈도 | 용도 |
고성능 스토리지 | SSD, FC SAN | 고 | 전자상거래 금융거래 |
액티브 스토리지 | SATA 디스크, SAS | 중 | 파일 서비스 데이터 마이닝 백업 및 복구 |
아카이브 스토리지 | 테이프, 공용 클라우드 | 저 | 아카이빙 |
- 데이터의 접근 빈도에 따라 스토리지 간에 데이터를 이동시키는 스토리지 정책을 수립해서 TCO를 절감하는 것이 목적
- 티어링 정책 수립에 있어서 데이터의 중요도나 접속 빈도는 보통 생성 후 시간이 지나면서 자연스럽게 떨어짐
- 스토리지의 티어링 정책은 데이터 생성 시간, 마지막으로 수정되거나 접속한 시간에 따라 수립되어 자동으로 운영할 수 있음
- 데이터 티어의 변동으로 데이터가 낮은 티어의 스토리지로 이동할 시 부가적인 입출력 부하가 발생하는 점도 고려
- 티어링 정책은 사전에 정의된 메타데이터 값을 통해 스토리지 관리 소프트웨어 단에서 실시간으로 처리
2. SSD 캐싱과 다른점
- SSD 캐싱
- 단지 데이터 접근 속도를 최적화하기 위해 접근 빈도가 높은 데이터를 원래 위치에서 복사해서 SSD에 넣는 것
- 특정 데이터로부터 읽기 요청 빈도가 높아지면 캐시는 해당 데이터를 핫 데이터로 인식해 고속 저장 매체로 복사
- 이를 write-around 캐싱이라고 함
- 그 외에도 SSD 캐시와 주 저장장치에 데이터를 같이 저장하는 write-through 캐싱
- 먼저 SSD에 기록하고 SSD에 기록이 끝나면 주 저장장치에 쓰기를 진행하는 write-back 캐싱
- 이와 같은 SSD 캐싱 방식은 주 스토리지와 SSD 캐시에 같은 데이터를 둔다는 점에서 공통점을 가짐
- 데이터 티어링
- 핫 티어와 콜드 티어 간 데이터가 물리적으로 이동
- 많은 기업이 한정된 스토리지 리소스 내에서 데이터 티어링과 SSD 캐싱을 병행해서 활용해 데이터 접근 효율을 극대화하고 있음
- 기업의 관리자는 이 둘을 같이 사용하려면 자신이 속한 기업의 스토리지 인프라 구조를 잘 이해하고 있어야 함
- ex) 현재 스토리지 타입별 가용량과 워크로드 유형에 맞추어 가장 효율적인 스토리지 정책을 세울 수 있어야 함
3. 클라우드에서의 활용
- 점점 늘어나는 비정형 데이터를 보관하는 데 있어서 클라우드의 역할도 커지고 있음
- 클라우드를 활용하고자 하는 기업들은 티어링의 효율을 극대화하고자 기업 내의 온프레미스 스토리지나 사설 클라우드를 공용 클라우드와 함께 사용하는 하이브리드 방식을 채택
- 값비싼 인하우스 스토리지에서 아카이빙을 위한 저비용 클라우드 스토리지로 데이터를 이동시킬 때는 비용 효율뿐만 아니라 접근방식, 요구 성능, 보안 등의 요소도 함께 고려
- 공용 클라우드를 운용하는 데 있어서 가장 많이 고려되는 부분은 바로 비용
- 공용 클라우드의 이용료는 저장되는 데이터의 양보다는 발생하는 트래픽에서 많이 발생
- 같은 데이터를 반복해서 읽는 경우에도 대역폭 비용이 추가로 발생함
- 이와 같은 트래픽 이슈는 네트워크 성능과도 관련이 있음
- 공용 네트워크에서 많은 양의 데이터 읽기 쓰기를 수행하게 된다면 막대한 비용이 발생할 뿐만 아니라 병목을 야기할 수 있기 때문
- 백업의 경우에도 문제 발생 시 백업 및 복구 시간을 충족해야 하므로 네트워크 성능에 민감할 수밖에 없음
- 공용 클라우드는 읽기나 쓰기가 빈번한 용도보다는 주로 장기 보존을 위한 아카이빙용 스토리지로 활용
4. 올플래시 스토리지에서의 활용
- 지난 몇 년간 SSD와 하드디스크의 가격 갭이 좁혀지고 SSD의 기본 용량이 증가하게 되면서 많은 기업이 올플래시 스토리지를 도입함에 따라 티어링의 용도 또한 변화하고 있음
- 빠른 성능의 플래시 메모리만으로 스토리지를 구성해도 비용 효율이 높아 데이터 티어링 기술의 필요성이 줄어들었다는 인식이 늘고 있음
- 기존의 하드디스크에 비해 여전히 가격이 높고 수명도 짧지만 뛰어난 성능과 낮은 전력 소비로 인해 투자 대비 효율이 높아졌다고 할 수 있음
- 올플래시 스토리지는 티어링 기술이 필요 없는 것이 아닌가 하면 또 그렇지는 않음
- NAND 플래시는 QLC(quad-level cell)와 같이 셀 당 비트 수가 많을수록 쓰기 성능과 수명이 감소하지만 읽기 성능에는 영향이 없는 성향을 가지기 때문에 올플래시 구성에서도 용도에 따라 다른 유형의 NAND 플래시로 계층화된 스토리지 아키텍처를 도입할 수 있음
- ex) 읽기 위주의 데이터는 QLC에 저장하고 쓰기 목적의 스토리지는 MLC(multi-level cell)를 사용하는 방식을 취할 수 있음
- 이처럼 쓰기 성능과 더불어 스토리지의 수명에 따라서 티어링 구성을 하는 쪽으로 적용하게 되음
- 게다가 NVMe SSD를 캐시가 아닌 스토리지 티어로 활용하는 경우, 기존의 SATA SSD보다 상위 티어로 활용할 수 있음
- 특히 최근 인텔 옵테인 등을 위시한 스토리지 클래스 메모리(storage class memory, 이하 SCM)가 등장하면서 올플래시 스토리지의 새로운 핫 티어 역할로서 자리매김하고 있음
- SCM은 NVMe 인터페이스를 사용하며 고가이지만 일반 플래시 메모리보다 지연시간, 수명, IOPS, 처리속도 모두 뛰어남
5. 정보 출처
https://tech.gluesys.com/blog/2020/06/22/storage_5_intro.html
반응형
'IT 이야기 > 공부합시다' 카테고리의 다른 글
[스토리지] 데이터 보호 - 스냅샷 (4) | 2023.06.16 |
---|---|
[스토리지] 데이터 보호 - RAID와 이레이저 코드 (0) | 2023.06.16 |
[스토리지] 중복제거 (2) | 2023.06.16 |
[스토리지] 스케일 업과 스케일 아웃 (0) | 2023.06.16 |
[스토리지] 스토리지 프로토콜 (0) | 2023.06.16 |
댓글