[Datasync] S3로의 동기화 방식

Print

질문

EFS -> datasync -> S3 로 매시간 스케줄 설정되어 데이터 적재(동기화) 중입니다.

Q1. 추가된 파일에 대한 동기화 방식

예를 들어 오늘 10개 파일이 동기화 수행되고 내일 2개 파일이 더 추가되는 경우에, 2개 파일만 읽어서 동기화 되나요? 아니면 전체 12개에 대한 동기화가 수행되나요?

Q2. 파일 동기화 시 변경된 내용에 대한 검증

위 예시 내용에서, 동기화가 진행될 경우 기존 파일에 대한 검증 또는 업데이트된 내용에 대해 LIST 확인 및 검증이 이루어지나요? S3 이용 비용에서 list, copy, put, post request 횟수에 대한 비용이 청구되기 때문에 확인이 필요합니다.

답변

A1.

기존 파일 10개에 대하여 변화된 내용이 없다면 신규로 생성된 2개의 파일에 대해서 데이터를 전송합니다. 기존 파일 10개 중에서도 만약 변경된 내용이 있다면 해당 파일에 대해서도 데이터를 전송합니다.

이 때 기존 파일의 변경된 부분만 incremental 하게 전송하는 것이 아니라 전체 파일을 전송한다는 점 참고 부탁 드립니다.

(S3 는 Object Storage 이기 때문에 객체를 저장할 때 전체를 새로이 저장합니다.)

A2.

소스와 타겟 스토리지를 검사하여 차이점을 확인하기 때문에, EFS의 경우에는 파일 목록 조회에 대한 비용이 발생하지 않으나 S3의 경우 LIST 요청에 따른 S3 비용이 발생합니다.

이 답변이 유용합니까? 아니오

Send feedback
도움이 되어드리지 못해 죄송합니다. 아티클 개선을 위해 의견을 제공해 주시기 바랍니다.