Amazon S3 Tables 및 테이블 버킷 작업
Amazon S3 Tables은 쿼리 성능을 지속적으로 개선하고 테이블의 스토리지 비용을 절감하도록 설계된 기능이 내장되어 있으며 분석 워크로드에 최적화된 S3 스토리지를 제공합니다. S3 Tables은 일별 구매 트랜잭션, 스트리밍 센서 데이터 또는 광고 노출과 같은 테이블 형식 데이터를 저장하기 위해 특별히 빌드되었습니다. 테이블 형식 데이터는 데이터베이스 테이블과 같이 열과 행의 데이터를 나타냅니다.
S3 Tables의 데이터는 테이블을 하위 리소스로 저장하는 테이블 버킷이라는 새 버킷 유형에 저장됩니다. 테이블 버킷은 Apache Iceberg 형식의 테이블 저장을 지원합니다. 표준 SQL 문을 사용하여 Amazon Athena, Amazon Redshift 및 Apache Spark와 같이 Iceberg를 지원하는 쿼리 엔진으로 테이블을 쿼리할 수 있습니다.
주제
S3 Tables의 특징
- 테이블을 위해 특별히 빌드된 스토리지
-
S3 테이블 버킷은 테이블용으로 특별히 설계되었습니다. 테이블 버킷은 S3 범용 버킷의 자체 관리형 테이블에 비해 초당 트랜잭션(TPS)이 더 높고 쿼리 처리량이 더 우수합니다. 테이블 버킷은 다른 Amazon S3 버킷 유형과 동일한 내구성, 가용성 및 확장성을 제공합니다.
- Apache Iceberg에 대한 기본 지원
-
테이블 버킷의 테이블은 Apache Iceberg
형식으로 저장됩니다. Iceberg를 지원하는 쿼리 엔진에서 표준 SQL을 사용하여 이러한 테이블을 쿼리할 수 있습니다. Iceberg에는 스키마 진화 및 파티션 진화를 포함하여 쿼리 성능을 최적화하는 다양한 기능이 있습니다. Iceberg를 사용하면 쿼리를 다시 작성하거나 데이터 구조를 다시 빌드할 필요 없이 시간이 지남에 따라 데이터가 진화할 수 있도록 데이터 구성 방식을 변경할 수 있습니다. Iceberg는 트랜잭션 지원을 통해 데이터 일관성과 신뢰성을 보장하도록 설계되었습니다. 문제를 수정하거나 시간 이동 쿼리를 수행하는 데 도움이 되도록 시간이 지남에 따라 데이터가 어떻게 변경되는지 추적하고 과거 버전으로 롤백할 수 있습니다.
- 자동화된 테이블 최적화
-
쿼리를 위해 테이블을 최적화하기 위해 S3는 압축, 스냅샷 관리 및 참조되지 않은 파일 제거와 같은 자동 유지 관리 작업을 지속적으로 수행합니다. 이러한 작업은 작은 객체를 개수가 더 적고 크기가 더 큰 파일로 압축하여 테이블 성능을 높입니다. 또한 유지 관리 작업은 미사용 객체를 정리하여 스토리지 비용을 절감합니다. 이 자동 유지 관리는 수동 테이블 유지 관리의 필요성을 줄여 대규모 데이터 레이크의 운영을 간소화합니다. 각 테이블 및 테이블 버킷에 대해 유지 관리 구성을 사용자 지정할 수 있습니다.
- 액세스 관리 및 보안
-
AWS Identity and Access Management(IAM) 및 AWS Organizations의 서비스 제어 정책을 사용하여 테이블 버킷과 개별 테이블 모두에 대한 액세스를 관리할 수 있습니다. S3 Tables은 Amazon S3와 다른 서비스 네임스페이스인 s3tables 네임스페이스를 사용합니다. 따라서 S3 Tables 서비스 및 해당 리소스에 대한 정책을 특별히 설계할 수 있습니다. 개별 테이블, 테이블 네임스페이스 내의 모든 테이블 또는 전체 테이블 버킷에 대한 액세스 권한을 부여하는 정책을 설계할 수 있습니다. 모든 Amazon S3 Block Public Access 설정은 테이블 버킷에 대해 항상 활성화되며 비활성화할 수 없습니다.
- AWS 분석 서비스와의 통합
-
S3 콘솔을 통해 Amazon S3 Tables 버킷을 Amazon SageMaker Lakehouse와 자동으로 통합할 수 있습니다. 이 통합을 통해 AWS 분석 서비스는 AWS Glue Data Catalog를 통해 테이블 데이터를 자동으로 검색하고 액세스할 수 있습니다. 통합 후 Amazon Athena, Amazon Redshift, QuickSight 등과 같은 분석 서비스를 사용하여 테이블에 대한 작업을 수행할 수 있습니다. 통합 작동 방식에 대한 자세한 내용은 AWS 분석 서비스에서 Amazon S3 Tables 사용 섹션을 참조하세요.
관련 서비스
S3 Tables에서 다음 AWS 서비스를 사용하여 특정 분석 애플리케이션을 지원할 수 있습니다.
-
Amazon Athena – Athena는 표준 SQL을 사용해 Amazon S3에서 직접 데이터를 분석하는 데 사용할 수 있는 대화식 쿼리 서비스입니다. 또한 Athena를 사용하면 리소스를 계획, 구성 또는 관리할 필요 없이 Apache Spark를 사용하여 데이터 분석을 대화식으로 실행할 수 있습니다. Athena에서 Apache Spark 애플리케이션을 실행하는 경우 처리를 위해 Spark 코드를 제출하고 결과를 직접 수신합니다.
-
AWS Glue - AWS Glue는 여러 소스의 데이터를 검색, 준비, 이동, 통합할 수 있도록 하는 서버리스 데이터 통합 서비스입니다. 분석, 기계 학습(ML) 및 애플리케이션 개발에 AWS Glue를 사용할 수 있습니다. AWS Glue에도 작성, 작업 실행, 비즈니스 워크플로 구현을 위한 추가 생산성 및 데이터 운영 도구가 있습니다.
-
Amazon EMR – Amazon EMR은 AWS에서 Apache Hadoop 및 Apache Spark와 같은 빅 데이터 프레임워크 실행을 단순화하여 방대한 양의 데이터를 처리하고 분석하는 관리형 클러스터 플랫폼입니다.
-
Amazon Redshift - Amazon Redshift는 페타바이트 규모의 클라우드 내 데이터 웨어하우스 서비스입니다. Amazon Redshift Serverless를 사용하면 프로비저닝된 데이터 웨어하우스를 구성하지 않아도 데이터를 액세스하고 분석할 수 있습니다. 리소스가 자동으로 프로비저닝하고 데이터 웨어하우스 용량이 지능적으로 크기 조정되어 가장 까다롭고 예측할 수 없는 워크로드에도 빠른 성능을 제공합니다. 데이터 웨어하우스가 유휴 상태일 때는 요금이 발생하지 않으므로 사용량에 대한 요금만 지불합니다. Amazon Redshift 쿼리 에디터 v2 또는 자주 사용하는 비즈니스 인텔리전스(BI) 도구에서 바로 데이터를 로드하고 쿼리를 시작할 수 있습니다.
-
QuickSight - QuickSight는 데이터를 사용하여 시각적 객체를 구축하고, 애드혹 분석을 수행하고, 사업과 관련된 인사이트를 빠르게 얻을 수 있는 비즈니스 분석 서비스입니다. QuickSight는 QuickSight Super-fast, Parallel, In-Memory, Calculation Engine(SPICE)을 사용하여 AWS 데이터 소스를 원활하게 검색하고 빠르고 응답성이 뛰어난 쿼리 성능을 제공합니다.
-
AWS Lake Formation - Lake Formation은 데이터 레이크를 설정, 보안 및 관리하기 위한 프로세스를 간소화하는 관리형 서비스입니다. Lake Formation을 사용하면 데이터 소스를 검색한 다음 데이터를 분류, 정리 및 변환할 수 있습니다. Lake Formation을 사용하면 Amazon S3의 데이터 레이크 데이터와 AWS Glue Data Catalog의 해당 메타데이터에 대한 세분화된 액세스 제어를 관리할 수 있습니다.