데이터 레이크란?
데이터 레이크는 엔터프라이즈 전반에서 다양한 비즈니스 애플리케이션, 시스템, 장치에서 생성되는 방대한 양의 구조화되지 않은 데이터 및 반구조화된 데이터를 처리하고 저장할 목적으로 설계된 아키텍처입니다. 기존의 데이터베이스와 달리 파일 API와 경제적인 스토리지 인프라를 활용하여 원시 텍스트, 이미지, 동영상 등 다양한 데이터 유형을 저장할 수 있습니다.
데이터 레이크의 확장성과 접근성으로 특히 기계 학습 및 인공 지능 알고리즘을 위한 고급 분석에 유리합니다. 개방형 파일 형식을 사용하면 상호 운용성이 향상되지만, 데이터 레이크는 기본적으로 데이터의 무결성과 거버넌스를 보장하는 강력함 메커니즘이 부족하다는 점을 고려해야 합니다.
적절하게 관리하지 못하는 경우 데이터 레이크는 중복되고 정리되지 않은 데이터가 축적되어 ‘데이터 늪’이 될 수 있습니다. 이러한 문제로 인해 의미 있는 인사이트를 확보하기가 더욱 복잡해집니다. 내장된 거버넌스가 없어 데이터 무결성, 메터데이터, 액세스 제어를 유지하기 위해서는 사용자가 주의 깊게 감시해야 합니다.
이러한 문제가 있음에도 데이터 레이크는 이기종 데이터 처리를 위한 경제적인 솔루션을 제공하는 현대식 데이터 아키텍처로 충분한 가치가 있습니다. 조직은 데이터 늪 방지를 위한 데이터 카탈로그 작성 및 메타데이터 관리와 같은 추가 기술을 배포하여 레이크 안에서 구조화되고 안정적이고 분석에 적합한 데이터를 보장하는 경우가 많습니다.
레이크 하우스 시스템 구현
Lakehouse 구현을 위해 우리가 제안하는 첫 번째 핵심 아이디어는 시스템이 Apache Parquet와 같은 표준 파일 형식을 사용하여 저렴한 객체 저장소(예: Amazon S3)에 데이터를 저장하되 그 위에 트랜잭션 메타데이터 계층을 구현하도 록 하는 것입니다. 테이블 버전의 일부인 개체를 정의하는 개체 저장소입니다 . 이를 통해 시스템은 메타데이터 계층 내에서 ACID 트랜잭션 또는 버전 관리와 같은 관리 기능을 구현할 수 있으며, 동시에 저비용 개체 저장소에 대량의 데이터를 유지하고 클라이언트가 표준 파일 형식을 사용하여 이 저장소에서 개체를 직접 읽을 수 있습 니다. 대부분 의 경우. Delta Lake [10] 및 Apache Iceberg [7] 를 포함한 여러 최근 시스템은 이러한 방식으로 데이터 레이크에 관리 기능을 성공적으로 추가했습 니다 . 예를 들어, Delta Lake는 현재 수천 명의 고객이 Databricks 워크로드의 약 절반에 사용하고 있습니다.
델타레이크(Delta Lake)
데이터 레이크하우스(Data Lakehouse)
Databricks 데이터 인텔리전스 플랫폼
https://www.databricks.com/kr/glossary/data-lakehouse
참조
https://velog.io/@azuresky/Delta-Lake-%EC%86%8C%EA%B0%9C
https://www.hpe.com/kr/ko/what-is/data-lakehouse.html
'IT 기타' 카테고리의 다른 글
[펌] 가치있는 테스트를 위한 전략과 구현 (0) | 2024.11.20 |
---|---|
[Google Cloud] Looker (BI / 데이터 통계) (0) | 2024.09.26 |
[펌] 프로덕션 테스트에서 흔히 범하는 실수들 (0) | 2024.08.21 |
[Surfit] 서핏 문닫음 ㅠㅠ (공지 올라옴 & 복구 완) (0) | 2024.05.28 |
Notion, 로그인 없는 댓글을 받아보자! (0) | 2024.05.02 |