본문 바로가기

IT 기타

[Data 관리 아키텍처] Lakehouse 란? (feat. 스토리지 프레임워크)

반응형

데이터 레이크란?

데이터 레이크는 엔터프라이즈 전반에서 다양한 비즈니스 애플리케이션, 시스템, 장치에서 생성되는 방대한 양의 구조화되지 않은 데이터 및 반구조화된 데이터를 처리하고 저장할 목적으로 설계된 아키텍처입니다. 기존의 데이터베이스와 달리 파일 API와 경제적인 스토리지 인프라를 활용하여 원시 텍스트, 이미지, 동영상 등 다양한 데이터 유형을 저장할 수 있습니다.

데이터 레이크의 확장성과 접근성으로 특히 기계 학습 및 인공 지능 알고리즘을 위한 고급 분석에 유리합니다. 개방형 파일 형식을 사용하면 상호 운용성이 향상되지만, 데이터 레이크는 기본적으로 데이터의 무결성과 거버넌스를 보장하는 강력함 메커니즘이 부족하다는 점을 고려해야 합니다.

적절하게 관리하지 못하는 경우 데이터 레이크는 중복되고 정리되지 않은 데이터가 축적되어 ‘데이터 늪’이 될 수 있습니다. 이러한 문제로 인해 의미 있는 인사이트를 확보하기가 더욱 복잡해집니다. 내장된 거버넌스가 없어 데이터 무결성, 메터데이터, 액세스 제어를 유지하기 위해서는 사용자가 주의 깊게 감시해야 합니다.

이러한 문제가 있음에도 데이터 레이크는 이기종 데이터 처리를 위한 경제적인 솔루션을 제공하는 현대식 데이터 아키텍처로 충분한 가치가 있습니다. 조직은 데이터 늪 방지를 위한 데이터 카탈로그 작성 및 메타데이터 관리와 같은 추가 기술을 배포하여 레이크 안에서 구조화되고 안정적이고 분석에 적합한 데이터를 보장하는 경우가 많습니다.

출처 : Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics Michael Armbrust1, Ali Ghodsi1,2, Reynold Xin1, Matei Zaharia1,3 1Databricks, 2UC Berkeley, 3Stanford University

레이크 하우스 시스템 구현

Lakehouse 구현을 위해 우리가 제안하는 첫 번째 핵심 아이디어는 시스템이 Apache Parquet와 같은 표준 파일 형식을 사용하여 저렴한 객체 저장소(예: Amazon S3)에 데이터를 저장하되 그 위에 트랜잭션 메타데이터 계층을 구현하도 록 하는 것입니다. 테이블 버전의 일부인 개체를 정의하는 개체 저장소입니다 . 이를 통해 시스템은 메타데이터 계층 내에서 ACID 트랜잭션 또는 버전 관리와 같은 관리 기능을 구현할 수 있으며, 동시에 저비용 개체 저장소에 대량의 데이터를 유지하고 클라이언트가 표준 파일 형식을 사용하여 이 저장소에서 개체를 직접 읽을 수 있습 니다. 대부분 의 경우. Delta Lake [10] 및 Apache Iceberg [7] 를 포함한 여러 최근 시스템은 이러한 방식으로 데이터 레이크에 관리 기능을 성공적으로 추가했습 니다 . 예를 들어, Delta Lake는 현재 수천 명의 고객이 Databricks 워크로드의 약 절반에 사용하고 있습니다.

델타레이크(Delta Lake)

https://delta.io/

 

Home

 

delta.io

 

 

데이터 레이크하우스(Data Lakehouse)

Databricks 데이터 인텔리전스 플랫폼

https://www.databricks.com/kr/glossary/data-lakehouse

 

데이터 레이크하우스(Data Lakehouse)

데이터 레이크하우스란 무엇입니까? 데이터 레이크하우스는 데이터 레이크가 가지고 있는 유연성, 비용 효율성, 그리고 대용량 지원 기능에 더해, 데이터 웨어하우스의 데이터 관리 기능과 ACID

www.databricks.com

Data Lakehouse 아키텍처

 

참조

https://velog.io/@azuresky/Delta-Lake-%EC%86%8C%EA%B0%9C

 

Delta Lake을 활용한 데이터 처리

Delta Lake란 데이터 레이크 위에 Lakehouse 아키텍처를 구축할 수 있는 오픈소스 프로젝트 기존 문제점 데이터 레이크와 데이터 웨어하우스의 문제점 데이터 레이크는 큰 데이터를 저장할 수 있지만

velog.io

https://www.hpe.com/kr/ko/what-is/data-lakehouse.html

 

데이터 레이크하우스란? | 용어 해설

데이터 레이크하우스는 AI 및 고급 분석의 파운데이션으로, 의사 결정 개선을 위해 모든 데이터에 대해 확장 가능한 통합 보안 액세스를 제공합니다. | HPE 대한민국

www.hpe.com

 

반응형