Data Lake SaaS를 만드는 스타트업에서 일하는 사람으로 생각하기에 근미래에는 Data LakeHouse(Databricks에서 만든 용어)가 많이 각광 받을 것 같아요. Data Warehouse는 제약 사항(미래에 어떻게 데이터를 써야할 지 모르지만 schema를 먼저 정해야 한다는 점 - ETL)이 많고, Data Lake는 데이터를 그냥 S3/GCS에 넣기만 한다면 관리가 시간이 지나면 불가능에 가까워지기 때문에 두 가지의 중간인 Data LakeHouse(ELT가 주요 usecase - Databricks가 Bronze, Silver, Gold 테이블에 대한 용어도 만들었는데 이 업계에서는 이제 표준 텀이 된 느낌)가 필요한 이유인 것 같아요. Data 쪽 관심 많으시면 Big Data 관련 테크가 어떻게 발전했고, 현재 Apache Hudi, Apache Iceberg, Delta Lake이 어떻게 이 시장을 먹으려고 싸우는지 한 번 보시면 굉장히 흥미로울 거 같아요!
Data Lake SaaS를 만드는 스타트업에서 일하는 사람으로 생각하기에 근미래에는 Data LakeHouse(Databricks에서 만든 용어)가 많이 각광 받을 것 같아요. Data Warehouse는 제약 사항(미래에 어떻게 데이터를 써야할 지 모르지만 schema를 먼저 정해야 한다는 점 - ETL)이 많고, Data Lake는 데이터를 그냥 S3/GCS에 넣기만 한다면 관리가 시간이 지나면 불가능에 가까워지기 때문에 두 가지의 중간인 Data LakeHouse(ELT가 주요 usecase - Databricks가 Bronze, Silver, Gold 테이블에 대한 용어도 만들었는데 이 업계에서는 이제 표준 텀이 된 느낌)가 필요한 이유인 것 같아요. Data 쪽 관심 많으시면 Big Data 관련 테크가 어떻게 발전했고, 현재 Apache Hudi, Apache Iceberg, Delta Lake이 어떻게 이 시장을 먹으려고 싸우는지 한 번 보시면 굉장히 흥미로울 거 같아요!
안그래도 선배님한테 여쭤보고 싶었는데 댓글 달아주셔서 감사합니다! 한번 공부해보도록 할게요.