본문 바로가기
반응형

데이터 파이프라인 ( ETL, ELT )20

AWS EMR이란? 특징과 기능을 간단하게 정리 1. AWS EMR이란?AWS EMR(Amazon Elastic MapReduce)은 Hadoop, Spark, HBase, Presto, Flink 등 다양한 빅데이터 프레임워크를 지원하는 완전 관리형 클러스터 서비스전통적인 온프레미스 환경에서는 대규모 데이터 처리를 위해 직접 하드웨어를 구축하고, 서버를 관리해야 하는 부담 발생  -> 하지만 EMR을 사용하면 필요한 만큼 인프라를 자동으로 확장하거나 축소할 수 있고, 복잡한 설정 없이도 손쉽게 클러스터를 관리할 수 있다  쉽게 말해?EMR은 클라우드에서 빅데이터 처리를 도와주는 서비스로, 인프라 걱정 없이 Hadoop/Spark 같은 프레임워크를 실행할 수 있는 도구라고 보면 됩니다.    2. AWS EMR의 주요 특징1) 비용 효율적인 데이터 처.. 2025. 3. 1.
AWS Clawer (글루 크롤러) 사용 해보기 이전이 작성한 glue job에 이어서 glue clawer에 대해서 사용해보자   https://toonovel.tistory.com/entry/AWS-Glue-Job%EA%B8%80%EB%A3%A8-%EC%9E%A1-%EC%82%AC%EC%9A%A9%ED%95%B4%EB%B3%B4%EA%B8%B0 AWS Glue Job(글루 잡) 사용해보기aws 신기한 것,, ETL을 이렇게 쉽게 할 수 있다비용만 안비싸면 자주 사용해보고 싶다    AWS GLUE 사이트https://ap-northeast-2.console.aws.amazon.com/gluestudio/home?region=ap-northeast-2#/jobs https://ap-northeast-2.consoltoonovel.tistory.com.. 2025. 1. 13.
AWS Glue Job(글루 잡) 사용해보기 aws 신기한 것,, ETL을 이렇게 쉽게 할 수 있다비용만 안비싸면 자주 사용해보고 싶다    AWS GLUE 사이트https://ap-northeast-2.console.aws.amazon.com/gluestudio/home?region=ap-northeast-2#/jobs https://ap-northeast-2.console.aws.amazon.com/gluestudio/home?region=ap-northeast-2#/jobs ap-northeast-2.console.aws.amazon.com    AWS glue 개념https://toonovel.tistory.com/entry/AWS-glue%EB%A5%BC-%EC%82%AC%EC%9A%A9%ED%95%98%EB%8A%94-%EC%9D%B4%.. 2025. 1. 12.
AWS glue의 개념 및 활용 glue job과 glue crawler ETL 작업을 하면서 알게된 것인데 AWS glue를 많이 사용한다고 한다그래서 이번 기회에 정의 및 특징에 제대로 알고 가는 게 좋을 것 같아서 정리해보려고 한다   AWS Glue란?AWS Glue는 ETL(Extract, Transform, Load) 프로세스를 간소화하여 대규모 데이터 세트의 처리와 통합을 효율적으로 수행하며, 데이터 레이크와 데이터 웨어하우스를 연결하는 데 특히 유용하   Glue를 사용하는 이유Serverless 환경 : Glue는 서버리스로 운영되므로, 클러스터를 직접 관리할 필요 없이 대규모 데이터를 처리할 수 있다PySpark 기반: Glue는 PySpark 환경을 제공하므로, 데이터 처리와 변환 작업을 유연하게 구현할 수 있다다양한 데이터 소스와 연관:S3, RDS, D.. 2025. 1. 10.
반응형