본문 바로가기
반응형

데이터 처리 및 변환 (transform)4

AWS Clawer (글루 크롤러) 사용 해보기 이전이 작성한 glue job에 이어서 glue clawer에 대해서 사용해보자   https://toonovel.tistory.com/entry/AWS-Glue-Job%EA%B8%80%EB%A3%A8-%EC%9E%A1-%EC%82%AC%EC%9A%A9%ED%95%B4%EB%B3%B4%EA%B8%B0 AWS Glue Job(글루 잡) 사용해보기aws 신기한 것,, ETL을 이렇게 쉽게 할 수 있다비용만 안비싸면 자주 사용해보고 싶다    AWS GLUE 사이트https://ap-northeast-2.console.aws.amazon.com/gluestudio/home?region=ap-northeast-2#/jobs https://ap-northeast-2.consoltoonovel.tistory.com.. 2025. 1. 13.
AWS Glue Job(글루 잡) 사용해보기 aws 신기한 것,, ETL을 이렇게 쉽게 할 수 있다비용만 안비싸면 자주 사용해보고 싶다    AWS GLUE 사이트https://ap-northeast-2.console.aws.amazon.com/gluestudio/home?region=ap-northeast-2#/jobs https://ap-northeast-2.console.aws.amazon.com/gluestudio/home?region=ap-northeast-2#/jobs ap-northeast-2.console.aws.amazon.com    AWS glue 개념https://toonovel.tistory.com/entry/AWS-glue%EB%A5%BC-%EC%82%AC%EC%9A%A9%ED%95%98%EB%8A%94-%EC%9D%B4%.. 2025. 1. 12.
AWS glue의 개념 및 활용 glue job과 glue crawler ETL 작업을 하면서 알게된 것인데 AWS glue를 많이 사용한다고 한다그래서 이번 기회에 정의 및 특징에 제대로 알고 가는 게 좋을 것 같아서 정리해보려고 한다   AWS Glue란?AWS Glue는 ETL(Extract, Transform, Load) 프로세스를 간소화하여 대규모 데이터 세트의 처리와 통합을 효율적으로 수행하며, 데이터 레이크와 데이터 웨어하우스를 연결하는 데 특히 유용하   Glue를 사용하는 이유Serverless 환경 : Glue는 서버리스로 운영되므로, 클러스터를 직접 관리할 필요 없이 대규모 데이터를 처리할 수 있다PySpark 기반: Glue는 PySpark 환경을 제공하므로, 데이터 처리와 변환 작업을 유연하게 구현할 수 있다다양한 데이터 소스와 연관:S3, RDS, D.. 2025. 1. 10.
데이터 평탄화(flatten) spark로 json 평탄화하기 최근에 데이터 api를 수집한다고 json파일을 많이쓰고 있다 json은 파일이 굉장히 가벼워서 대용량 정보를 가져오긴 굉장히 좋지만 보기는 힘들다그렇기 때문에 데이터 평탄화 작업을 한다고 하는데 이 중 대표적으로 평탄화 할 때 사용하는 건 바로 Spark다  Spark는 JSON의 중첩(nested) 구조를 다루고, 이를 평탄화된 형태로 변환하는 데 매우 유용한 도구이다PySpark(Spark의 Python API)는 JSON 데이터를 처리하고 변환하는 데 자주 사용한다고 한다  왜 Spark를 사용하나?JSON 처리에 적합Spark는 JSON 데이터를 쉽게 읽고 구조를 이해할 수 있는 기능을 제공한다중첩된 구조를 자동으로 파악하여 이를 DataFrame으로 변환대규모 데이터 처리Spark는 분산 처리.. 2025. 1. 9.
반응형