본문 바로가기
데이터 처리 및 변환 (transform)

AWS Glue Job(글루 잡) 사용해보기

by goemgoem-i 2025. 1. 12.
반응형

aws 신기한 것,, ETL을 이렇게 쉽게 할 수 있다

비용만 안비싸면 자주 사용해보고 싶다 

 

 

 

AWS GLUE 사이트

https://ap-northeast-2.console.aws.amazon.com/gluestudio/home?region=ap-northeast-2#/jobs

 

https://ap-northeast-2.console.aws.amazon.com/gluestudio/home?region=ap-northeast-2#/jobs

 

ap-northeast-2.console.aws.amazon.com

 

 

 

 

AWS glue 개념

https://toonovel.tistory.com/entry/AWS-glue%EB%A5%BC-%EC%82%AC%EC%9A%A9%ED%95%98%EB%8A%94-%EC%9D%B4%EC%9C%A0

 

AWS glue를 사용하는 이유

ETL 작업을 하면서 알게된 것인데 AWS glue를 많이 사용한다고 한다그래서 이번 기회에 정의 및 특징에 제대로 알고 가는 게 좋을 것 같아서 정리해보려고 한다   AWS Glue란?AWS Glue는 ETL(Extract, Transf

toonovel.tistory.com

glue에선 job과 crawler 두가지를 사용했는데

사실 crawler는 그렇게 많이 사용하진 않고 raw data json의 스키마를 쓰는데 활용했

 

 

 

 

 

 

Glue job 사용방법 

 

script 클릭

참고로 notebook을 사용하면 비용 폭탄을 맞을 수 있다

비용도고 무서워서 이후로 스크립트만 사용함,,,

 

 

 

python이 아닌 spark로 작성

 

 

 

그럼 이렇게 코드를 작성할 수 있는 스크림트가 뜬다

이제 여기서 코드를 작성하면 된다 

 

 

 

이때 데이터를 가져오고 저장하는 경로는 어디서 정하냐

Job details 에서 정하면 된다

 

 

 

 

 

 

 

필수로 채워야하는 건 이 두개

스크림트 명과 IAM role이다

IAM role은 따로 정해줘야하는데 이건 나중에 한 번 작성해보겠다

 

 

 

 

s3의 파일 경로 정하는 법은 좀 더 아래로 내리면 

job parameters 라고 있다

 

 

클릭을 하면 이렇게 key와 value가 있는데

나 같은 경우에는 out_path와 raw_path를 여기서 다 설정했다

 

 

 

아무튼 이렇게 까지 끝내서 코드를 작성하면 save와 run이 가능해지는데 

자동 저장되는게 아니니 코드를 변경하면 무조건 save를 하자^^

 

 

 

 

이제 잘돌아가는지 확인하려면 Runs를 확인하면 된다

보통 Failed가 뜨면 error 문장이 뜨는데 

succeeded가 떠도 이상하게 데이터가 정확하지 않는다고 생각할 수 있다

이럴 경우에는 Cloudwatch logs를 확인하면 된다

 

 

logs는 보통 all logs나 output logs나 error logs를 볼 수 있는데

보통 error logs에서 ctrl + f 를 통해서 error나 warn을 검색해서 문제점을 찾으면 된다

 

 

반응형