aws 신기한 것,, ETL을 이렇게 쉽게 할 수 있다
비용만 안비싸면 자주 사용해보고 싶다
AWS GLUE 사이트
https://ap-northeast-2.console.aws.amazon.com/gluestudio/home?region=ap-northeast-2#/jobs
AWS glue 개념
glue에선 job과 crawler 두가지를 사용했는데
사실 crawler는 그렇게 많이 사용하진 않고 raw data json의 스키마를 쓰는데 활용했
Glue job 사용방법
script 클릭
참고로 notebook을 사용하면 비용 폭탄을 맞을 수 있다
비용도고 무서워서 이후로 스크립트만 사용함,,,
python이 아닌 spark로 작성
그럼 이렇게 코드를 작성할 수 있는 스크림트가 뜬다
이제 여기서 코드를 작성하면 된다
이때 데이터를 가져오고 저장하는 경로는 어디서 정하냐
Job details 에서 정하면 된다
필수로 채워야하는 건 이 두개
스크림트 명과 IAM role이다
IAM role은 따로 정해줘야하는데 이건 나중에 한 번 작성해보겠다
s3의 파일 경로 정하는 법은 좀 더 아래로 내리면
job parameters 라고 있다
클릭을 하면 이렇게 key와 value가 있는데
나 같은 경우에는 out_path와 raw_path를 여기서 다 설정했다
아무튼 이렇게 까지 끝내서 코드를 작성하면 save와 run이 가능해지는데
자동 저장되는게 아니니 코드를 변경하면 무조건 save를 하자^^
이제 잘돌아가는지 확인하려면 Runs를 확인하면 된다
보통 Failed가 뜨면 error 문장이 뜨는데
succeeded가 떠도 이상하게 데이터가 정확하지 않는다고 생각할 수 있다
이럴 경우에는 Cloudwatch logs를 확인하면 된다
logs는 보통 all logs나 output logs나 error logs를 볼 수 있는데
보통 error logs에서 ctrl + f 를 통해서 error나 warn을 검색해서 문제점을 찾으면 된다
'데이터 처리 및 변환 (transform)' 카테고리의 다른 글
AWS Clawer (글루 크롤러) 사용 해보기 (1) | 2025.01.13 |
---|---|
AWS glue의 개념 및 활용 glue job과 glue crawler (1) | 2025.01.10 |
데이터 평탄화(flatten) spark로 json 평탄화하기 (0) | 2025.01.09 |