반응형 데이터평탄화spark1 데이터 평탄화(flatten) spark로 json 평탄화하기 최근에 데이터 api를 수집한다고 json파일을 많이쓰고 있다 json은 파일이 굉장히 가벼워서 대용량 정보를 가져오긴 굉장히 좋지만 보기는 힘들다그렇기 때문에 데이터 평탄화 작업을 한다고 하는데 이 중 대표적으로 평탄화 할 때 사용하는 건 바로 Spark다 Spark는 JSON의 중첩(nested) 구조를 다루고, 이를 평탄화된 형태로 변환하는 데 매우 유용한 도구이다PySpark(Spark의 Python API)는 JSON 데이터를 처리하고 변환하는 데 자주 사용한다고 한다 왜 Spark를 사용하나?JSON 처리에 적합Spark는 JSON 데이터를 쉽게 읽고 구조를 이해할 수 있는 기능을 제공한다중첩된 구조를 자동으로 파악하여 이를 DataFrame으로 변환대규모 데이터 처리Spark는 분산 처리.. 2025. 1. 9. 이전 1 다음 반응형