본문 바로가기
반응형

Data Engineering41

AWS EMR이란? 특징과 기능을 간단하게 정리 1. AWS EMR이란?AWS EMR(Amazon Elastic MapReduce)은 Hadoop, Spark, HBase, Presto, Flink 등 다양한 빅데이터 프레임워크를 지원하는 완전 관리형 클러스터 서비스전통적인 온프레미스 환경에서는 대규모 데이터 처리를 위해 직접 하드웨어를 구축하고, 서버를 관리해야 하는 부담 발생  -> 하지만 EMR을 사용하면 필요한 만큼 인프라를 자동으로 확장하거나 축소할 수 있고, 복잡한 설정 없이도 손쉽게 클러스터를 관리할 수 있다  쉽게 말해?EMR은 클라우드에서 빅데이터 처리를 도와주는 서비스로, 인프라 걱정 없이 Hadoop/Spark 같은 프레임워크를 실행할 수 있는 도구라고 보면 됩니다.    2. AWS EMR의 주요 특징1) 비용 효율적인 데이터 처.. 2025. 3. 1.
AWS Lake Formation과 Amazon Kinesis Data Streams Lake Formation 데이터 분석과 머신러닝을 위한 데이터를 중앙에서 안전하게 관리하고, 공유하도록 해주는 서비스주요기능-  JSON 데이터를 columnar 데이터 포맷(파케이, ORC)으로 변환하는 작업을 수행함. SV를 JSON으로 바꾸진 못함.  사례- VPC 내부의 로그 전송 스트림 구축=>Amazon Kinesis Data Firehose 시스템을 이용하여 로그 데이터를 Splunk에 전달. CloudWatch Logs 구독 필터를 사용하여 로그 데이터를 delivery stream에 전송  Amazon Kinesis Data Streams  기본 아키텍쳐  - 프로듀서가 지속적으로 데이터를 Kinesis Data Streams에 주고(push), 컨슈머가 실시간으로 데이터를 처리함. 컨.. 2025. 2. 20.
프로그래머스 데이터엔지니어링 4기 합격 후기 4학년 2학기 .. 내가 졸업생이라니2학기때 논문과 학교 수업이 있긴한데 그래도 수업이 엄청 많은 건 아니라서국비지원 수업을 신청하게 되었다    지원동기일단 취업에 도움될만한 프로젝트를 할 수 있는 곳을 찾는게 우선이었다그리고 데이터라는게 공부하면 다양한 분야에서 할 수 있는 거라고 생각하는데이전까지는 가공된 데이터에서 머신러닝을 다루고 시각화적으로 어떤게 효과적인지에 대해 초점울 뒀기에내가 다루는 데이터가 어떤 건지 어떻게 다루는지 궁금해졌다그래서 찾아보니 그걸 다루는 직업이 데이터 엔제니어링 분야였고여러 국비지원 수업 중에서 프로그래머스가 제일 좋은 곳 같아서 신청했다사실 데이터엔지니어링 보니까 aws 를 활용하던데 이게 비용이,,좀 많이 드는 거다 보니까 이렇게 회사 통해서 경험하면비용 생각 안하.. 2025. 1. 22.
AWS IAM 개념 정리 및 생성 이유 IAM 이 뭐지?요즘 aws 이것저것 만져보는데 계속 iam 만들라고 하니까 한 번 개념 정리해봤다  IAM 이란?AWS(Amazon Web Services)에서 사용자의 권한을 제어하고 리소스에 대한 액세스를 관리하기 위한 서비스 1. IAM을 생성하는 이유보안 강화를 위해: AWS 리소스에 대한 액세스를 세밀하게 제어하여 불필요한 접근을 방지하고, 데이터 유출 및 오용을 막기 위함.권한 분리: 조직 내에서 특정 역할(예: 개발자, 운영자, 관리자)에 따라 필요한 리소스만 접근하도록 설정.정확한 감사 및 추적: 모든 사용자 활동을 로깅하고 모니터링하여 누가 어떤 리소스를 액세스했는지 추적 가능.자동화 및 역할 기반 액세스: 특정 서비스(AWS Lambda, Redshift 등)나 애플리케이션이 AWS .. 2025. 1. 20.
반응형