본문 바로가기
반응형

분류 전체보기103

docker 설치 후 airflow 설치하기 윈도우 이전 내용에 이어서 이번엔 docker 설치한 후 airflow를 설치해볼 까한다  1. docker 활성화 시키기 먼저 docker 활성화 된 상태인지 확인 2. GitHub에서 Docker Compose 예제 다운로드그리고  Airflow를 Docker로 실행하기 위한 기본 설정 파일을 다운로드해야한다docker-compose.yml 파일이 필요GitHub에서 Airflow Docker Compose 파일을 다운로드 sudo apt updatesudo apt install git먼저 git이 설치되어 있는지 확인하고  git clone https://github.com/apache/airflow.gitcd airflow#docker위치 확인cd scripts/docker-composegit 파일 클론.. 2024. 11. 21.
빅데이터분석기사 전처리 문제 풀기 loc와 iloc의 차이점 loc와 iloc 모두 특정 데이터를 선택하기 위해서 사용된다근데 둘의 차이점이 있는데  df.loc[ :] 행과 열의 이름(레이블)로 데이터를 선택한다슬라이싱 시 끝값을 포함함  #문자 레이블인 경우import pandas as pd# DataFrame 생성data = { 'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35], 'City': ['Seoul', 'Busan', 'Incheon']}df = pd.DataFrame(data, index=['a', 'b', 'c'])# loc 사용print(df.loc['a']) # 인덱스 'a'에 해당하는 행 출력# Name Alice# Age 25# City Seoul.. 2024. 11. 20.
airflow ec2로 설치 터미널 가상환경 열어서 설치 / sudo의 사용이유 터미널로도 설치하는 방법에 대해 알아보자  aws > ec2 생성을 누르고 ubuntu 클릭  인스턴스 유형을 t3.small로 변경  그리고 새로운 키페어를 생성해준다 파일형식은 윈도우 10이상이면 pem으로 아니면 ppk로 설정 나머진 그대로 유지하고 인스턴스 생성해준다   그럼 인스턴스가 생성되고 이때 퍼블릭 dns 주소 복사하고 터미널을 열어준다   파이썬 3.0 pip설치ssh -i 키페어명칭.pem ubuntu@복사한 ip4 dns처음이니까 yes 입력 그 다음 sudo apt-get updatesudo apt-get upgrade이걸 두개를 치면 되는데 만약 이렇게 에러나가 난다면  터미널 오른쪽 마우스 클릭 > 관리자모드 로 가서wsl -install작성하고 다시  powershell로 돌.. 2024. 11. 19.
데이터 파이프라인(ETL/ELT) 과 AirFlow DAG의 구조 및 개념 이번에는 데이터파이프라인(ETL/ELT)을 알아보고 Airflow를 적용하는 방법에 대해 알아볼 거다 데이터 레이크와 웨어하웃 ETL과 ELT에 대한 개념은 아래 링크 참고    데이터 흐름과정 서비스에서 생기는 직접 데이터 & 써드파티에서 생기는 간접 데이터 => 데이터 적제 (ETL) => 데이터 인프라( 전용 데이터 모음집 = 데이터웨어하우스) => 데이터 분석 => 데이터 과학 적용(경험 개선)  외부에 있는 데이터를 코드로 작성해서 데이터 웨어하우스로 가져오는 작업 -> 대표적인 프레임워크가 AIRFLOWAirflow에선 데이터 적제를 DAG라고 말함     데이터웨어하우스의 구성 데이터 소스(mysql emd) => ETL 적용(데이엔지니어링 하는 일) => 데이터웨어하우스에 담기 => 좀 더.. 2024. 11. 18.
반응형