Data Engineering/Airflow
[Programmers DE study] Final assignment
벽을넘다
2021. 2. 19. 20:10
실무에서 유용할 dag 직접 만들어보기. 물론 지금까지 짰던 코드를 재배치 하는 정도이다.
redshift에 있는 raw data를 다시 불러와 sql 로 summary테이블을 만드는 것.
이 작업은 다른 부서와 협업시 효율을 위한 일이다. 쿼리만 짜서 넣으면 자동으로 테이블이 생성되어 생성된 테이블 안에서 자유롭게 분석할 수 있기 때문이다.
개념 이해를 마치고 실습에 들어갔다. 결코 쉽지 않다. 이전 기억을 끄집어 내야 했다.
user_session_channel 테이블을 이용하기로 헀다. 적당히 조건을 걸어 주고 대그 실행 시 자동으로 테이블이 만들어지도록 해 주었다.
dag는 정상 실행 됐지만 내 schema에 테이블이 생성되지 않았다. 왜지?
commit을 잊고 있었다. 다시 떠올리는 transaction 개념
멱등하게 코드를 짜 주어야 한다. begin, drop table if exists, commit을 추가해준 후 드디어 ctas 테이블이 완성 됐다.
파일을 github에 연결된 폴더에 넣고 git add, commit, push 과정을 바로 진행 후 코드리뷰를 받기 위해 branch를 뻗어 reviewer를 걸어 Pull Request까지 마쳤다. 힘들었다.