Data Engineering/Airflow

[Programmers DE study] Final assignment

벽을넘다 2021. 2. 19. 20:10

실무에서 유용할 dag 직접 만들어보기. 물론 지금까지 짰던 코드를 재배치 하는 정도이다. 

 

redshift에 있는 raw data를 다시 불러와 sql 로 summary테이블을 만드는 것. 

 

이 작업은 다른 부서와 협업시 효율을 위한 일이다. 쿼리만 짜서 넣으면 자동으로 테이블이 생성되어 생성된 테이블 안에서 자유롭게 분석할 수 있기 때문이다. 

 

개념 이해를 마치고 실습에 들어갔다. 결코 쉽지 않다. 이전 기억을 끄집어 내야 했다. 

 

user_session_channel 테이블을 이용하기로 헀다. 적당히 조건을 걸어 주고 대그 실행 시 자동으로 테이블이 만들어지도록 해 주었다. 

 

 

dag는 정상 실행 됐지만 내 schema에 테이블이 생성되지 않았다. 왜지?

 

 

 

commit을 잊고 있었다. 다시 떠올리는 transaction 개념

 

 

 

멱등하게 코드를 짜 주어야 한다. begin, drop table if exists, commit을 추가해준 후 드디어 ctas 테이블이 완성 됐다. 

 

 

파일을 github에 연결된 폴더에 넣고 git add, commit, push 과정을 바로 진행 후 코드리뷰를 받기 위해 branch를 뻗어 reviewer를 걸어 Pull Request까지 마쳤다. 힘들었다.