Data Engineering
-
[Programmers DE study] Final assignmentData Engineering/Airflow 2021. 2. 19. 20:10
실무에서 유용할 dag 직접 만들어보기. 물론 지금까지 짰던 코드를 재배치 하는 정도이다. redshift에 있는 raw data를 다시 불러와 sql 로 summary테이블을 만드는 것. 이 작업은 다른 부서와 협업시 효율을 위한 일이다. 쿼리만 짜서 넣으면 자동으로 테이블이 생성되어 생성된 테이블 안에서 자유롭게 분석할 수 있기 때문이다. 개념 이해를 마치고 실습에 들어갔다. 결코 쉽지 않다. 이전 기억을 끄집어 내야 했다. user_session_channel 테이블을 이용하기로 헀다. 적당히 조건을 걸어 주고 대그 실행 시 자동으로 테이블이 만들어지도록 해 주었다. dag는 정상 실행 됐지만 내 schema에 테이블이 생성되지 않았다. 왜지? commit을 잊고 있었다. 다시 떠올리는 transa..
-
[Programmers DE study] 5주차 세션 개념 및 흐름 익숙해지기Data Engineering/Airflow 2021. 2. 13. 00:59
-프로그래머스 강의 5주차 종료 -OLTP(외부 데이터 베이스, source의 개념, postgresql등)에서 airflow scheduler 이용해 AWS S3로 저장(중간에 파일 생성해서 복사 하는 과정)후 원하는 -형태로 출력할 수 있는 작업장의 기능을 하는 OLAP(redshift, data warehouse)로 데이터 흐름을 만드는 연습. (airflow) (airflow) -OLTP -> S3 -> OLAP -Udemy 강의로 복습 -다시 설치하고 개념 정리하기 강의는 airflow ui 설명 중, 터미널엔 webserver와 scheduler가 돌아가는 중.
-
[programmers DE study] - create, insert 연습Data Engineering/SQL 2021. 1. 26. 00:06
수업 중 내용을 복습하던 중 스키마에 테이블을 만들고 컬럼을 설정한 후 null값을 직접 넣어 count를 해보고 싶다는 생각이 들었다. postico를 켜고 바로 해봤지만 오류. 스터디 슬랙 창에 문의해서 다른 분의 도움을 받았지만 쿼리를 맞게 입력했음에도 계속 에러가 났다. 아직 해결하지 못 했다. 이상한 것은 다른 분이 똑같은 postico환경에서 실행했을 땐 null 값이 들어갔다는 것이다. 무엇이 문제인가. 내일 다시 알아봐야 겠다.
-
git pull, git pushData Engineering/Trouble shooting (삽질) 2021. 1. 7. 01:15
드디어 포트폴리오를 깃 허브에 올린다. 한 걸음씩 가는 중에 다시 맞이한 트러블. 깃 허브 접속해서 괜히 뭔가 해보고 싶은 마음에 리파지토리의 readme파일을 수정했다. 그리고 iterms에서 미리 커밋해 놓은 포트폴리오용 소스코드 파일을 push 하려는 순간! 무엇이 문제인가? . . . 한 참 생각하고 여기 저기 뒤져보다가 다시 위의 힌트를 보았다. git pull..? 아!!! 서버에서 바꿔 놓은 것을 로컬로 우선 당겨 와야 하는구나! 개념이 다시 잡혔다. 바로 수행! 이제 다시 깃허브로 보내자~ 성공이다! 새로고침 하니 업로드가 됐다. 야호! git hist로 확인해보니 헤드도 이동했다. 이제는 리드미를 제대로 만들어 봐야지
-
201221 SQLData Engineering/SQL 2020. 12. 21. 23:11
-exists, not exists / in, not in(not in은 널값 체크해주고 있으면 조건절 추가) -메인쿼리 테이블 값을 하나씩 뽑아서 서브쿼리 값과 비교, 조건에 부합하면 출력 (select avg(salary)\r\n\t\tfrom employees\r\n\t\twhere department_id = o.department_id);\n\n select e2.last_name, e2.salary, e1.avg_sal\r\nfrom (select department_id, round(avg(salary)) avg_sal\r\n\tfrom employees\r\n\tgroup by department_id) e1, employees e2\r\nwhere e1.department_id = e2...
-
iterms -> vscode 호출시 오류Data Engineering/Trouble shooting (삽질) 2020. 12. 5. 09:31
잘 되던 깃 config가 갑자기 말썽이다. 어제 한바탕 파이썬과 아나콘다로 전쟁을 치른 후라 뭔가 이상해졌냐 보다. git config --global -e를 입력하면 vscode로 연결되어 화면이 떠야 하는데 뜨질 않고 이런 메시지가 나온다. Fatal Python error: config_get_locale_encoding: failed to get the locale encoding: nl_langinfo(CODESET) failed Python runtime state: preinitialized 열심히 구글링해서 찾고야 말았다. 언어 설정이 초기화 됐나 보다. export LC_CTYPE="en_US.UTF-8" 입력한다. 그리고 다시 config 호출하니 된다. 공부를 이어가자. 출처 www..