DS스쿨 데이터사이언스 입문반 2주차 후기
데이터 분석에 꽂혀서 홀린듯 시작한 나의 새로운 도전
dsschool의 광고 영상이 마음에 들었고, 이내 신청을 했다. 할인도 받았다.
비전공자도 할만하다고 했다. 데이터사이언스 입문반이다.
한 기수를 다 들었다. 재밌는데 실전반으로 바로 가기는 역부족이란 생각이 들었다.
재수강을 한다.
다시, 시작.
2주차 부터 합류했지만 차근차근 요점을 짚어주셔서 좋았다.
# 파이썬 기본기를 익힘
-대괄호의 중요성, 제어문 학습
# 판다스 기본기 익힘
-행과 열, 행열 추가 및 삭제
위의 두 가지 스킬을 잘 다룬다면 분석가의 기본을 갖춘 것이라고 볼 수 있을 것이다.
축구선수가 경기에 투입되어 전략과 전술을 이해하고 움직이기 전에 기본기를 갖추는 것과 같다.
굳이 한 번 더 언급하자면 드리블, 슛팅 연습을 하는 것과 비슷할 것이다.
[파이썬 기초]
1. 파이썬을 배운다. 데이터 가공 및 시각화에 용이하다. 나중에 언급할 판다스도 함께.
-코드는 깔끔하게. 협업할 때 중요하다.
-변수는 문자를 주로 쓴다.
-주피터 노트북이라는 툴을 쓴다. 출력은 맨 마지막 코드만. 따라서 중간 것을 출력하려면
print()를 써준다.
integer(int) - 정수형
string(str) - 문자형
2. indexing
-변수로 문자 덩어리를 지정 후 위치를 선택해 불러올 수 있다.
-어디 부터 어디, 뒤에서부터 부르는 것도 가능하다.
name = 'abcd'
name[0:4] -> 파이썬은 0부터 시작한다. 외우자. 0부터 4까지(첫 번째부터 다섯 번째까지)인데 쭉 부를 땐 마지막 수는 제외한다. 따라서 이것을 출력하면 그대로 'abcd'가 나온다.
name[-1] -> -가 붙으면 뒤에서 시작하는 것. 뒤에서 첫 번째 것을 출력하라는 의미, 그래서 답은 d다.
-대문자, 소문자로 변환도 가능하다.
name.upper
name.lower
. 이 명령어다.
3. 프로그래머의 중요 역량 중 하나는 '에러 관리'다.
-도움 받는 것 보다는 스스로 해결해려고 노력하는 게 중요. 오래 걸리더라도 혼자 하려고 노력하자.
-에러 메시지를 본다. 위치 확인하고 코드로 간다.
-구글링도 실력이다.
4. 리스트 - @@중요@@
- 이 기능이 없다면 네 줄로 쳐야하는 코드를 한 줄에 완성할 수 있다.
a = 4
b = 3
c = 2
d = 1
a = [4, 3, 2, 1] <- 대괄호 씌우는 것이 포인트다.
-뒤에서 다시 나오겠지만 원본을 바꾸는 명령어와 바꾸지 않는 명령어가 있음을 주의하자.
5. 제어문
-조건(if)문 @@중요@@
-컴퓨터가 동작하는 것을 제어한다.
age = 5
if age < 10:
print("아이")
print("아이")
else:
print("어른")
아이가 나오고, 프린트를 두 번 해주어서 아이가 두 번 나온다.
-반복(for)문 @@중요@@
basket = [ egg, apple, banana, grape ]
# 리스트를 만든다.
for i in basket:
# i라는 변수를 지정한다. 자유롭게 가능하다. 바스켓 안 프로덕트를 처음부터 끝까지 i라는 변수에 넣으라는 뜻이다.
print(i)
# i를 출력한다.
print(i)
# i를 또 출력한다.
egg
apple
banana
grape 가 나온다.
-숫자의 경우, range함수를 활용하면 쉽게 코드를 짤 수 있다.
# range(5) = [0, 1, 2, 3, 4] -> 0부터 시작해서 안의 숫자는 다섯 개라는 뜻이다.
-> 그대로 출력하면 range(0, 5)
# 레인지는 리스트를 한 번에 만들어주는 기능. 만능키~!!!
->레인지 함수는 심오하다. 3, 6, 9 게임도 도전해 봤다. 어려움..
[판다스]
import pandas as pd
# as pd는 축약해서 쓰겠다.
# 엑셀, 판다스 섞어 쓰는 것이 가장 좋다.
# 데이터를 불러오거나 데이터를 만드는 것.
데이터를 불러와서 검색을 시작했다. 판다스의 핵심은 '검색'이라고 한다.
1. 판다스에서 두 개 이상 검색할 때 리스트를 쓴다. 대괄호 두 개가 핵심이다!
-행과 열을 동시에 검색할 때는 loc함수를 쓴다.
loc함수는 기본적으로 행을 불러오지만, 행, 열을 지정해서 불러오는 것도 가능하다. 유용!
2. 판다스는 기본적으로 원본을 안 바꾼다. 확인해보고 바꾸고 싶으면 새로운 변수로 지정해주기.
3. 데이터분석의 50~80은 모으고 정리해주기.
4. 색인 기능이 강력하다.
5. 없으면 만들고 있으면 덮어 씌운다.
6. 모든 것의 시작은 검색이다.
7. 행과 열 삭제하기는 행렬 검색응용 또는 drop함수 사용하기.
데이터사이언스를 배우는 일은 흥미롭지만 광활하다. 좀 더 많은 시간을 투자해야겠다는 생각이 든다. 데이터 분석가 또는 데이터 사이언티스트를 꿈꾸는 일이 언젠간 현실이 되길 바라며.