Data Analysis/DS SCHOOL

DS스쿨 데이터사이언스 입문반 2주차 후기

벽을넘다 2020. 5. 20. 23:23

데이터 분석에 꽂혀서 홀린듯 시작한 나의 새로운 도전

dsschool의 광고 영상이 마음에 들었고, 이내 신청을 했다. 할인도 받았다. 

비전공자도 할만하다고 했다. 데이터사이언스 입문반이다. 

한 기수를 다 들었다. 재밌는데 실전반으로 바로 가기는 역부족이란 생각이 들었다. 

 

재수강을 한다. 

 

다시, 시작.

 

2주차 부터 합류했지만 차근차근 요점을 짚어주셔서 좋았다. 

 

# 파이썬 기본기를 익힘

-대괄호의 중요성, 제어문 학습

# 판다스 기본기 익힘

-행과 열, 행열 추가 및 삭제

 

위의 두 가지 스킬을 잘 다룬다면 분석가의 기본을 갖춘 것이라고 볼 수 있을 것이다. 

축구선수가 경기에 투입되어 전략과 전술을 이해하고 움직이기 전에 기본기를 갖추는 것과 같다. 

굳이 한 번 더 언급하자면 드리블, 슛팅 연습을 하는 것과 비슷할 것이다.  

 

 

[파이썬 기초]

1. 파이썬을 배운다. 데이터 가공 및 시각화에 용이하다. 나중에 언급할 판다스도 함께. 

-코드는 깔끔하게. 협업할 때 중요하다.

-변수는 문자를 주로 쓴다. 

-주피터 노트북이라는 툴을 쓴다. 출력은 맨 마지막 코드만. 따라서 중간 것을 출력하려면

print()를 써준다. 

 

integer(int) - 정수형

string(str) - 문자형 

 

2. indexing

-변수로 문자 덩어리를 지정 후 위치를 선택해 불러올 수 있다. 

-어디 부터 어디, 뒤에서부터 부르는 것도 가능하다. 

name = 'abcd'

name[0:4] -> 파이썬은 0부터 시작한다. 외우자. 0부터 4까지(첫 번째부터 다섯 번째까지)인데 쭉 부를 땐 마지막 수는 제외한다. 따라서 이것을 출력하면 그대로 'abcd'가 나온다. 

name[-1] -> -가 붙으면 뒤에서 시작하는 것. 뒤에서 첫 번째 것을 출력하라는 의미, 그래서 답은 d다. 

 

-대문자, 소문자로 변환도 가능하다. 

name.upper

name.lower

 

. 이 명령어다. 

 

 

3. 프로그래머의 중요 역량 중 하나는 '에러 관리'다.

-도움 받는 것 보다는 스스로 해결해려고 노력하는 게 중요. 오래 걸리더라도 혼자 하려고 노력하자.
-에러 메시지를 본다. 위치 확인하고 코드로 간다.

-구글링도 실력이다. 

 

 

4. 리스트 - @@중요@@

- 이 기능이 없다면 네 줄로 쳐야하는 코드를 한 줄에 완성할 수 있다. 

a = 4

b = 3

c = 2

d = 1

 

a = [4, 3, 2, 1] <- 대괄호 씌우는 것이 포인트다. 

 

-뒤에서 다시 나오겠지만 원본을 바꾸는 명령어와 바꾸지 않는 명령어가 있음을 주의하자. 

 

 

 

append는 리스트에 목록 추가 후 원본 변경, upper는 원본이 안 바뀐다. 

 

5. 제어문

-조건(if)문  @@중요@@

-컴퓨터가 동작하는 것을 제어한다.


age = 5

 

if age < 10:
    print("아이")
    print("아이")
else:
    print("어른") 

 

아이가 나오고, 프린트를 두 번 해주어서 아이가 두 번 나온다. 

 

-반복(for)문 @@중요@@

basket = [ egg, apple, banana, grape ]

# 리스트를 만든다.

 

for i in basket:

# i라는 변수를 지정한다. 자유롭게 가능하다. 바스켓 안 프로덕트를 처음부터 끝까지 i라는 변수에 넣으라는 뜻이다.
    print(i)

# i를 출력한다. 
    print(i)

# i를 또 출력한다. 

 

egg

apple

banana

grape 가 나온다. 

 

-숫자의 경우, range함수를 활용하면 쉽게 코드를 짤 수 있다.

# range(5) = [0, 1, 2, 3, 4]  -> 0부터 시작해서 안의 숫자는 다섯 개라는 뜻이다. 

-> 그대로 출력하면 range(0, 5) 

# 레인지는 리스트를 한 번에 만들어주는 기능. 만능키~!!!
->레인지 함수는 심오하다. 3, 6, 9 게임도 도전해 봤다. 어려움..

 

[판다스]

import pandas as pd

# as pd는 축약해서 쓰겠다. 
# 엑셀, 판다스 섞어 쓰는 것이 가장 좋다. 
# 데이터를 불러오거나 데이터를 만드는 것.

 

데이터를 불러와서 검색을 시작했다. 판다스의 핵심은 '검색'이라고 한다. 

 

1. 판다스에서 두 개 이상 검색할 때 리스트를 쓴다. 대괄호 두 개가 핵심이다!

-행과 열을 동시에 검색할 때는 loc함수를 쓴다. 

 

 

loc함수는 기본적으로 행을 불러오지만, 행, 열을 지정해서 불러오는 것도 가능하다. 유용!

 

 

2. 판다스는 기본적으로 원본을 안 바꾼다. 확인해보고 바꾸고 싶으면 새로운 변수로 지정해주기. 

3. 데이터분석의 50~80은 모으고 정리해주기. 

4. 색인 기능이 강력하다. 

5. 없으면 만들고 있으면 덮어 씌운다. 

6. 모든 것의 시작은 검색이다. 

7. 행과 열 삭제하기는 행렬 검색응용 또는 drop함수 사용하기. 

 

 

데이터사이언스를 배우는 일은 흥미롭지만 광활하다. 좀 더 많은 시간을 투자해야겠다는 생각이 든다. 데이터 분석가 또는 데이터 사이언티스트를 꿈꾸는 일이 언젠간 현실이 되길 바라며.