ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • DS스쿨 데이터사이언스 입문반 2주차 후기
    Data Analysis/DS SCHOOL 2020. 5. 20. 23:23

    데이터 분석에 꽂혀서 홀린듯 시작한 나의 새로운 도전

    dsschool의 광고 영상이 마음에 들었고, 이내 신청을 했다. 할인도 받았다. 

    비전공자도 할만하다고 했다. 데이터사이언스 입문반이다. 

    한 기수를 다 들었다. 재밌는데 실전반으로 바로 가기는 역부족이란 생각이 들었다. 

     

    재수강을 한다. 

     

    다시, 시작.

     

    2주차 부터 합류했지만 차근차근 요점을 짚어주셔서 좋았다. 

     

    # 파이썬 기본기를 익힘

    -대괄호의 중요성, 제어문 학습

    # 판다스 기본기 익힘

    -행과 열, 행열 추가 및 삭제

     

    위의 두 가지 스킬을 잘 다룬다면 분석가의 기본을 갖춘 것이라고 볼 수 있을 것이다. 

    축구선수가 경기에 투입되어 전략과 전술을 이해하고 움직이기 전에 기본기를 갖추는 것과 같다. 

    굳이 한 번 더 언급하자면 드리블, 슛팅 연습을 하는 것과 비슷할 것이다.  

     

     

    [파이썬 기초]

    1. 파이썬을 배운다. 데이터 가공 및 시각화에 용이하다. 나중에 언급할 판다스도 함께. 

    -코드는 깔끔하게. 협업할 때 중요하다.

    -변수는 문자를 주로 쓴다. 

    -주피터 노트북이라는 툴을 쓴다. 출력은 맨 마지막 코드만. 따라서 중간 것을 출력하려면

    print()를 써준다. 

     

    integer(int) - 정수형

    string(str) - 문자형 

     

    2. indexing

    -변수로 문자 덩어리를 지정 후 위치를 선택해 불러올 수 있다. 

    -어디 부터 어디, 뒤에서부터 부르는 것도 가능하다. 

    name = 'abcd'

    name[0:4] -> 파이썬은 0부터 시작한다. 외우자. 0부터 4까지(첫 번째부터 다섯 번째까지)인데 쭉 부를 땐 마지막 수는 제외한다. 따라서 이것을 출력하면 그대로 'abcd'가 나온다. 

    name[-1] -> -가 붙으면 뒤에서 시작하는 것. 뒤에서 첫 번째 것을 출력하라는 의미, 그래서 답은 d다. 

     

    -대문자, 소문자로 변환도 가능하다. 

    name.upper

    name.lower

     

    . 이 명령어다. 

     

     

    3. 프로그래머의 중요 역량 중 하나는 '에러 관리'다.

    -도움 받는 것 보다는 스스로 해결해려고 노력하는 게 중요. 오래 걸리더라도 혼자 하려고 노력하자.
    -에러 메시지를 본다. 위치 확인하고 코드로 간다.

    -구글링도 실력이다. 

     

     

    4. 리스트 - @@중요@@

    - 이 기능이 없다면 네 줄로 쳐야하는 코드를 한 줄에 완성할 수 있다. 

    a = 4

    b = 3

    c = 2

    d = 1

     

    a = [4, 3, 2, 1] <- 대괄호 씌우는 것이 포인트다. 

     

    -뒤에서 다시 나오겠지만 원본을 바꾸는 명령어와 바꾸지 않는 명령어가 있음을 주의하자. 

     

     

     

    append는 리스트에 목록 추가 후 원본 변경, upper는 원본이 안 바뀐다. 

     

    5. 제어문

    -조건(if)문  @@중요@@

    -컴퓨터가 동작하는 것을 제어한다.


    age = 5

     

    if age < 10:
        print("아이")
        print("아이")
    else:
        print("어른") 

     

    아이가 나오고, 프린트를 두 번 해주어서 아이가 두 번 나온다. 

     

    -반복(for)문 @@중요@@

    basket = [ egg, apple, banana, grape ]

    # 리스트를 만든다.

     

    for i in basket:

    # i라는 변수를 지정한다. 자유롭게 가능하다. 바스켓 안 프로덕트를 처음부터 끝까지 i라는 변수에 넣으라는 뜻이다.
        print(i)

    # i를 출력한다. 
        print(i)

    # i를 또 출력한다. 

     

    egg

    apple

    banana

    grape 가 나온다. 

     

    -숫자의 경우, range함수를 활용하면 쉽게 코드를 짤 수 있다.

    # range(5) = [0, 1, 2, 3, 4]  -> 0부터 시작해서 안의 숫자는 다섯 개라는 뜻이다. 

    -> 그대로 출력하면 range(0, 5) 

    # 레인지는 리스트를 한 번에 만들어주는 기능. 만능키~!!!
    ->레인지 함수는 심오하다. 3, 6, 9 게임도 도전해 봤다. 어려움..

     

    [판다스]

    import pandas as pd

    # as pd는 축약해서 쓰겠다. 
    # 엑셀, 판다스 섞어 쓰는 것이 가장 좋다. 
    # 데이터를 불러오거나 데이터를 만드는 것.

     

    데이터를 불러와서 검색을 시작했다. 판다스의 핵심은 '검색'이라고 한다. 

     

    1. 판다스에서 두 개 이상 검색할 때 리스트를 쓴다. 대괄호 두 개가 핵심이다!

    -행과 열을 동시에 검색할 때는 loc함수를 쓴다. 

     

     

    loc함수는 기본적으로 행을 불러오지만, 행, 열을 지정해서 불러오는 것도 가능하다. 유용!

     

     

    2. 판다스는 기본적으로 원본을 안 바꾼다. 확인해보고 바꾸고 싶으면 새로운 변수로 지정해주기. 

    3. 데이터분석의 50~80은 모으고 정리해주기. 

    4. 색인 기능이 강력하다. 

    5. 없으면 만들고 있으면 덮어 씌운다. 

    6. 모든 것의 시작은 검색이다. 

    7. 행과 열 삭제하기는 행렬 검색응용 또는 drop함수 사용하기. 

     

     

    데이터사이언스를 배우는 일은 흥미롭지만 광활하다. 좀 더 많은 시간을 투자해야겠다는 생각이 든다. 데이터 분석가 또는 데이터 사이언티스트를 꿈꾸는 일이 언젠간 현실이 되길 바라며. 

     

     

Designed by Tistory.