_DoYun
_yunilog
_DoYun
전체 방문자
오늘
어제
  • 전체 (83)
    • spring boot main 프로젝트 해결 (2)
    • 회고 (0)
      • pre-project(stackoverflow) (0)
    • 지식창고 (25)
    • 후기 (1)
    • LINUX (2)
    • HTML&CSS (2)
    • SQL (2)
    • 기술 면접 질문지 (1)
      • Chapter1 (1)
      • Chapter2 (0)
    • JAVA (25)
      • JAVA 기초 문법 (1)
      • Collection (1)
      • Enum,Annotation,Stream,람다 (3)
      • 입출력, Thread, JVM (1)
      • Spring Framework (3)
      • Spring MVC (6)
      • JPA (1)
      • Test (3)
      • API 문서 (1)
      • 인증&보안 (2)
      • AWS (2)
    • 알고리즘 (19)
      • 프로그래머스_LEVEL_3 (6)
      • 백준 (0)
      • 프로그래머스_LEVEL_2 (13)
    • Comento (2)
    • Inflearn (2)
      • HTTP (2)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
_DoYun

_yunilog

Comento

[Comento] 2주차 과제 스크래핑을 통한 데이터 분석하기

2022. 5. 10. 10:43

2022.04.29 - [Comento] - [Comento] 1주차 과제 SQL 기본 문법 익히기

이전 [Comento] '금융 IT 개발 실무 경험하기' 과정 1주차 과제 SQL 기본 문법 익히기와 이어집니다. 

 

# 2주차 코멘토 금융IT 개발 실무 경험하기 과제

[주제]

새로운 데이터를 가져와서 가공해서 기존의 데이터와 정보를 보여주기 (파이썬으로 활용하여, 스크래핑해서 상장회사가져오기)

 

[작성 방법]

1.코스피 종목수 출력하기

2.코스피 종목명/종목코드로 출력하기

3.코스닥 종목수 출력하기

4.코스닥 종목명/종목코드 출력하기

 

[절차]

1.파이썬을 설치

2.Pandas 라이브러리로 엑셀 파일 가져와기

3.코스피/코스닥 종목 가져오기

4.가져온 데이터에서 특정 데이터만 뽑아내기

 

[최종 결과 출력 내용]

1.코스피 종목수

2.코스피 종목명/종목코드(6자리)

3.코스닥 종목수

4.코스닥 종목명/종목코드(6자리)

 

[과정 및 결과]

 

파이썬은 해당 사이트에서 무료 다운받는 것이 가능합니다.

https://www.python.org/

 

Welcome to Python.org

The official home of the Python Programming Language

www.python.org

 

# 절차(1)

 

pandas 라이브러리와 xlrd 라이브러리를 import하여 차후 활용할 수 있도록 합니다. 

import pandas as pd
import xlrd

 

# 절차(2)

 

kosdq과 kospi란 변수들을 활용하여 각각 C드라이브에 저장되어 있는 kosdq.xltx 파일과 kospi.xltx 파일 속 데이터들을 받아옵니다. 여기서 주의할 점은 필요한 데이터가 0번째와 1번째 열에 있는 코드 이름과 코드 번호이기 때문에 해당하는 열들만 가져올 수 있도록 가공하여 받아옵니다. 

kosdq = pd.read_excel("C:/~/kosdq.xltx", engine='openpyxl',usecols=[0,1],names=['code_name','code'])
kospi = pd.read_excel("C:/~/kospi.xltx", engine='openpyxl',usecols=[0,1],names=['code_name','code'])

 

# 절차(3)

 

먼저 kospi 변수에 할당되어 있는 코스피 데이터들을 출력합니다. 첫째 줄은 코스피 데이터 내 code 열의 갯수를 출력하는 코드입니다. 다음 둘째 줄에는 이전에 할당하였던 모든 코드 이름과 코드 번호가 출력됩니다.  

print(len(kospi['code']))
print(kospi)

# 절차(4)

 

절차(3)과 마찬가지로 kosdq 변수에 할당되어 있는 코스닥 데이터들을 순서에 맞춰 출력합니다. 

print(len(kosdq['code']))
print(kosdq)

[전체 코드]

[문제 및 해결방안]

 

그동안 파이썬과 거리가 멀었기에 라이브러리를 활용하여 문제를 해결한 경험은 이번이 처음이었습니다. 때문에 pandas와 xlrd 라이브러리를 다운 받는 과정에서 어려움을 겪었습니다. pandas는 파이썬으로 데이터를 다루기 위해 활용하는 라이브러리이며, xlrd는 엑셀 파일을 다룰 떄 필수적인 라이브러리입니다. 참고로 pandas의 경우 cmd에서 [pip install pandas]를 괄호를 제거한 이후 입력하면 자동적으로 다운로드 가능합니다. 더불어 주의해야 할 점은 엑셀 파일을 형식입니다. 엑셀 파일의 대부분은 .xlsx 형식이라 처음엔 kospi.xlsx라는 이름으로 엑셀 파일을 부르고자 하였는데 오류가 발생했습니다. 차후 .xltx로 바꿨을 때 해결되었습니다. 

 

 

 

'Comento' 카테고리의 다른 글

[Comento] 1주차 과제 SQL 기본 문법 익히기  (0) 2022.04.29
    'Comento' 카테고리의 다른 글
    • [Comento] 1주차 과제 SQL 기본 문법 익히기
    _DoYun
    _DoYun

    티스토리툴바