목표 : 가장 보편화된 Data 인 Titanic Dataset 을 이용하여 누락데이터 검출방법 알아보기.
- 누락데이터 검출이 중요한 이유 ?
: 실제로 Big Data 를 다루게 되면, 데이터가 만개, 십만개 이상의 데이터를 다루게 된다. 그럴 경우 하나하나 전부 어디 데이터가 누락되어 있는지 눈으로 찾기는 매우 힘들다. 따라서 Python으로 누락 데이터 검출하는 법을 알아보도록 하자.
- 저는 Jupyter Notebook 을 이용합니다.
0. Seaborn , Pandas 라이브러리 설치하기.
- 머신러닝을 배우기 전에 보편화된 라이브러리인 Seaborn, Pandas, Matplotlib 정도는 설치해두는 것을 추천한다.
- Anaconda prompt에 명령어 <conda install seaborn> 을 입력하여 설치할 수 있다. Pandas는 conda install pandas, Matplotlib는 conda install matplotlib 를 입력하면 된다.
- 가상환경이 구축이 안되어있다면,,
https://engineering-room.tistory.com/2
참고하고 필히 구축 완료 후 읽으시면 될 것 같습니다!
1. Data 불러오기
- 오픈 데이터를 다운 및 불러올 필요 없이, Python의 Seaborn 라이브러리에서 data를 불러올 수 있다.
: 위와 같이 seaborn 과 pandas 라이브러리를 import 한다.
: import seaborn as sns 에서 "as sns" 는 내가 seaborn 모듈을 사용할 때, seaborn 전체를 입력하는 것이 아니라 sns로 줄여서 사용하겠다는 의미이다. (밑의 줄의 sns.load_dataset 처럼! ) 만약 as sns를 입력하지 않았다면, 2번째 줄은 data = seaborn.load_dataset("titanic") 이 되어야 한다. pandas as pd 또한 동일한 의미이다.
2. 불러온 Data 관찰하기
- Data를 불러오고 저는 .info() 와 .head() 를 이용하여 Data의 행과 열정보는 확인하는 편입니다.
[코드설명]
1 : .info() : 열 정보를 알려준다.
2 : .head() : 데이터를 5행까지 출력해준다.
3 . 누락데이터 검출
- 누락데이터 검출을 하기위해서는 .isnull() 을 사용한다. .isnull() 을 사용하게 되면 아래와 같은 결과가 나온다.
- .head()를 사용하였으므로 처음 5행만 출력된다. .isnull 결과, [deck] 행에 True 가 있는 것을 확인할 수 있다.
True 라고 뜨는 위치에 NaN, 즉 데이터가 누락되었다는 것을 의미한다.
4 . 누락데이터 검출
- .isnull() 과 간단한 코딩을 이용해 열(column) 별로 누락데이터가 몇개인지 확인해보자.
- 다음과 같은 구문을 이용하여 각 열(column) 별로 누락된 데이터를 한눈에 확인할 수 있다.
'Python > Basics' 카테고리의 다른 글
[Python][Anaconda 아나콘다 설치 및 가상환경 구축] (0) | 2019.08.23 |
---|