공부기록

태블로 굿모닝 굿애프터눈(49) -태블로 prep을 통해 효율적으로 데이터 전처리하기 본문

시각화/태블로 굿모닝 굿애프터눈

태블로 굿모닝 굿애프터눈(49) -태블로 prep을 통해 효율적으로 데이터 전처리하기

맘모스빵러버 2021. 7. 11. 16:36

Tableau Prep이란 

-태블로 데스크 탑에서 데이터 시각적 분석을 하기에 앞서 데이터를 결합, 정리, 변형하는 데 특화된 제품

-실제 데이터 분석에서 데이터 준비 작업에 대부분의 시간을 할애하기 때문에 프렙을 사용


태블로 굿모닝 굿애프터눈 책을 참고하여 정리한 자료입니다.

 

오늘은 [chapter2. Tableau Prep으로 데이터 연결과 정리를 한 번에 - 태블로 prep을 통해 효율적으로 데이터 전처리하기] 리뷰해보겠습니다.

 


 

데이터 원본 : 시도_합계 출산율-1993-2018.xlsx

 

태블로 프렙을 열어서 데이터를 불러옵니다.

데이터 테이블을 더블 클릭합니다.

데이터의 원본입니다. 원본을 보면 연도에 셀 병합이 되어 있고 데이터 정렬이 열 방향으로 되어 있어서 시각적으로 분석하기에는 어려게 되어있습니다. (열에서 행으로 변경하기 위해 피벗 적용이 필요해 보입니다.)

셀 병합을 비롯해 이해하기 어려운 것을 우선 정리하고자 연결 패널에 있는 '데이터 해석기로 정리됨'을 선택합니다.

그 후 데이터에 '+'를 선택하여 정리 단계를 선택합니다.

그럼 하단에 프로필 패널과 데이터 그리드가 나타나게 됩니다. 

 

이번에는 열 방향의 데이터들을 행 방향으로 전환하기 위해 피벗을 적용하겠습니다. 

+버튼을 눌러 피벗 추가를 선택합니다. 

 

먼저 가장 위에 있는 '1993 20-24세'를 선택 후 shift를 누른상태로 '2018 합계출산율'필드를 선택하고 우측ㄷ에 있는 피벗된 필드 창으로 드래그 앤드 드롭합니다 .

 

그러면 다음과 같이 '시도별'필드를 제외한 필드들이 '피벗1 이름'과 '피벗1값'으로 정리됩니다. 

 

'피벗1 이름'필드 값을 보면 연도와 나이로 구분할 수 있을것 같습니다.

형광펜 칠해져 있는 부분을 클릭 후 적용을 누릅니다. 

그러면 다음과 같이 분리가 됩니다. 

 

이제 '피벗 1값'필드를 더 이상 활용하지 않을 것이므로 우클릭 제거를 선택합니다.

 

'피벗1 이름 - 분할 1'필드를 더블 클릭하여 '연도'로 변경하고

'피벗1 이름 - 분할 2'필드를 더블 클릭하여 '나이'로 변경합니다.

 

또한, '나이' 필드 값 중 '모의 연령별 출산율 : 15-19세'를 더블 클릭한 다음 '15-19세' 로 변경합니다. 

'피벗 1 값' 필드를 더블 클릭하여 이름을 '출산율'로 변경합니다.

 

전국 단위의 출산율만 살표보고자 시도별 필드에 있는 값 중 '전국'을 우클릭 - '이 항목만 유지'를 선택합니다.

 

그런데 전국만 표시를 하면 필드명이 변경이전의 이름으로 나오게 됩니다. 

좌측 변경내용에서 마지막으로 변경한 필드명 바꾸기를 선택하면 중간에 변경된 내용이 모두 반영되어 변경한 필드명으로 나타나는 것을 볼 수 있습니다. 

 

이제 데이터 전처리 과정은 모두 끝났습니다.

+버튼을 눌러 출력을 선택합니다. 

출력을 추출 파일 형태로 저장하기 위해 '파일에 저장'을 선택하고 흐름 실행을 선택합니다. 

 

 

이제 태블로 데스크탑을 오픈합니다.

파일에 연결에서 '자세히...'를 선택한 후 

저장한 태블로 추출 파일을 선택합니다. 

 

추출파일을 연결하면 데이터 그리드 영역에서 시도별 필드가 나타나고 값이 모두 전국인것을 볼 수 있습니다. 

따라서 시도별 필드를 숨겨줍니다. 

 

연도필드의 데이터 유형을 '날짜'로 변경합니다. 

 

시트로 이동합니다.

연도와 나이 출산율을 순서대로 더블 클릭하여 줍니다. 

 

출산율을 소수점 둘째 자리까지 보여주기 위해 측정값에 출산율 우클릭 - 기본 속성 - 숫자 형식 - 숫자(사용자 지정)에서 소수 자릿수를 둘째 자리까지 선택한 후에 확인버튼을 누릅니다. 

 

마크를 텍스트 자동에서 사각형으로 변경하고 출산율을 색상 마크에 올려줍니다.

그 후 색상 범례를 더블 클릭 후 

위와 같이 입력합니다. 

 

열 선반에 있는 년(연도)를 우클릭  - 서식을 선택하고 날짜를 2자리로 선택합니다. 

완성된 테이블을 보면 2006년을 기점으로 30-34세 출산이 가장 높고 2018년에는 35-39세 출산이 25-29세 출산을 앞지르게 되었다는 것을 알 수 있습니다.