Kyeongrok Kim 웹데이터 수집의 기술08 import io > 데이터수집

데이터 수집

데이터수집-스크래핑, 크롤링, 파싱

Kyeongrok Kim | 웹데이터 수집의 기술08 import io

본문

※ 영상을 선명하게 보기 안내
  1. 유튜브 영상에서 오른쪽하단에 톱니바퀴를 클릭합니다.
  2. 팝업목록에서 "품질" 선택하세요.
  3. 원하는 해상도를 선택해주세요.
※ 모바일에서 Wifi가 아니라면 데이타가 소진될 수 있으니 주의바랍니다.
Kyeongrok Kim님의 데이터수집강의 청각장애인을 위한 자막
15688760329855.jpg

 



안녕하세요. 웹 데이터 수집의 기술 통 영산강의 입니다.
저는 이 책을 번역한 김경록 입니다.
이번 시간에는 바실 짱 2장에 있는 내용으로 써 임포트 점 아니오 를
사용해서 웹 데이터 수집하는 방법을 알아보도록 하겠습니다.
시작하기에 앞서 임포트 i5 란 어떤건지 간단하게 말씀을 드리면 웹 스
크 랩 핑을 쉽게 할 수 있도록 만들어 놓은 서비스입니다.
어 엑셀이나
구글 스프레드시트 로 어 웹 데이터를 수집을 할 때는 소스 코드도 작성을
하고
몇가지 설정 도 해주고 해 엄 청 니 몇 번 더 같죠.
그런데 임포트 아이온은 이런 작업들을 몇가지 자동화를 시켜 나서 비교적
마우스 클릭만으로 어떤 데이터를 가지고 있어 있도록 개발해 놓은 서비스
입니다.
사이트는 쪽으로 들어가시면 됩니다. http
짬 짬 슬라이스나 c 버트 뼘 io 여기로 들어가시면 됩니다.
그래서 회원가입하고 스크래핑 하는 것까지 이번 시간에 다 해 보도록
하겠습니다.
먼저 웹브라우저를 실행해 보겠습니다. 그래서 임포트 점 aimp ort 짬
i5
이렇게 접속을 하면 됩니다.
네 그럼 요렇게 이런 사이트가 나오는데요.
어 여기서 회원가입을 할 수가 있습니다.
이렇게 뭐 오른쪽 상단에 쌓인 업 을 누르시면 되죠
싸인 어딜 누르면 회원가입을 할 수가 있습니다.
어 이렇게 회원 가입 폼이 나오는데요. 여기서 poonam steam
넣으시면 되죠
경록
남의 레슨에 익힘 그 다음에 회사 경록
이 게임 뷰티풀 o 암호화 나오시면 됩니다. 그 다음에
이메일은 어제가 여기 가입하려고 새로 만든 이메일이 있습니다.
다음에 뭐 패스워드
넣어주시고요. 그 다음에
컨트리 를 넣으라고 하네요. 어
위치 코리코리가
내역 있네요. 파 이번 야쿤 넘버

어차피 제 푼 돈 버는 인터넷 상의 있기 때문에
예 핸드폰 언어를 넣고
빨간색 버튼을 누르시면 됩니다.
네 그러면 요렇게
회원가입이 진행이 됩니다.

네어 읽어보니까 이메일로 보내 때요
이메일 내서 뭐 확인 버튼을 누르라고 하네요.
이메일을 한번 가봐요 내 여긴 펫 임포트 io 에서 이 메일이 와있네요.
컨펌을 둘러보겠습니다. 컨펌
하인 땡 쏘 머치 뭐해서 컴 펌
예 를 누르면 됩니다.
그러면 내 이메일 정보 인증이
인증 내용이 쪽으로 넘어가서 4
여기
넘어가서 인증을 하고 있네요. 이메일이 인증이 되었다고 합니다.

그런데 이게
trax 파이 얼스 3군데 2
7일동안 무료로 사용할수가 있다고 합니다.
그래서 얘를 애가 뉴런 데요.
7일 동안은 무료 있기 때문에 이메일 소를 7일에 한번씩 만들어 줘야
되는 그런 문제가 있긴 합니다.
일단은 좀 해보도록 하겠습니다.
이 사이트에서
여기 이해 이런 화면이 나오죠. 거며 게다가 내가 데이터를 추출을 하고
싶은 사이트의 주소를 u 아래를 나오시면 됩니다.
어 교제에 는 다음 금융으로 했네요.
다음 금융으로 들어보도록 하겠습니다.
다음 금융
어 함성 정작 그냥 모두가 알고 있는 삼성전자를 해보고 있도록
하겠습니다.
네 여기 이 페이지에 들어가면 이렇게 상단에 url 이 나오죠.
이거 를 복사해 가지고 붙여 넣기를 해보겠습니다. 컨트롤 씨 그리고
임포트 저 아이 5가 가지고 여기에다가 붙여넣기
그래서 이렇게 듀얼 데이터 클릭하시면 됩니다.
네 그럼 이렇게 어떤 프로세싱 하는 화면이 쭉 나오죠.
이 해외에 있는 서비스 라 약간 드린 것 같네요.
웹페이지를 로딩을 지속하고 있습니다. 4
어차피 한번만 로딩 해놓으면 나중에 문제가 자동으로 수집 을 하기 때문에
처음에 시간이 좀 걸릴수도 있어요.
네 이거는 여기 나오는 것은 도움 말입니다.
여기서 그냥 넥스트 렉 스 트 4
도움말 뭐 이렇게 사이트 주소를 넣고 그다음에 에디트 가 가지고 어디
뽑을 지 볼 수 있다는 거구요. 그 다음에
그래서 뭐 어떤 칼럼들 이렇게 더 지정할 수 있다는 거고
여기서는 뭐 데이터 더웠다 칼럼도 지었다 할 수 있다
칼럼 추가 렴 상단에 앱이 컬럼 눌러라 이런 뜻이구요.
그 다음에 음
여기 뭐 어떤 데이터를 추출할 지 이렇게 마우스로 클릭해 가지고
지정할 수 있단 뜻입니다. 이렇게 초록색으로 나오면 선택이 된거죠
넥스트 요거는 오버뷰
미리보기
할 수 있다는 뜻이구요. 음 그 다음에 게 어드밴스드 이건 고급 기능
그 다음에 저장하려면 우측 상단에 세이브 들러 라
요거트 튜토리얼이 되겠습니다. 이거를
어 동영상을 잠시 멈춰 놓고 읽어보셔도 좋습니다.
어 일단은 여기서 어떤 데이터를 뽑올 지를 지정을 해 보도록
하겠습니다.
음 위조 재 맨
거래량 거래량 하고
거래량 하고 저가 를 출력을 하는걸 했었네요. 하나씩 해 볼까요.
여기서 맨 먼저 아
제목 제목이 될 만한 걸 이렇게 클릭을 번 더 해 줍니다.
거래량 그 다음에
거래량 하고 젓갈을 했네요. 아시 까시 까를 했네요. 이렇게 2개
이렇게 두개를 선택을 합니다. 근데 선택이 잘 안 됐군요 다시 딜리트
두르고
이쪽에서
거래량 그 다음에
c 깍
일단은 이렇게 해 보도록 하겠습니다.
거래량
c 까
오 호 추가가 안되네요.
다시 치우 0
이렇게 다 치우고 요 일단 전부 다 지워 보겠읍니다.
딜리트 컬럼을 전부 다 하시고 그 다음에
여기에다가 그냥 타이틀 이라고 할까요. 이렇게 타이트
제목 제목만 좀 지정을 해 볼게요
이 쪽에 보시면 거래량이 있습니다. 거래량 클릭 하시고
그 다음에 시 까
그래서 내가 이 거래량 하고 싶 까 라는 두 가지 정보를 뽑겠다 는
뜻입니다.
그 다음에 여기 컬럼을 추가 를 해보겠습니다.
실제 값을 추출 해야 되겠죠.. 상단의 에드 컬럼
예 를 누르고 단 밸류 이렇게 입력을 해 보도록 하겠습니다.
그럼 아까는 거래량 식과 어떤 대목을 선택을 했는데요.
이제는 실제 데이터를
지정을 해 보도록 하겠습니다. 그래서 여기 거래량의 해당하는 것은 이
부분이죠
거래량 그 다음에 시가에 해당하는 거의 부분이에요.
요렇게 지정을 해 줍니다.
그 다음에 2 세이브 를 누르시면 됩니다. 상단에 세이브를 눌러주세요.
세이브


요건은 이메일로 추출을 할 때마다 데이터 보내 줄 거냐
이제 그런 내용입니다.
일단은 요 스킵을 해보겠습니다. 스킵하고
그리고 이걸 익스 트렉터 라고 해요. 어떤 데이터를 추출하는
1개의 항목이다 그래서
익스 트렉터 라고
이름을 붙였네요. 2 뉴 e 트랙터 라고 나오죠.
이거를 뭐 다음 파이 men's 삼성
이런식으로 정 해도 되구요. 아니면 뭐 그냥 놔 두셔도 됩니다.
이렇게 정해도 요건은 어떻게 정해도 크게 상관이 없습니다. 나중에 알볼
수 있게만 정하는 게 좋아요
그 다음에 스케쥴 드 투 런 2 있네요. 데일리
매일 할 거냐 뭐
이건 뭐 시간 다니며 시간 단위로 할거냐
이건 뭐 1주에 한번 할꺼냐 이렇게 했는데 데일리 mi 다해 보겠습니다.
베일리
하고 세이브 n 드럼 눌르시면 됩니다.
네 그럼 이젠 애들이 이렇게 예 익스 트랙터를 만들죠 하나를 추출할 수
있도록 어떤 스케줄도 등록을 하고 그 다음에 우리가 지정한 범위도 서버
에다가 등록을 하고 실제로 추출하는
작업까지 진행을 합니다.
네 그러면 이렇게 어 나왔네요. 6월 x 트렉터 electron
그래서 실행할 준비가 됐다고 하고 그 다음에
지금 막 실행을 하고 있네요. 이렇게
이쪽에 부패 보시면 아까 여기 돌아가는것 보였죠 그리고 지금은 펜이 씨드
완료 됐다고 합니다.
그렇대요 그러면 이제 j 데이터가 추출이 되었어요.
그래서 이걸 다운로드 한번 받보도록 하겠습니다.
라이거 4
여기 오른쪽에 보시면 다운로드 리 설측
결과를 다운로드 받는 그런 화면이 그런 버튼입니다.
그래서 여기를 마우스로 이렇게 둘러보시면
엑셀도 있고 cvs csv 도 있고 제이썬 도 있습니다.
이중에 셋 중에서 원하는 걸 클릭을 하시면 되요. 근데 여기 엑셀 엑셀 엄
받볼까요.
csv 나 엑셀이나 둘다 비슷한데요. 일단 xl 받아보도록 하겠습니다. 엑셀
누름 이렇게 애가 다운로드를 받을 수가 있습니다.
그래서 클릭을 하면
네 이렇게 데이터가 추출이 된걸 볼 수가 있습니다.
이 사이트에서 거래량은 이렇게 시간은 이렇게
이렇게 수집을 할 수가 있겠죠. 이걸 데일리로 만약에 실행을 한다고 하면은
매일 이 사이트에서 이 부분에 있는 데이터를 추출해서 저장을 해 놓습니다.
그래서 내가 나중에 필요할 때 한번에 다운로드 받가지고 분석을 하던가
데이터를 확인을 할 수가 있겠죠.
어 다른것도 안받아요 과 csv 도 한번 받보도록 하겠습니다.
이것도 엑셀에서 열 수 있습니다.
csv 는 요렇게
요것도 내용이 크게
뭐 다른게 없습니다.
그 다음에 제이썬 다운받올까요. 이쪽에 그 프로그램에서 처리할 때는
이제 일선 형식이 굉장히 다루기가 좋습니다. 사람 눈에 볼 때는 엑셀로
보는게 편한데
프로그램의 처리할 때는 체이서 형식이 굉장히 편합니다.
데이턴 한번 열어보겠습니다.
네 그럼 이렇게 이런식으로 데이터가 쭉 들어와 있는걸 보실 수가 있습니다.
네 여기 이렇게 실행 결과 랑 데이터
이제 들어있네요. 식간 얼마고
거래량을 얼마다
이쪽에 이렇게 데이터가 들어 있습니다.
이렇게 해서 엑셀 에서도 확인할 수 있게 데이터를 받을 수도 있고 그
다음에
제이썬 형식으로 데이터를 받을 수가 있습니다.

네 이거 일단은 이렇게 데이터 수집하는 것 여기까지 해보도록 하겠습니다.
다음 시간에 수집한 데이터를 구글 스프레드시트 로 풀러 오는걸 해보도록
하겠습니다.
이번 시간은 여기서 마치겠습니다.

댓글 0개

등록된 댓글이 없습니다.

본 사이트의 컨텐츠는 명시적으로 공유기능을 제공하고 있는 공개된 자료를 수집하여 게시하고 있습니다.

저작권, 강의등록, 광고, 제휴등은 "관리자에게 문의"로 메세지 주시면 확인후 답변드립니다.

Menu