Kyeongrok Kim 웹데이터 수집의 기술05 importxml > 데이터수집

데이터 수집

데이터수집-스크래핑, 크롤링, 파싱

Kyeongrok Kim | 웹데이터 수집의 기술05 importxml

본문

※ 영상을 선명하게 보기 안내
  1. 유튜브 영상에서 오른쪽하단에 톱니바퀴를 클릭합니다.
  2. 팝업목록에서 "품질" 선택하세요.
  3. 원하는 해상도를 선택해주세요.
※ 모바일에서 Wifi가 아니라면 데이타가 소진될 수 있으니 주의바랍니다.
Kyeongrok Kim님의 데이터수집강의 청각장애인을 위한 자막
15688760255883.jpg

 


안녕하세요. 웹 데이터 수집에 기술 동영상 강의입니다.
저는 이 책을 번역한 김경목 입니다.
이번 시간에는 3 다시 장 아
구글 스프레드시트 의 임포트 엑셀 함수를 이용해서 웹 페이지에서 데이터
받오는 걸 해 보도록 하겠습니다.
일단은 임포트 xml 엄 소의 점 임포트 xml 이 함수를 사용해 볼
겁니다.
근데 이 함수를 사용할때는 url 인터넷 주소 정
모두 소 인터넷 주소
그 다음에 여기 따로 옵션으로 x 패스
이전 시간 강의에서 한번 알아봤던
x 패스 이렇게 두개를 가지고 또 특정 페이지에 있는 특정 부분에 있는
데이터를 수집 을 해보도록 하겠습니다.
일단 구글 스프레드 시트를 한번 켜 볼까요.
굴 아
구글 스툴의자 엘 시트
네 골 10 플레이드 시트 들어가서
하나 만들어 보도록 하겠습니다.
음 여기 뭐 스프레드시트 이름은
바꿀 수 있죠. 100 프랙티스 하고 뭐 pot
xml 에 임포트 xml 이라는 이 함수를
연습을 해 보겠다 이런 뜻입니다. 그리고 어떤 페이지에서 가져올지 를
정해야 되는데요.
교제에서는 다음 금융
긴데 여기서 삼성전자 에 있는 데이터를 가져오는 것을 보도록 하겠습니다.
음 여기 있네요.
다음에서 삼성전자 돌아왔는데요.
삼성전자 가격이 230 89,000원
이거 이렇게 되겠습니다.
그럼 여기다가 1
천번 작성을 해 보겟습니다. 일단은 이렇게
는 써야죠
이렇게 맨날 쓴 다음에 import xml
이라고 한번 함수로 둘러보겠습니다.
xml 요렇게 치면 자동 완성이 되죠
그 다음에 url 은 앞뒤로 이렇게 따옴표를 쳐주고 그 다음에
x 패스도 이렇게 따옴표를 쳐줍니다.
그래서 여기 안에다가 내용을 넣어 줄 건데요.
옆에 꺼는 주소가 들어가 되겠죠..
주소를 한번
복사를 해 보겠습니다. 이렇게 상단에
컨트롤 c 눌러 가 줄게 복사를 하겠습니다.
오른쪽 눌러서 복사 둘로 되죠
그 다음에 여기 프랙티스 인 폴트 xml 와가지고 우리도 붙여 넣기
그 다음에 여기 x 패스 검색어를 넣으라고 하네요.
x 패스도 한번 알아보도록 하겠습니다.
자 여기에서 내가 추출하고 싶은 부분에 다가 마우스 오른쪽 버튼을 누르고
검사 를 누릅니다.
그럼 이렇게
개발자 도구가 표시가 됩니다.
처음 되시는 분들은 이렇게 옆에 가 있을 수도 있어요.
개업해 가 있으며 는 저는 밑에 있는 걸 좋아하기 때문에 이렇게 밑으로
이동을 하겠습니다.
자 그 다음에 여기서 요거 셀렉트 어느 엘리먼트 인더 페이지
트윈 스펙트 내의 마우스 커서 이렇게 되어있는 부분을 누르면 파란색으로
바뀌죠
마우스를 돌려놓으면 은 이 부분에 이렇게 색깔이 칠해줍니다.
그래서 클릭을 땅 하면은
요 위치로 이렇게 가격 딱 이동을 하죠.
그래서 여기서 마우스 오른쪽 버튼을 누르고 커피 누른 다음에
카피 x 패스 를 하시면 됩니다.
흠 지금 복사가 되었습니다.
다시 구글 스프레드시트 로 가서 여기 따옴표 사이에 다가 쳐 넣기를 해
줘 보겠읍니다.
에서 엔터를 딱 치며 는
에러가 나네요. 이게 왜 에러가 난다면
여기 따옴표 안에 요렇게 따옴표가 들어가 있어 가고 오는데요.
이걸 이렇게 싱글 코트로 바꿔보겠습니다. 더블 겉으로 되는걸 이렇게
싱글코트 롤
엔터를 납치 면은
가격 이렇게 나오죠. 그런분들 동의를 해 볼까요. 컨트롤 x 해가지고
요렇게 그 다음에 여기를
음 가격
해볼게요 그 다음에 뭐 종목명
삼성전자 그 다음에
여기도 종목 고등
여기 보니까요. 뒤에 코드가 이렇게 했죠 005930
그때 있는데 카패 가지고
여자에게 붙여 넣기 할 텐데요.
이렇게 하면 더 앞에 0 공짜가 짤리기 때문에
요건 서식을 바꿔보겠습니다. 서식을 일반 텍스트로 바꾸고 요
다시 복사 해야되요.
005930 카피
아주 종목코드 에다가 겹 붙여 표면은 005930 이 되죠
그 다음엔 가격에 다감 음 적한 에서 데이터를 갖고 하기 위해서 이것만
그렇게 지우고 요
이게 아마 일체 앤 으로 하면은
병 곁을 것 같은데요.
앤 하고 지금 b2 줘 b2 비투 이렇게 이렇게 하면 게 똑같이 입력이
됐죠.
딸은 종목 타고 해볼까요. 삼성동 자만하지 말고
어 저기 보시면
합 쪽 목에 뭐 이렇게 많이 있네요. 내츄럴 셀트리온 해볼까요. 설 필요
셀트리온은 068270 이네요.
카피를 해가지고
여기도 또 붙여 넣기를 해보겠습니다. 안 되게 잘 이네요.
뭐 이렇게 전체 선택하고 다음에서 식에서
숫자가 아니고 일반 텍스트 되고 그 다음에 붙여넣기 해 보겠습니다.
그러면 앞에 02 사라지지 않았죠
여기 또 셀트리온
그 다음에
이걸 자동차용 해볼까요. 이렇게
네 그럼 이에는 얼마 얼마 입니까
1 씹 백 천 만 십만 10만 원인데
만나볼까요. 그밖에 들어왔죠
컨버젼 일도 한번 해볼까요. 1001
그래서 오른쪽 버튼 누르고 검사
그 다음에 마우스 이렇게 딱 갖다 놓으면 은
여기 가격에 이렇게 선택이 되죠
여기서 오른쪽 버튼 누르고 카피 xts 이렇게 하면은
됩니다. 음
어전 1 가격
1 가격
그리고 이 함수를 이렇게 끌어와야 되는데요.
페타 노루가 나죠 여기 c2 가 아니고 b2 로 해야되요. 10도
그 다음에 저 xps 를 복사를 했는데 아까
다시 폭 싼걸로 수저 놓기 하고
한명이 이렇게 더블코트 있는것을 싱글 코트로 렇게 꺼줍니다.
검소 닐까 격이 네요. 나오네요. 어 데는 240
5만원 였네요. 3 트리 온도 똑같죠.
그래서 여기 총 목을 쭉 이렇게 써놓고 카 격 전 일까 그렇게 넣으시면
됩니다.
이젠 자동 채우기를 하면 은 내가 보고 싶은 종목들을
이렇게 한눈에 볼수가 있겠죠. 이렇게 클릭 클릭 을 매번 하지 않아도 되요.
예 종목코드 이렇게 카피해 가지고
붙여넣기 그다음 my lg 전자
이렇게 뭐 두개 한꺼번에 하면 됩니다.
음 삼성전자 랑 lg 전자
이렇게 비교를 해볼 수가 있죠.
딱 요 데이터만 도코 봤을 때는 삼성전자는 전일 보다 10만원 정도
떨어졌죠. 7만원 정도 떨어진 나요
에 전일보다 떨어지고 있는 추세고
lg 전자는 똑같은 추세 다음의 세 트리 온도
떨어지고 있는 초생 해요. 그러니까 이게 3가지 종목 중에서 어는 지금이
데이터로 만 봤을 때는
만에 꼭 사야 된다고 하면 l 지존 자리를 사야 되겟죠
이런 식으로 다른 여러가지 지표들을 첨 부 담
여기에다가 출력을 해 놓고 한 눈에 보면서 내가 데이터 어를
분석을 할 수가 있습니다.
그리고 이게 꼭 주식 데이터만 이 아니라도 다른 데이터 들도
이런식으로 가져올 수가 있습니다.
이건 시간은 여기까지 하도록 하겠습니다.

댓글 0개

등록된 댓글이 없습니다.

본 사이트의 컨텐츠는 명시적으로 공유기능을 제공하고 있는 공개된 자료를 수집하여 게시하고 있습니다.

저작권, 강의등록, 광고, 제휴등은 "관리자에게 문의"로 메세지 주시면 확인후 답변드립니다.

Menu