Kyeongrok Kim 웹데이터 수집의 기술03 webservice filterxml 함수이용하기 > 데이터수집

데이터 수집

데이터수집-스크래핑, 크롤링, 파싱

Kyeongrok Kim | 웹데이터 수집의 기술03 webservice filterxml 함수이용하기

본문

※ 영상을 선명하게 보기 안내
  1. 유튜브 영상에서 오른쪽하단에 톱니바퀴를 클릭합니다.
  2. 팝업목록에서 "품질" 선택하세요.
  3. 원하는 해상도를 선택해주세요.
※ 모바일에서 Wifi가 아니라면 데이타가 소진될 수 있으니 주의바랍니다.
Kyeongrok Kim님의 데이터수집강의 청각장애인을 위한 자막
15688760211708.jpg

 


안녕하세요. 웹 데이터 수집에 기술 동영상 강의 입니다.
저는 이 책을 번역한 번역자 김정록 입니다.
이번 시간에는 웹 데이터 수집에 기술 이 다시 5장에 있는 내용인 엑셀
함수를 이용한 데이터 수집을 해보도록 하겠습니다.
오늘 해볼 건 이렇게 두가지입니다.
웹 서비스 라는 엑셀 함수를 이용해서 rss 에 데이터를 받아오는 걸
해볼 거고요
두번째로 필터 xml 이라는 또 엑셀 함수를 이용해서
받아온 rss 에서 데이터를 추출하는 걸 해 보도록 하겠습니다.
근데 우리가 rss
데이터를 받아올 건데요. 아래 셀 수애가 본질을 한번 간단하게 알아보도록
하겠습니다.
rss 란 뭐냐면 네이버 관심 블로그 기능처럼 특정 사이트에 글이
올라오면 소집해 주는 그런 기능입니다.
일단 어떤건지 잘 모르겠으니까 음 한번 하면서 이게 어떤건지 를 한번
알아보도록 하겠습니다.
먼저 구글 켜고 요
검색을 한번 해보겠습니다.
음 기상청 rss
요걸로 한번 검색을 해볼까요. 책에는 이 기상청 rss 로 제가 책을
썼습니다.
네 임 내용입니다. 이겜
여기 rss 란 어떤건 설명이 나오네요.
리얼리 심플 신디케이션
리치 사이트 써머리 4
어떤 사이트에서 그러 업데이트된 글들을 모아놓는 그런 기능입니다.
일단은 역임
어 일기예보 같은 경우는 수시로 업데이트가 되죠
이미 지나간 정보 같은경우 모기한테 크게 중요하지 않습니다.
당장에 그런 내일 날씨 라던가 이따가 t 가 올 건지 아노 건지 이런
것들을 알아봐야 되기 때문에 굉장히 자주 업데이트가 됩니다.
한번 업데이트된 rsl 한번 봐볼까요.
통 작곡 알고 관 왔고
검색
낙성대동 5 이렇게 동네가 러 군데 있네요.
자 여기서 이제 rss 버튼을 누릅니다.
딱 누르면
이렇게 복사 하시게 냐 그렇게 나옵니다. 이렇게 해서 복사를 합니다.
이 rss 주소는 되요. 확인 누르고 요 네 그럼 이렇게 서울특별시 관악구
낙성대동 도표에 고 이렇게 있네요.
이 페이지를 엑셀로 가지고 어머 겟습니다.
2017년 8월 13일 복을
02:00 이때
어 퍼블리싱 됐다고 나오네요.
이걸 한번 해보겠습니다. 엑셀 켜시고
액셀 함 소에서 그냥 쓰면 됩니다. 이렇게 엑셀 암소는 으로 시작을 하죠.
그 다음에 웹 서비스
확대를 좀 해볼까요. 이렇게 가로 열고 닫고 이렇게 해야 되는데요.
여기에 안쪽에 다감
여기에다 주소를 이렇게 입력을 하면 되요. 근데 입력할 때 앞뒤로 따옴표를
넣어주시기 바랍니다.
그 다음을 수천 와키 이렇게 하시면 되요.
그러기 웹 서비스 예는 음대 문자로서 떼고 소문자로 써도 됩니다.
저걸 둘렀던 이렇게 더운 말도 나오네요.
음 자 그럼 여기다가 쥬얼 로스가 엔터를 한번 적어보겠습니다.
엔터
그럼 우리 계획 쎄 멜로 시작하고 기상청 동네에 보호 웹 서비스
서울 관악구 낙성대동 부표 이고 그 데이터가 이 한 칸의 쪽 들어온
겁니다. 지금 우리 눈에는
옆으로 이렇게 쭉 나아가 지고
어 좀 다르게 보일수도 있는데요. 음 쭉 보니까 아까 봤던 페이지에
2017년 8월 3을 목을 02:00
음 요렇게 데이터가 잘 들어왔습니다.
그럼 여기서 우리가 필요한 부분만 한번 추출을 해보도록 하겠습니다.
일단은 이렇게 한 다음에 그 다음에 여기에
트위터 xml 이란 함수를 쓰면 은
어 여기서 데이터를 뽑낼 수가 있습니다.
한번 해볼게요 업데이터
우리 예제 파에 대해서
더 관련된 소스코드가 있으니까 이거 여는 법을 또 같이 하면서
보여드리겠습니다.
이 프로그램 제가 쓰는 메모장 같은 프로그램인데요. 여러분들의 이해를
돕기 위해
메모장으로 열어 보겠습니다.
여기 보시면 이렇게 서비스 하고 나오죠.
그 다음에 필터 xml 이쪽에
61 쪽 이렇게 써있네요. 필터 xml 지옥을 복사해 가지고
어 여기는 1st 1st 아이템의 있는 타이틀을 뽑오는 그런 식이
되겠습니다.
한번 해보겠습니다. 저 a2 에다 넣고 컨트롤 v 렇게 되면 은 이렇게
나오죠.
동네예보 도표 낙 관악구 낙성대동 이게 오호 여기
어떤 부분을 노출한 거냐면 요
이 국은 입니다. 타이틀 요거 에 캠 그
그 다음에 여기 뭐 카테고리 이걸 한번 뽑볼까요.
서울특별시 관악구 낙성대동 이네요.
작은 이거 카피 & 페이스트
그 여기 밸리 우러나오는 뎀 여기를
데이터는 a 원의 있으니까 역 a1 을 이렇게 지정해주면 같이 나오죠.
반면 타이틀이 아니고 카테고리 category
알 그럼 이렇게 카테고리가 추출이 된걸 볼 수가 있습니다.
이거를 한번 이렇게 검사를 눌러 볼까요.
여기서
위에서 배웠던 x 패스가
아머 2x 패스 인것 같은데요.
4월로 좀 모자랄 것 같네요. 2
일단은 이게 xml 이라는 형식으로 되어 있습니다. 우리 지난번에
html 이라고 html 에서
어 특정 값을 뽑오기 위해서 x 패스를
추출해 봤었는데요. 거기에선 html 이나 하는데 여기에는 이렇게 xml
이라는 형식이 있죠.
그렇죠 엑셈 을 요렇게 생겼구요. 음
지금 여기에 어떤 식을 이용해서 이 식을 이용해서 값을 뽑온 건데요.
까 요기 앞에 슬러시 슬러시 rss 채널 까지는 쓰시고 그 다음에
이게 아이템 이라는 건데
여길 게 아이템이 있죠. 근데 아이템인데
이 첫번째 아이템 이란 뜻입니다.
거기 밑에 카테고리에 있는 거고 란 뜻이에요.
그래서 여기에 아이템이라고 첫번째 있는것 같애
카테고리가 나오고요 그러면 카테고리 말고 여기에 어떤
얻어 를 가지고 올려면
여기를 수정을 해주면 되겠죠..
여기 또 예원 으로 하고
얻어 aut 좋아함 기상청 이라 그렇게 나오죠.
이렇게 해가지고 아이템이 얻을 하나밖에 없네요.
어 링 크 링크를 뽑으려는
링크를 뽑주면 되겠죠.. 예
a 온으로 이렇게 수정을 하고 그 다음에 링크
요렇게 추출을 할 수가 있습니다.
이런 xml 형식으로 돼 있는
어 어떤 데이터를 엑셀로 가지고 온 다음에 그런 식으로 먹을 수가
있습니다.
그리고 rss 는 기상청 rss 가 있는게 아니구요.
뭐 신문사 들도 rss 가 되게 많습니다.
뭐 매일 정제 알에스에스 해볼까요.
그럼 여기 뭐 신문사는 rss 가 기본적으로 대부분이 있습니다.
그래서 알에스에스 벨 경제 클릭을 하면 은
여기 뭐 헤드라인이 있고 전체 뉴스 있고 경제 정치 사회 면 국제 면 4
이런식으로 rss 주소가 공개가 되어 있는데요.
어때 헤드라인 이걸 한번 열어볼까요. 카페 해가지고 읽다가 이렇게
열어보겠습니다.
어 그럼 이렇게
xml 이 쭉 나오네요.
여기는 그 신문기사가 보니까 아이템이 되게 여러가지가 있습니다.
어 그러니 값을 한번 좀 엑셀에서 뽑볼까요.
음 시트 1 초가 해가지고
여기 있는 암소를 이렇게 복사를 해서
먼저 여기 이 암소 부터 보 거야 되겠네요. 웹 서비스
복사해서 이렇게 쉬트 깔
투 에다가 부천 없길래 보겠습니다. 그럼 여기 똑같이 주소가
기상청 주소로 되어 있으니까 기상청 깨워 줘
여기를 중역이 어
매일경제 인가요 예 매일 경대
주소로 개체를 해보겠습니다. 이렇게
앞뒤에 따옴표 가 있어야 됩니다. 주소 앞 돼요 그 다음 엔터
근데 이게 너무 길어 가지고 애가
얘는 받오지를 못하네요.
기상청 정도 이렇게 짧은 거 밖에는 받올 수가 없습니다.
그래서 좀더 긴걸 하려면 뒤에 나오는 방법들을 이용해서 수집을 해야
되는데요.
내용이 길지 않은 경우에는 이렇게 엑셀에서
간단하게 rss 링크 를 불러와서 회사 필요한 내용들을
엑셀로 뽑아낼 수가 있습니다.
이번 시간은 여기서 마치겠습니다. 수고하셨습니다.

댓글 0개

등록된 댓글이 없습니다.

본 사이트의 컨텐츠는 명시적으로 공유기능을 제공하고 있는 공개된 자료를 수집하여 게시하고 있습니다.

저작권, 강의등록, 광고, 제휴등은 "관리자에게 문의"로 메세지 주시면 확인후 답변드립니다.

Menu