Kyeongrok Kim 웹데이터 수집의 기술02 xpath추출하기 > 데이터수집

데이터 수집

데이터수집-스크래핑, 크롤링, 파싱

Kyeongrok Kim | 웹데이터 수집의 기술02 xpath추출하기

본문

※ 영상을 선명하게 보기 안내
  1. 유튜브 영상에서 오른쪽하단에 톱니바퀴를 클릭합니다.
  2. 팝업목록에서 "품질" 선택하세요.
  3. 원하는 해상도를 선택해주세요.
※ 모바일에서 Wifi가 아니라면 데이타가 소진될 수 있으니 주의바랍니다.
Kyeongrok Kim님의 데이터수집강의 청각장애인을 위한 자막
15688760189035.jpg

 


안녕하세요. 웹 데이터 수집의 기술 책을 번역한
번역자 김경록 입니다. 이번 시간에는 이 다시 사장의 있는 x 패스 를
이용해 데이터 추출 하기 를 해보도록 하겠습니다.
어 일단 x 패스 로 xps 로 데이터를 추출 하기 전에 x 패스 5번지
부터 알봐야 되겠죠..
여기 음 책에서도 제가 설명을 해 드렸지만
html 아이라는 인터넷에서 보이는 어떤
앞에 이 지를 맛 제작하는
그런 양식이 있습니다. html 에서 특정 부분에서 데이터를 추출하기 위해
사용하는 그런 코드입니다.
일종의 어떤 2속 값이라고 할 수 있습니다. 2 소
주소값 두소
어드레스
이런 건데요.
어우 우리가 모이면 이메일 많이 사용하지만 요
음 카트 벽에서 어 나 이런거 받을 때 집 주소로 봤죠
서울시 목 1동 곡도 울시 강남구
경기도 소원 c
뭐 이런식으로 주소가 있죠. html
우리가 보는 웹 페이지도 이렇게
f 이런 페이지가 html 이라는
그런 형식으로 만들어져 있는데요. 이런 게 이 템 엘입니다. 여기
html 오르게 시작을 하죠. 그래서 우리 눈에는 요렇게
어떤 화면이 보이는데 음
화면은 이런 코드로 작성되어 있습니다.
이 중에서 특정 부분에서 데이터를 가지고 올 때 그 일종의 주소를 찾아야
됩니다.
그래서 그 주소에 해당하는 주소값 코드가 x 패스 가 되겠습니다.
그걸 찾는 법을 한번 간단하게 알아보도록 하겠습니다.
일단은 이 구글 크롬 해서 x 패스 추출하기
이렇게 써 놨는데 요 어이 구글 크롬 x 패스 를 수술을 하게 좀 편하게
되어있습니다.
그래서 구글 크롬 으로 하는 그런 이제 를 다뤄 보도록 하겠습니다.
일단 그 구글 크롬이 설치가 안되어 있으면 여기 들어가서 설치를 하셔야
됩니다.
지금 보이는 이 페이지 인데요.
구글의 들어가지고 구글 크롬 검색을 해도 됩니다. 구글 크롬
흐름은 요렇게 이 페이지의 들어와서 다운로드 받을수도 있구요.
주소를 직접 치셔도 됩니다.
여기 구글
점 co.kr 슬러쉬 크롬 chrome
네 여기 들어와서 어떻게 다운로드 퍼스널 컴퓨터
이렇게 누르셔도 됩니다. 똑같은 화면이 나옵니다.
그래서 여기 다운로드 크롬 에 를 누르시면 이렇게 설치하는 화면이
나오고요
다음 다음 다음 누르면 설치가 됩니다.
네 곡을 그러면 요렇게 설치를 하시면 됩니다.
저는 이미 설치돼 있기 때문에
따로 못올 체를 따로 다시 하지 않겠습니다.
구글 크롬을 설치를 하고요 그리고 어
책에는 알라딘의 있는 어떤 책에
음 제목을 제모 제목을
칼이 키고 있는 x 패스를 추출하는
어 그런 예제가 있으니까 알라딘 의 책 째 목을 한번 가지고 와
보도록 하겠습니다.
책제목 책 제 모습 s 깜짝 태 뭐
그걸 다 한마디는 들어 가야 되겠죠.. 구글에서 악마 된
알라딘 데이고
oon 라디 4
한낱 이는 검색을 해보겠습니다. 알라딘을 들어 컸었죠 좋게
어 책에는 팀 넌 잉 이라는 책인데요. 멈 검색을 해보겠습니다.
침 넌 인
뭐 여러가지 책이 있네요. 그 영문으로 검색하니까
잘 안나오는데 딥브라운 인
개 볼까요.
이건 요 밑바닥부터 시작하는 비밀 아님
책을 검색을 해보겠습니다.
그래서 이렇게 책에서는 밑바닥부터 시작하는 팀 러니 부분에 그럼 x 패스
를 추출하는
음 그런 예제로 태어 있습니다.
요거를 한번 추출해 보겠습니다.
마우스 오른 여기 우리가 추출하고 싶은 부분에 가서 없어 오른쪽 버튼
누른 다음에
검사 를 누릅니다.
그럼 이렇게 추출하는 창이 열립니다.
어 구글 크롬 처음 설치를 한다면 이렇게
오른쪽에 보일수도 있어요.
여기에서 이 점 점 점 을 눌러 가지고 위치를 조정할 수가 있습니다.
이렇게
검 하단에 나오죠. 전요 하단에 놓는 게 편하기 때문에 그 다음에도
들어가겠습니다.
그 다음에 요기 요 화살촉 못 했죠 이걸 클릭을 하신 다음에
여기에 내가 추출하고 싶은 부분을 이렇게 클릭을 합니다.
그럼 여기 이렇게 html 소스 코드 안쪽에
밑바닥부터 시작하는 짐 너님 그리고 그렇게 파란색으로
이렇게 어디인지 표시를 해 주죠
그래서 여기서 오른쪽 클 버튼 클릭을 하시고 카피 한 다음에
카피 x 팩스 요거를 카피를 해보겠습니다.
카피
메모장을 열어 가지고 이렇게 붙여넣기 하시면 됩니다.
이렇게 하시면 x 패스 를 추출을 하실수가 있습니다.
한번 다른것들 까요. 여기 책 가격을 한 번 해볼까요. 게 판매 까
판매 까 가 21,600원 이네요. 여기에서 다 심
컨트롤 쉬프트 c 를 눌러도 됩니다. 네오 있으니까요. 화살표를 누르면
파란색으로 나오죠. 마우스를 딱 가 따와 되면은 이렇게
선택이 됩니다. 그래서 클릭을 딱 하면은
여기 이렇게 가격 쪽에 이렇게 선택이 되죠
마우스를 올려보면 아까 네가 선택하고 싶었던 부분을 강조해 줍니다.
그래서 또 마우스 오른쪽 버튼을 눌러 가지고
카피 카피 x 테스
이거 를 선택하시면 되요.
그것도 맨 부정이다 가 격 붙여넣기 하면
이렇게 이런게 x 패스입니다. 그래서 x 패스에 관한 내용은 뒤에
나오기 때문에
어 지금 이렇게 미리 한번 해보시고 뒤에 책을 보시면 좀더 예제를 따라
아기가 수월 하실 겁니다.
어 이번 강의는 여기서 마치겠습니다.

댓글 0개

등록된 댓글이 없습니다.

본 사이트의 컨텐츠는 명시적으로 공유기능을 제공하고 있는 공개된 자료를 수집하여 게시하고 있습니다.

저작권, 강의등록, 광고, 제휴등은 "관리자에게 문의"로 메세지 주시면 확인후 답변드립니다.

Menu