MACE's life blog

Google Drive Spreadsheets : importxml 함수 본문

비즈니스&IT

Google Drive Spreadsheets : importxml 함수

mace-lifelog 2015. 4. 5. 18:42
반응형

구글 스프레드시트에서 가장 막강한 함수 중에 하나는 바로 importxml이다. 


IT관련 업무를 하다보면 각종 웹페이지에서 텍스트 등을 추출해서 분석해야 할 경우가 종종 생기는데,

이 함수는 이럴 때 마치 크롤러봇이 크롤링을 하듯, 매우 요긴하게 쓸 수 있다.


나는 주로 페이지의 Title을 뽑아 내거나, Xpath로 구조화된 특정 오브젝트의 내용을 뽑아내는데 활용한다. 


예를 들어, 어떤 사이트의 '첨부파일 목록'을 긁어와야 한다면, 아래와 같이 활용하면 매우 간편하다.


=importxml(A3,"//table[@class='table table-attachment']")

※A3셀에는 URL이 있음






다양한 활용예가 있겠으나, 실무적으로는 다음과 같을 때 이용하면 생산성이 대폭 향상된다. 

    • -Google Analytics 보고서 작성시, 특정 기준의 URL을 통하여 제목을 추출/분석
    • -벤치마킹 사이트의 주요 콘텐츠에 대한 목록이나 제목을 추출하여 분석
    • -데이터 이행/전환시 당초 계획된 항목과 전환 완료된 항목을 추출하여 분석(누락분 등을 비교 분석) 



IMPORTXML

XML, HTML, CSV, TSV, RSS 및 Atom XML 피드를 포함한 다양한 구조화된 데이터로부터 데이터를 가져옵니다.


사용 예

IMPORTXML("https://en.wikipedia.org/wiki/Moon_landing", "//a/@href")

IMPORTXML(A2,B2)


구문

IMPORTXML(url, xpath_쿼리)


URL - 검토할 페이지의 URL로, 프로토콜(예: http://)을 포함합니다.

url 값은 따옴표로 묶거나, 적절한 텍스트를 포함하는 셀에 대한 참조여야 합니다.

xpath_쿼리 - 구조화된 데이터에서 실행되는 XPath 쿼리입니다.

XPath에 대한 자세한 정보는 http://www.w3schools.com/xpath/를 참조하세요.


설명

한 스프레드시트에서 최대 50개의 IMPORTXML 함수를 호출할 수 있습니다. Google 스프레드시트 새 버전에서는 이 한도가 삭제되었습니다.


IMPORTRANGE: 지정된 스프레드시트에서 셀 범위를 가져옵니다.

IMPORTHTML: HTML 페이지에서 표 또는 목록에 있는 데이터를 가져옵니다.

IMPORTFEED: RSS 또는 Atom 피드를 가져옵니다.

IMPORTDATA: .csv(쉼표로 구분된 값) 또는 .tsv(탭으로 구분된 값) 형식으로 주어진 URL에서 데이터를 가져옵니다.



반응형

'비즈니스&IT' 카테고리의 다른 글

Micro-Moments  (0) 2016.01.17
OWASP Xenotix XSS Exploit Framework  (0) 2015.04.20
[NIA] 데이터베이스 구축 방법론 v4.0  (0) 2014.11.16
서울시 정보소통광장 백서  (0) 2014.11.11
웹 성능 최적화 점검툴  (0) 2014.11.09
Comments