新浦京81707con > 软件下载 > Xpath语法简介,爬虫基础

原标题:Xpath语法简介,爬虫基础

浏览次数:111 时间:2019-11-28

XPath是什么?

  • XPath 的全称为 XML Path Language
  • XPath使用路线情势的格式来标记XML格式文书档案中的节点
  • XPath是XSLT规范中驷不及舌的一片段
  • XPath 是W3C推荐的四个正经

浅显的说: XPath正是大器晚成种在HTML中搜寻节点的语法.

xpath使用路径表明式在xml和html中实行导航

<div class="grandparent"> <div class="parent"> <div class="child"> <span class="subchild"></span> </div> </div> <div class="surrogateParent1"></div> <div class="surrogateParent2"></div> </div>

譬喻三个简约的事例:

xpath节点关系:

父节点、子节点、同胞节点、先辈节点、后代节点

 

<div class="cooking">
  Everyday Italian
</div>

Xpath语法:

表达式        |        说明 

article         |        选用全体aricle成分全体子节点

/article      |         选拔根成分article

article / a     |        选拔全体归属article子成分的a成分
// div            |        选拔全体归于子成分的div成分(无论现身在文书档案任何地方卡塔 尔(英语:State of Qatar)

article // div  |        选拔全数归于article成分后代的div成分,不管它出今后article之下的别的职分

//@class      |        选择所有名称叫class的属性

/article/div[1]     |       选用归属article子成分的首先个div

/article/div[last()]     |       选用归属article子成分的最终叁个div成分

/article/div[last()-1]  |       选拔归属article子成分的尾数第叁个div成分    

//div[@lang]       |        接收全体具备lang属性的div成分

//div[@lang = 'eng']       |        选拔全数lang属性为eng的div成分

/div/*      |        选择div成分的全体子节点

//*          |        接受所有因素

//div[@*]      |        选择全体带属性的div成分

//div/a/ | //div/p      |        选拔全体div成分的a和p成分

//span  |  //ul     |        选用全数的span和ul成分

article/div/p |  //ul      |        选择全体归于article成分子成分div的子成分p以至独具的span成分

//span[contains(@class,'vote-post-up')]     |   选择全数的class中包涵vote-post-up的span子成分

  • 父节点

收获此中的span成分,能够因此Xpath /div/span 来完成

// 选择一个元素的父节点 // 返回 [ div.child ] $( "span.subchild" ).parent(); // 选择匹配选择器元素的所有父节点 // 返回 [ div.parent ] $( "span.subchild" ).parents( "div.parent" ); // 返回 [ div.child, div.parent, div.grandparent ] $( "span.subchild" ).parents(); // 选择元素所有父节点,但是不包含指定选择器的元素 // 返回 [ div.child, div.parent ] $( "span.subchild" ).parentsUntil( "div.grandparent" ); // 选择最近的父节点,需要注意的是仅仅会有一个父节点被选择,搜索的内容还包含了选择器本身 // 返回 [ div.child ] $( "span.subchild" ).closest( "div" ); // 返回 [ div.child ] 选择器本身也包含在内 $( "div.child" ).closest( "div" );

XPath在爬虫框架CasperJS和Selenium中山大学量的施用,但在Google出的时髦爬虫框架Puppeteer中央银行使的是JQuery的Selector, 后续会独自写意气风发篇小说介绍。

本文由新浦京81707con发布于软件下载,转载请注明出处:Xpath语法简介,爬虫基础

关键词: 新浦京81707con Devs 已发布 python大法攻略 Python学习

上一篇:移动端Web页面适配浅析,iOS一套代码适配所有i

下一篇:没有了