新浦京81707con > 注册购买 > js制作简单爬虫教程,利用cheerio制作简单的网页

原标题:js制作简单爬虫教程,利用cheerio制作简单的网页

浏览次数:123 时间:2019-08-07

正文介绍了Node.js 利用cheerio制作简便的网页爬虫示例,分享给我们,具备如下:

序言:这段日子想学学node.js,乍然在网络看到基于node的爬虫制作教程,所以容易学习了一下,把那篇小说共享给同样初学node.js的相爱的人。

Node.js 利用cheerio制作简便的网页爬虫示例,node.jscheerio

正文介绍了Node.js 利用cheerio制作简便的网页爬虫示例,分享给我们,具备如下:

  1. 目标

  2. 完了对网址的标题音讯获得

  3. 将赢获得的新闻输出在三个新文件
  4. 工具: cheerio,使用npm下载npm install cheerio
  5. cheerio的API使用方法和jQuery的利用办法基本一致
  6. 倘使熟谙运用jQuery,那么cheerio将会快速上手

  7. 代码部分

介绍: 获取segment fault页面包车型大巴列表标题,将获得到的题目列表编号,最终输出到pageTitle.txt文件里

const https = require('https');
const fs = require('fs');
const cheerio = require('cheerio');
const url = 'https://segmentfault.com/';

https.get(url, (res) => {
  let html = '';
  res.on('data', (data) => {
    html  = data;
  });
  res.on('end', () => {
    getPageTitle(html);
  });
}).on('error', () => {
  console.log('获取网页信息错误');
});

function getPageTitle(html) {
  const $ = cheerio.load(html);
  let chapters = $('.news__item-title');
  let data = [];
  let index = 0;
  let fileName = 'pageTitle.txt';
  for (let i = 0; i < chapters.length; i  ) {
    let chapterTitle = $(chapters[i]).find('a').text().trim();
    index  ;
    data.push(`n${index}, ${chapterTitle}`);
  }
  fs.writeFile(fileName, data, 'utf8', (err) => {
    if (err) {
      console.log('fs文件系统创建新文件失败', err);
    }
    console.log(`已成功将获取到的标题放入新文件${fileName}文件中`)
  })
}

如上正是本文的全体内容,希望对大家的就学抱有帮助,也愿意大家多多支持帮客之家。

利用cheerio制作轻便的网页爬虫示例,node.jscheerio 本文介绍了Node.js 利用cheerio制作简便的网页爬虫示例,分享给我们,具备如下: 1....

  1. 目标

  2. 做到对网址的标题音讯获取

  3. 将获得到的音信输出在八个新文件
  4. 工具: cheerio,使用npm下载npm install cheerio
  5. cheerio的API使用格局和jQuery的利用方法基本一致
  6. 一经熟识应用jQuery,那么cheerio将会快速上手

  7. 代码部分

目标:爬取 网址的具备门店发型师的中坚新闻。

介绍: 获取segment fault页面包车型地铁列表题目,将得到到的题目列表编号,最终输出到pageTitle.txt文件里

思路:访谈上述网址,通过chrome浏览器的network对网页内容剖判,找到获取各种门店发型师的接口,对参数及重回数据开始展览辨析,遍历全数门店的具有发型师,直到遍历达成,同事将信息囤积到本地。

const https = require('https');
const fs = require('fs');
const cheerio = require('cheerio');
const url = 'https://segmentfault.com/';

https.get(url, (res) => {
  let html = '';
  res.on('data', (data) => {
    html  = data;
  });
  res.on('end', () => {
    getPageTitle(html);
  });
}).on('error', () => {
  console.log('获取网页信息错误');
});

function getPageTitle(html) {
  const $ = cheerio.load(html);
  let chapters = $('.news__item-title');
  let data = [];
  let index = 0;
  let fileName = 'pageTitle.txt';
  for (let i = 0; i < chapters.length; i  ) {
    let chapterTitle = $(chapters[i]).find('a').text().trim();
    index  ;
    data.push(`n${index}, ${chapterTitle}`);
  }
  fs.writeFile(fileName, data, 'utf8', (err) => {
    if (err) {
      console.log('fs文件系统创建新文件失败', err);
    }
    console.log(`已成功将获取到的标题放入新文件${fileName}文件中`)
  })
}

步骤一:安装node.js

上述就是本文的全部内容,希望对大家的上学抱有扶助,也指望大家多多帮助脚本之家。

下载并设置node,此步骤相比较轻巧就不详细表明了,格外的能够直接问一下度娘。

您或许感兴趣的篇章:

  • 浅谈Node.js爬虫之网页央求模块
  • 使用 Node.js 开垦情报爬虫流程
  • Node.js jade mongodb mongoose实现爬虫分离入库与调换静态文件的措施
  • 依靠node.js制作轻巧爬虫教程
  • 动用node.js写一个爬取今日头条妹纸图的小爬虫
  • node.js爬虫爬取拉勾网职位音讯
  • 从零上学node.js之简易的网络爬虫(四)
  • Node.js 完毕轻易随笔爬虫实例
  • node.js完结博客小爬虫的实例代码
  • Node.js爬取豆瓣数据实例深入分析

步骤二:创立工程

1)张开dos命令条,cd步向想要创制项指标门道(作者将此项目向来放在了E盘,以下都是此路线为例);

2)mkdir node (创造一个文本夹用来贮存在项目,小编这里取名叫node);

3)cd 步向名称叫node的文件夹,并实践npm init起头化学工业程(时期会让填写部分音信,笔者是直接回车的);

步骤三:创办爬取到的多少贮存的文本夹

1)创造data文件夹用来寄存发型师基本新闻;

2)创建image文件夹用来积攒发型师头像图片;

  此时工程下文件如下: 

本文由新浦京81707con发布于注册购买,转载请注明出处:js制作简单爬虫教程,利用cheerio制作简单的网页

关键词: 新浦京81707con

上一篇:图形渐变和图像形变换,HTML5边玩边学

下一篇:没有了