Jimmy's Blog

学习一个


  • 首页

  • 归档

  • 标签

Typescript Spide 4: 单点速率控制——Promise链

发表于 2018-03-25 |
前言之前提到速率控制的方式太僵硬,相当于是把整个程序写成完全串行的形式。而比较理想的控制方式是remoteGet函数自身保证请求发送的间隔,调用者只需要静静地await就行了。 启发我偶然间看到了这篇文章:JavaScript Promise:简介,其中讲到了一个场景:并行地加载一部小说的各个章节, ...
阅读全文 »

Typescript Spider 3: 翻页

发表于 2018-03-25 |
前言之前实现了对首页所有新闻内容的爬取,现在希望实现翻页,爬取更多的新闻。 翻页机制分析cnbeta的翻页机制是:当滚动到底部时,自动加载下一页的内容,而页面不刷新。这说明翻页是通过ajax实现的。 为了找到请求翻页的url,我们先来抓个包: 这是一个GET请求,包含4个参数: type:类型, ...
阅读全文 »

Typescirpt Spider 2: RSS输出

发表于 2018-03-24 |
前言数据抓取完成后,一种不错的展示方式是生成一个RSS源(虽然RSS已经凉了)。 现在大概要干这么几件事: 使用express框架跑一个服务器 按照RSS的格式输出XML,这最好使用模版实现 之前爬的是文章简介,现在要爬全文 爬得多了需要控制速度 Express安装express是目前最流行的n ...
阅读全文 »

Typescript Spider 1:基础篇

发表于 2018-03-24 |
前言数据挖掘课的大作业快要发布了,在这之前不如先熟悉一下爬虫该怎么写,顺便也体验一下typescript. 根据“柿子得挑软的捏”原则,我就先拿cnBeta练练手(不用登录,不用设置user-agent)。 一个最简单的爬虫包括三个部分: 对给定的网址发送网络请求,并且获得回应 对于返回的页面(当 ...
阅读全文 »

OS Lab1 实验报告

发表于 2018-03-18 |
实验内容:https://ipads.se.sjtu.edu.cn/courses/os/labs/lab1.html 环境配置gcc降级需要注意的是这个lab只能使用gcc4.8及以下版本编译,否则运行会有问题。 gcc降级的最简单的方法是将/usr/bin目录下的gcc删去,并做一个到gcc-4 ...
阅读全文 »

base64翻译工具

发表于 2018-02-26 |
起因是这个问题:(已经被续了) 现在把回答补充一下贴在下面: 把有道划词翻译改成了base64翻译工具: 注释掉256-273行,并在下面插入:12var retContent = {basic: {explains: [decodeURIComponent(escape(ato ...
阅读全文 »

在Ubuntu 17.10 中使用网易云音乐

发表于 2018-02-04 |
网易云音乐 for Ubuntu 16.04 1.1.0版在Ubuntu 17.10上运行会有问题,表现是双击运行后GUI一直没有出现,但在进程列表中可以看到其进程并没有结束。这大概是因为运行过程中出了一些问题。因此,我尝试在终端中运行,希望能看到运行的输出,结果如下: 123$ netease-c ...
阅读全文 »

常见配置文件语言: INI, XML, JSON与YAML

发表于 2018-02-03 |
昨天搭建了Hexo博客,发现无论是Hexo本身,还是Next主题,配置文件使用的都是YAML语言。 为了更好地调教我的博客,也为了提高自己的知识水平,我决定学习一个YAML的基础语法,并和我之前遇到过的XML、JSON、INI等语言一起做个总结。 前言配置文件的主要作用是给程序提供运行时的参数。理想 ...
阅读全文 »

Hexo + github 搭建个人静态博客

发表于 2018-02-02 |
前言昨天帮xkz搭了一个WordPress博客以后,我觉得应该给自己也弄一个技术博客,向大牛们看齐。 个人博客框架中最著名的莫过于WordPress,而近年来Hexo也同样流行。我对这两个框架做了比较: 在写作方式上,Hexo为静态博客,需要在本地完成写作后部署至服务器,仅支持Markdown;而 ...
阅读全文 »
Jimmy

Jimmy

9 日志
12 标签
© 2018 Jimmy
由 Hexo 强力驱动
主题 - NexT.Pisces