零基础建站培训介绍

当前位置:

WordPress自动采集插件WP-AutoPost 设置详细教程

WP-AutoPost是目前特别好用的WordPress自动采集发布插件,最大的特点是可以采集来自于任意网站的内容并自动发布到你的WordPress站点。

不像其他大部分WordPress采集插件,只能根据Feed进行采集,使用Feed采集有很大的弊端,首先必须找到全文Feed,而现在网上全文Feed很少,大部分只能采集到文章摘要,就算使用Feed采集到文章摘要也需要点击链接才能查看原文,相当于给别的网站做外链。

做英文垃圾站用的比较多的WP-Robot也只有20几个采集来源,文章来源比较单一有限。

而WP-AutoPost就没有上面这些劣势,真正做到可以采集任意网站的内容并自动发布,采集过程都自动进行无需人工干预,并提供内容过滤、HTML标签过滤、关键词替换、自动链接、自动标签、自动下载远程图片到本地服务器、自动添加文章前缀后缀、并且可以使用微软翻译引擎将采集的文章自动翻译为各种语言进行发布。

WP-AutoPost中文免费下载地址:https://www.xuewangzhan.net/cj/11379.html (官网地址:http://wp-autopost.org/zh)

一、安装WP-AutoPost

和安装其他WordPress插件一样,直接上传到插件目录,激活即可使用,无需再进行额外设置或修改代码。

二、创建采集任务

点击“新建任务”后,输入任务名称,即可创建新任务,创建好新任务之后可以在任务列表中查看到该任务,就可对该任务进行更多设置。

WordPress自动采集发布插件

三、基本设置功能

WordPress自动采集发布插件

在基本设置选项卡下,可以进行如下设置:

  • 任务名称:可以修改任务名称
  • 分类目录:该任务采集文章发布到的分类目录
  • 作者:该任务采集文章的发布作者,必须是WordPress里的注册用户
  • 更新时间间隔:间隔多长时间检测一次该采集任务下是否有新文章可以更新
  • 字符集:采集目标网站的字符集编码,默认为UTF8,如果目标网页字符集编码不是UTF8,抓取的网页会出现乱码,设置正确的字符集即可解决该问题(如何正确设置字符集)
  • 下载远程图片:如果该任务下采集的文章里包含图片,可以选择是否下载远程图片到本地服务器,选择下载远程图片,可进一步选择是否将下载的图片信息保存到WordPress媒体库中
  • 自动标签:选择是否使用自动标签
  • 标签列表:使用自动标签后如果文章包含列表里的关键词,将自动添加标签
  • 匹配完整的单词:该设置对英文文章有效,中文文章请勿启用该设置

四、文章来源设置

在该选项卡下我们需要设置文章来源的 文章列表网址及 具体文章的匹配规则

我们以采集“新浪互联网新闻”为例,文章列表网址为http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 因此在 手工指定文章列表网址 中输入该网址即可,如下所示:

WordPress自动采集发布插件

之后需要设置该文章列表网址下具体文章网址的匹配规则

五、文章网址匹配规则

文章网址匹配规则的设置最简单,无需复杂设置,提供两种匹配模式,可以使用URL通配符匹配,也可以使用CSS选择器进行匹配,通常使用URL通配符匹配较为简单。

1. 使用URL通配符匹配

通过点击列表网址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 上的文章,我们可以发现每篇文章的URL都为如下结构

http://tech.sina.com.cn/i/2013-06-27/16328485884.shtml

因此将URL中变化的数字或字母替换为通配符 (*) 即可,如:http://tech.sina.com.cn/i/(*)/(*).shtml

WordPress自动采集发布插件

2. 使用CSS选择器进行匹配

使用CSS选择器进行匹配,我们只需要设置 文章网址的CSS选择器 即可(不知道CSS选择器为何物,一分钟学会如何设置CSS选择器),通过查看列表网址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 的源代码即可轻松设置,找到该列表网址下具体文章的超链接的代码,如下所示:

WordPress自动采集发布插件

可以看到,文章的超链接a标签在class为“contList”的标签内部,因此 文章网址的CSS选择器 只需要设置为.contList a  即可,如下所示:

WordPress自动采集发布插件

设置完成之后,不知道设置是否正确,可以点击上图中的测试按钮,如果设置正确,将列出该列表网址下所有文章名称和对应的网页地址,如下所示:

WordPress自动采集发布插件

六、文章抓取设置

在该选项卡下,我们需要设置文章标题和文章内容的匹配规则,提供两种方式进行设置,推荐使用CSS选择器方式,使用该方式更为简单,精确。(不知道CSS选择器为何物,一分钟学会如何设置CSS选择器)

我们只需要设置文章标题CSS选择器文章内容CSS选择器,即可准确抓取文章标题和文章内容。

在文章来源设置里,我们以采集”新浪互联网新闻“为例,这里还是以该例子讲解,通过查看列表网址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 下某一篇文章的源代码即可轻松设置,例如,我们通过查看某篇具体文章 http://tech.sina.com.cn/n/i/2013-06-10/06308430630.shtml 的源代码,如下所示:

WordPress自动采集发布插件

可以看到,文章标题在id为“artibodyTitle”的标签内部,因此文章标题CSS选择器只需要设置为#artibodyTitle 即可;

同样的,找到文章内容的相关代码:

WordPress自动采集发布插件

可以看到,文章内容在id为“artibody”的标签内部,因此文章内容CSS选择器只需要设置为 #artibody 即可;如下所示:

WordPress自动采集发布插件

设置完成之后,不知道设置是否正确,可点击测试按钮,输入测试地址,如果设置正确,将显示出文章标题和文章内容,方便检查设置

WordPress自动采集发布插件

七、抓取文章分页内容

如果文章内容过长,有多个分页同样可以抓取全部内容,这时需要设置文章分页链接CSS选择器,通过查看具体文章网址源代码,找到分页链接的地方,例如某篇文章分页链接代码如下:

WordPress自动采集发布插件

可以看到,分页链接A标签在class为 “page-link” 的标签内部

因此,文章分页链接CSS选择器设置为 .page-link a 即可,如下所示:

WordPress自动采集发布插件

如果勾选当发表时也分页时,发表文章也将同样被分页,如果你的WordPress主题不支持 <!- – nextpage – -> 标签,请勿勾选。

八、文章内容过滤功能

文章内容过滤功能,可过滤掉正文中不希望发布的内容(如广告代码,版权信息等),可设置两个关键词,删除掉两个关键词之间的内容,关键词2可以为空,表示删除掉关键词1之后的所有内容。

如下所示,我们通过测试抓取文章后发现文章里有不希望发布的内容,切换到HTML显示,找到该内容的HTML代码,分别设置两个关键词即可过滤掉该内容。

WordPress自动采集发布插件

如上所示,如果我们希望过滤掉上面

之间的内容,添加如下设置即可

WordPress自动采集发布插件

如果需要过滤掉多处内容,可以添加多组设置。

九、HTML标签过滤功能

HTML标签过滤功能,可过滤掉采集文章中的超链接(例如a标签)。

上一课: 下一课:

发表评论

邮箱地址不会被公开。 必填项已用*标注

相关教程

  • 大家都知道如果黑客入侵我们的网站后,他们是可以肆意的在上面搭载钓鱼页面,传播恶意软件,盗取敏感信息等,这特别不利于我们网站。垃圾内容和黑
  • 什么是百度MIP百度MIP (Baidu Mobile Instant Pages - 百度移动网页加速器), 是一套应用于移动网页的开放性技术标准。通过提供MIP-HTML规范、MIP-
  • 如果你的空间不理想或是需要升级服务器,这个时候很可能需要进行网站数据搬家,而数据搬家本身是一件很简单的事情。并且学建站网页专门有这样的课程教
  • 1、CSS3设置文字一个阴影在CSS3中使用text-shadow属性来给文字添加阴影效果[cce_html]h1{text-shadow: 5px 5px 5px #FF0000;}[/c
  • 在我们日常的编码中经常会遇到这段文字不可以换行,或者自动换行的需求。虽然这个功能在我们平时很常见但是我相信大家一定不会可以的去记住它吧。
  • WP-AutoPost是目前特别好用的WordPress自动采集发布插件,最大的特点是可以采集来自于任意网站的内容并自动发布到你的WordPress站点。不像其他大
  • TAB Js选项卡 第一种:声明式方法原理:TAB选项卡有二部分组成:按钮、内容第一步:做出选项卡按钮<ul class="nav n
  • 对于网站前端开发工程师来说,在前端设计中,经常会使用到jQuery特效,对于一些常用的jQuery特效,我们可以制作成插件使用。下面是网站前端设计常用的
  • 通常所说的META标签,是在HTML网页源代码中一个重要的html标签。META标签用来描述一个HTML网页文档的属性,例如作者、日期和时间、网页描述、关键词、
  • wp_head()是wordpress的一个特别重要的函数,基本上所有的主题在header.php这个文件里都会使用到这个函数。而且很多插件为了在header上加点东西也
  • 在自己做网站时,为了显示效果,我们需要对某些区块设置圆角边框,这时,我们需要用到CSS的border-radius属性,通过border-radius属性就可以轻松设置
  • 问题:在HTML中元素分为块状元素和行内元素,块状元素的外边距和内边距我们分别使用margin\padding属性来设置,那么行内元素可以设置margin\paddi
  • 帝国cms网站在本地做好了,或者网站想跟换服务器空间 ,网站该怎么完美的迁移?下面就分享下帝国CMS网站网站搬家迁移教程。 登录帝国后台:登陆后
  • WP常用的调用标签:获取网站名字:[cce_php]<?php bloginfo('name'); ?>[/cce_php]获取首页路径:[cce_php]<?php echo get_option('home
  • Z-Blog 网站搬家教程 图文教程 (16254 次浏览)
    Z-Blog For PHP (以下简称zblog)的迁移相对还是比较简单的,需要修改的也就两个地方,一个是zblog本地的配置文件,另一个则是数据库中的配置文件。
  • 一、安装前准备工作运行环境: 确认您的空间(虚拟主机)支持“PHP和MySQL数据库”或服务器已经成功安装“PHP和MySQL数据库”。版本要求: PHP4.*以