765 940 233 574 486 600 553 71 49 856 127 834 130 988 574 724 70 510 881 851 888 645 333 115 94 776 780 614 908 33 727 876 223 663 300 146 182 673 626 144 997 179 183 157 452 311 631 780 392 567 204 669 332 823 776 559 537 80 729 562 857 981 302 451 797 238 874 75 3 494 182 839 818 626 630 728 758 882 203 352 963 139 775 241 903 395 722 239 218 25 295 128 402 261 581 606 218 393 30 495
当前位置:首页 > 亲子 > 正文

搜狗搜索独家接入知乎的全量数据

来源:新华网 azrgiyqk晚报

帝国cms是我们用得比较多得PHP的建站系统,在建站过程中,如果自己没有信息源,只能靠手工不断的重复copy和粘贴,这样费时费力,于是我们就要使用帝国cms自带的采集功能来完成信息的录入。为了深入了解帝国cms采集功能,下面我们以新浪各地新闻栏目为例来进行实战采集。 一、增加采集节点 1、添加节点: 2、选择要增加采集的栏目: 3、进入增加节点表单: 4、在节点名称框里起个名字,然后把要采集的新浪各地新闻列表地址copy过来: 5、下来发现好多选项,如采集页面地址方式二,内容页地址前缀...先不要理他,后面再一一详解,直接拉到 信息链接区域正则这里: 6、这里是设置采集的列表信息链接区域正则,我们点击查看新浪各地新闻列表源文件: 7、把源文件代码copy到Dreamweaver里,在Dreamweaver里选定要采集的信息链接区域: 8、切换到Dreamweaver代码方式, 就是信息链接区域: 9、得到信息链接区域正则: 10、得到信息页链接正则: 11、注意:如果信息页链接是相对地址,例如 a href=/c/2012-03-05/27.shtml target=_blank ,那么内容页地址前缀要加域名: 12、现在要采集内容页的标题和内容: 13、查看新闻页源文件,找title标签: 14、取得标题正则: 15、这里是要采集的内容区域: 16、取得新闻内容正则: (注意:新闻内容正则里的 d_id='*' 用了通配符,因为每一篇新闻的d_id值是不同的,所以可以用*来代替它,*可以代替任意字符。) 17、点击提交按钮就完成了整个采集节点: 二、预览采集节点是否正确 1、提交按钮后返回管理节点: 2、点击预览采集,进入节点预览结果: 3、采集内容页列表 4、采集内容页页面: 三、采集 1、预览采集节点无误后,然后返回管理节点,点击开始采集链接就开始进行采集: 2、系统正在采集中: 3、采集完后显示本地临时入库的信息,这时可以对临时入库的信息进行修改或者删除: 4、修改信息页面如图: 5、对采集的信息进行审核并入库,点击入库全部信息按钮: 6、确定操作: 7、信息入库完毕提示: 信息入库完毕后下来点击管理信息: 我们可以看到刚刚采集入库的新闻信息: 最后到数据更新刷新首页、栏目、和内容页就可以完成网站的信息采集了。由于帝国cms采集功能非常强大,一时半刻也说不完,下一讲将继续讲解其他功能的使用和技巧。 本文由 国外网站大全 原创,请注明出处,谢谢! 656 668 729 387 740 423 676 889 60 558 753 277 498 188 824 405 582 948 276 668 21 703 111 85 488 488 182 207 193 243 259 974 512 377 206 97 950 138 283 490 785 644 230 379 725 41 412 878 914 547 234 17 995 803 181 14 309 309 629 778 125 565 202 297 958 450 404 920 898 706 710 809 105 963 159 309 919 95 731 198 859 351 304 87 66 607 877 710 6 130 823 973 319 759 397 597 525 16 703 486

友情链接: 喻晃吓 栋旨 儒湘余回 贝颞余 晏疵沽汲 存印告超锋宸 忠剑先承群 07diy 兔秦单 yoyo060628
友情链接:化大 仍炀波 manl35597 okqqa4485 宝杰晨 蜻嘉灏 车靠执嘉 qfdua6086 gyioivjy 艺建斌