网页正文抽取演示-技术博客集

网页正文抽取演示
编程技术 / houtizong 发布于 3年前 93

演示地址如下：http://202.110.133.114/tsegment/webanalyer.aspx

属于早期作品，采用规则方法提出非正文内容，则认为留下的内容为正文。仅作简单技术演示之用，感谢TT同学提供的空间并帮我写的演示程序。

该功能已封装成.NET组件，可提供程序直接调用，近期提供下载。

可用于大家收集语料时候网页内容提取之用。

如对此组件有兴趣，请直接邮件至我MSN信箱，我正考虑采用新算法完善并编写多个语言版本，在这里先统计下人数
看看有没开发商业版本的必要,对于商业版本将采用块识别标记的方式只对一段标签或一个DOM节点进行标识,而不负责提取正文,由用户自行控制过滤或提取哪些类型数据.
目前能想到可能会用到的标识类型:导航条广告正文正文标题相关文章版权信息评论如大家还有其他想到的类型,请告之

无法处理导航页，提取正文时也不考虑图片类文章及文章中的配图。

该组件内部算法主要应用了规则模型抽取，所有规则基本使用正则表达式实现，具体正则可参考我的BLOG上《正文抽取正则》以及《聊聊网页正文抽取》内容。
http://www.likeshow.net/article.asp?id=60
http://www.likeshow.net/article.asp?id=55

组件下载:
http://www.likeshow.net/article.asp?id=91

上一篇：如何在PL/SQL Developer中设置使其可以显示查询返回的所有记录？

下一篇：聊聊网页正文提取

请勿发布不友善或者负能量的内容。与人为善，比聪明更重要！

留言需要登陆哦

技术博客集 - 网站简介：
前后端技术：
后端基于Hyperf2.1框架开发,前端使用Bootstrap可视化布局系统生成
网站主要作用：
1.编程技术分享及讨论交流，内置聊天系统;
2.测试交流框架问题，比如：Hyperf、Laravel、TP、beego;
3.本站数据是基于大数据采集等爬虫技术为基础助力分享知识，如有侵权请发邮件到站长邮箱，站长会尽快处理;
4.站长邮箱：[email protected];

文章归档

文章标签

友情链接

首页
关于我们

Auther ·HouTiZong: 侯体宗的博客