创建维基百科离线阅读器

互联网  /  houtizong 发布于 3年前   86
维基百科无需介绍:它是世界上最好的百科全书之一,而且对所有人免费。每一个人都可以联网查阅,但并非所有人都可以随时接触网络,很多人都希望能把维基百科存放在笔记本上以便查询所需资料。到目前为止,安装一份维基百科本地拷贝绝对是对人忍耐力的挑战:需要在电脑上安装LAMP或WAMP(Linux/Windows,Apache,MySQL,php),以及漫长的文档转换过程(将维基百科文档数据输入到MySQL数据库中),这里的“漫长”用更精确的数据说明的话——Pentium4 3GHz的电脑花了36个小时。一位希腊的程序员希望能寻找出一个快速的安装方法,和自由的搜索方式(不仅仅是搜索标题)。他成功的使用了开源工具将整个转换时间缩短到一天内。以下是他的做法:1.下载维基百科档案——一个庞大的XML文件——到2007年8月为止容量是2.9GB。速度80KB/秒花费时间10个小时(作者还将其刻录成光盘);
2.分解大文件,使用SAX parser,代码略;
3.用bzip2recover工具将2.9G的大文件分成数万个小文件:时间20分钟;
4.建立搜索索引,使用工具Xapian,根据CPU的性能花费时间有所不同,Pentium4 3GHz花了5个小时;
5.让本地维基百科像正常的HTML那样使用,建立一个迷你服务器。
作者将所有程序打包,你可以根据安装说明一步步来建立自己的维基百科离线阅读程序。下载

请勿发布不友善或者负能量的内容。与人为善,比聪明更重要!

留言需要登陆哦

技术博客集 - 网站简介:
前后端技术:
后端基于Hyperf2.1框架开发,前端使用Bootstrap可视化布局系统生成

网站主要作用:
1.编程技术分享及讨论交流,内置聊天系统;
2.测试交流框架问题,比如:Hyperf、Laravel、TP、beego;
3.本站数据是基于大数据采集等爬虫技术为基础助力分享知识,如有侵权请发邮件到站长邮箱,站长会尽快处理;
4.站长邮箱:[email protected];

      订阅博客周刊 去订阅

文章归档

文章标签

友情链接

Auther ·HouTiZong
侯体宗的博客
© 2020 zongscan.com
版权所有ICP证 : 粤ICP备20027696号
PHP交流群 也可以扫右边的二维码
侯体宗的博客