nutch-乱码解决-技术博客集

nutch-乱码解决
编程技术 / houtizong 发布于 3年前 89

在Nutch的搜索框中输入中文，点击“搜索”按钮之后，可以看到搜索框中的关键字是乱码，搜索结果也为空。网上有很多文章都谈到了这个现象，这不是Nutch的问题，而是Tomcat没有对uri做编码造成的。解决的办法也很简单，在Tomcat的安装目录下找到”conf/server.xml”文件，在"Connector port=”8080″ ”那一节添加URIEncoding="UTF-8" useBodyEncodingForURI="true"可以了。完整的配置可能是下面这个样子：

<Connector port="8080" protocol="HTTP/1.1"

connectionTimeout="20000"

redirectPort="8443"

URIEncoding="UTF-8"

useBodyEncodingForURI="true"/>

修改这个文件时要特别注意，把代码复制过去后，因为字符集的问题，可能要把空格和"重新输入，否则会造成tomcat无法启动

解决方法：修改cached.jsp

+++ cached.jsp.patched 2009-02-18 12:43:26.000000000 -0500
@@ -40,6 +40,7 @@
.getLocale().getLanguage();

Metadata metaData = bean.getParseData(details).getContentMeta();
+ Metadata parseMetaData = bean.getParseData(details).getParseMeta();

String content = null;
String contentType = (String) metaData.get(Metadata.CONTENT_TYPE);
@@ -49,7 +50,7 @@
// but I don't know how to emit 'byte sequence' in JSP.
// out.getOutputStream().write(bean.getContent(details)) may work,
// but I'm not sure.
- String encoding = (String) metaData.get("CharEncodingForConversion");
+ String encoding = (String) parseMetaData.get("CharEncodingForConversion");
if (encoding != null) {
try {
content = new String(bean.getContent(details), encoding);

上一篇：一劳永逸的数据库编码解决方案

下一篇：屏幕的双向缓冲

请勿发布不友善或者负能量的内容。与人为善，比聪明更重要！

在Nutch的搜索框中输入中文，点击“搜索”按钮之后，可以看到搜索框中的关键字是乱码，搜索结果也为空。网上有很多文章都谈到了这个现象，这不是Nutch的问题，而是Tomcat没有对uri做编码造成的。解决的办法也很简单，在Tomcat的安装目录下找到”conf/server.xml”文件，在&quot;Connector port=”8080″ ”那一节添加URIEncoding=&quot;UTF-8&quot; useBodyEncodingForURI=&quot;true&quot;可以了。完整的配置可能是下面这个样子： &lt;Connector port=&quot;8080&quot; protocol=&quot;HTTP/1.1&quot; connectionTimeout=&quot;20000&quot; redirectPort=&quot;8443&quot; URIEncoding=&quot;UTF-8&quot; useBodyEncodingForURI=&quot;true&quot;/&gt; 修改这个文件时要特别注意，把代码复制过去后，因为字符集的问题，可能要把空格和&quot;重新输入，否则会造成tomcat无法启动 解决方法： 修改cached.jsp <div> +++ cached.jsp.patched 2009-02-18 12:43:26.000000000 -0500 @@ -40,6 +40,7 @@ .getLocale().getLanguage(); Metadata metaData = bean.getParseData(details).getContentMeta(); + Metadata parseMetaData = bean.getParseData(details).getParseMeta(); String content = null; String contentType = (String) metaData.get(Metadata.CONTENT_TYPE); @@ -49,7 +50,7 @@ // but I don't know how to emit 'byte sequence' in JSP. // out.getOutputStream().write(bean.getContent(details)) may work, // but I'm not sure. - String encoding = (String) metaData.get(&quot;CharEncodingForConversion&quot;); + String encoding = (String) parseMetaData.get(&quot;CharEncodingForConversion&quot;); if (encoding != null) { try { content = new String(bean.getContent(details), encoding);</div>

留言需要登陆哦

技术博客集 - 网站简介：
前后端技术：
后端基于Hyperf2.1框架开发,前端使用Bootstrap可视化布局系统生成
网站主要作用：
1.编程技术分享及讨论交流，内置聊天系统;
2.测试交流框架问题，比如：Hyperf、Laravel、TP、beego;
3.本站数据是基于大数据采集等爬虫技术为基础助力分享知识，如有侵权请发邮件到站长邮箱，站长会尽快处理;
4.站长邮箱：[email protected];

文章归档

文章标签

友情链接

首页
关于我们

Auther ·HouTiZong: 侯体宗的博客