超值優質虛擬主機
Nutch抓取中文頁面亂碼問題 - 文武人尹

Nutch抓取中文頁面亂碼問題

抓取某些頁面出現亂碼 => 編碼問題

解決方法:設定nutch-default.xml內parser.character.encoding.default為big5(for中文)

若還是無法解決! 則必須去修改org.apache.nutch.parse.html.HtmlParser內的defaultCharEncoding

文章來自: 本站原創
引用通告: 查看所有引用 | 我要引用此文章
Tags: Nutch
評論: 0 | 引用: 0 | 查看次數: 138
發表評論
暱 稱:
密 碼: 遊客發言不需要密碼.
內 容:
驗證碼: 驗證碼
選 項:
雖然發表評論不用註冊,但是為了保護您的發言權,建議您註冊帳號.
字數限制 1000 字 | UBB代碼 開啟 | [img]標籤 關閉