C#网络爬虫 WebUtility使用 转义字符 urlCode

背景:
在C#写网络爬虫时候,有时候需要将html中的转义字符进行处理,还有网址中的中文处理

一、html转义字符处理

1.ASP.NET中的html解析
HttpUtility.HtmlDecode()方法
位于:system.web
 
2.网络爬虫转换回来:

WebUtility.HtmlDecode 方法 (String)

将已经为 HTTP 传输进行过 HTML 编码的字符串转换为已解码的字符串。

命名空间:   System.Net
程序集:  System(System.dll 中)
 
 自写代码转换参考

二、网址中文处理

     中文转化GBK编码

      System.Web.HttpUtility.UrlEncode(“中国”,Encoding.GetEncoding(“GBK”))

   GBK编码转中文:

           System.Web.HttpUtility.UrlDecode(“中国”, System.Text.Encoding.GetEncoding(“GB2312”))

本人有偿定制程序开发(能力范文内,如C#爬虫开发),欢迎联系,QQ207708848

 参考API网址:
https://msdn.microsoft.com/zh-cn/library/1e55w41w(VS.80).aspx

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注