• 技术文章 >后端开发 >C#.Net教程

    C#如何使用正则表达式抓取网站信息的代码案例

    黄舟黄舟2017-03-27 11:47:32原创892
    这篇文章主要介绍了C#使用正则表达式抓取网站信息,结合实例形式分析了C#针对网页信息的正则抓取操作相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下

    本文实例讲述了C#使用正则表达式抓取网站信息的方法。分享给大家供大家参考,具体如下:

    这里以抓取京东商城商品详情为例。

    1、创建JdRobber.cs程序类

    public class JdRobber
    {
      /// <summary>
      /// 判断是否京东链接
      /// </summary>
      /// <param name="param"></param>
      /// <returns></returns>
      public bool ValidationUrl(string url)
      {
        bool result = false;
        if (!String.IsNullOrEmpty(url))
        {
          Regex regex = new Regex(@"^http://item.jd.com/\d+.html$");
          Match match = regex.Match(url);
          if (match.Success)
          {
            result = true;
          }
        }
        return result;
      }
      /// <summary>
      /// 抓取京东信息
      /// </summary>
      /// <param name="param"></param>
      /// <returns></returns>
      public void GetInfo(string url)
      {
        if (ValidationUrl(url))
        {
          string htmlStr = WebHandler.GetHtmlStr(url, "Default");
          if (!String.IsNullOrEmpty(htmlStr))
          {
            string pattern = "";     //正则表达式
            string sourceWebID = "";   //商品关键ID
            string title = "";      //标题
            decimal price = 0;      //价格
            string picName = "";     //图片
            //提取商品关键ID
            pattern = @"http://item.jd.com/(?<Object>\d+).html";
            sourceWebID = WebHandler.GetRegexText(url, pattern);
            //提取标题
            pattern = @"<p.*id=\""name\"".*>[\s\S]*<h1>(?<Object>.*?)</h1>";
            title = WebHandler.GetRegexText(htmlStr, pattern);
            //提取图片
            int begin = htmlStr.IndexOf("<p id=\"spec-n1\"");
            int end = htmlStr.IndexOf("</p>", begin + 1);
            if (begin > 0 && end > 0)
            {
              string subPicHtml = htmlStr.Substring(begin, end - begin);
              pattern = @"<img.*src=\""(?<Object>.*?)\"".*/>";
              picName = WebHandler.GetRegexText(subPicHtml, pattern);
            }
            //提取价格
            if (sourceWebID != "")
            {
              string priceUrl = @"http://p.3.cn/prices/get?skuid=J_" + sourceWebID + "&type=1";
              string priceJson = WebHandler.GetHtmlStr(priceUrl, "Default");
              pattern = @"\""p\"":\""(?<Object>\d+(\.\d{1,2})?)\""";
              price = WebHandler.GetValidPrice(WebHandler.GetRegexText(priceJson, pattern));
            }
            Console.WriteLine("商品名称:{0}", title);
            Console.WriteLine("图片:{0}", picName);
            Console.WriteLine("价格:{0}", price);
          }
        }
      }
    }

    2、创建WebHandler.cs公共方法类

    /// <summary>
    /// 公共方法类
    /// </summary>
    public class WebHandler
    {
      /// <summary>
      /// 获取网页的HTML码
      /// </summary>
      /// <param name="url">链接地址</param>
      /// <param name="encoding">编码类型</param>
      /// <returns></returns>
      public static string GetHtmlStr(string url, string encoding)
      {
        string htmlStr = "";
        try
        {
          if (!String.IsNullOrEmpty(url))
          {
            WebRequest request = WebRequest.Create(url); //实例化WebRequest对象
            WebResponse response = request.GetResponse(); //创建WebResponse对象
            Stream datastream = response.GetResponseStream(); //创建流对象
            Encoding ec = Encoding.Default;
            if (encoding == "UTF8")
            {
              ec = Encoding.UTF8;
            }
            else if (encoding == "Default")
            {
              ec = Encoding.Default;
            }
            StreamReader reader = new StreamReader(datastream, ec);
            htmlStr = reader.ReadToEnd(); //读取数据
            reader.Close();
            datastream.Close();
            response.Close();
          }
        }
        catch { }
        return htmlStr;
      }
      /// <summary>
      /// 获取正则表达式中的关键字
      /// </summary>
      /// <param name="input">文本</param>
      /// <param name="pattern">表达式</param>
      /// <returns></returns>
      public static string GetRegexText(string input, string pattern)
      {
        string result = "";
        if (!String.IsNullOrEmpty(input) && !String.IsNullOrEmpty(pattern))
        {
          Regex regex = new Regex(pattern, RegexOptions.IgnoreCase);
          Match match = regex.Match(input);
          if (match.Success)
          {
            result = match.Groups["Object"].Value;
          }
        }
        return result;
      }
      /// <summary>
      /// 返回有效价格
      /// </summary>
      /// <param name="strPrice"></param>
      /// <returns></returns>
      public static decimal GetValidPrice(string strPrice)
      {
        decimal price = 0;
        try
        {
          if (!String.IsNullOrEmpty(strPrice))
          {
            Regex regex = new Regex(@"^\d+(\.\d{1,2})?$", RegexOptions.IgnoreCase);
            Match match = regex.Match(strPrice);
            if (match.Success)
            {
              price = decimal.Parse(strPrice);
            }
          }
        }
        catch { }
        return price;
      }
    }

    php入门到就业线上直播课:查看学习

    以上就是C#如何使用正则表达式抓取网站信息的代码案例的详细内容,更多请关注php中文网其它相关文章!

    声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn核实处理。

    前端(VUE)零基础到就业课程:点击学习

    清晰的学习路线+老师随时辅导答疑

    自己动手写 PHP MVC 框架:点击学习

    快速了解MVC架构、了解框架底层运行原理

    上一篇:详解C#常用正则验证函数的示例代码 下一篇:自己动手写 PHP MVC 框架(40节精讲/巨细/新人进阶必看)

    相关文章推荐

    • ❤️‍🔥共22门课程,总价3725元,会员免费学• ❤️‍🔥接口自动化测试不想写代码?• c语言中源文件编译后生成什么文件• c语言标识符有哪些类型• C#中GDI+编程10个基本技巧二• ASP.NET使用Ajax如何返回Json对象的方法具体介绍• 应用绝对路径与相对路径
    1/1

    PHP中文网