如何利用OCR文字识别各种图文

这篇文章主要讲解了“如何利用OCR文字识别各种图文”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何利用OCR文字识别各种图文”吧!

【先上一张效果图】:

如何利用OCR文字识别各种图文

一、原理:

其实原理很简单:

1.手机投屏到电脑;

2.截取投屏画面的题目部分,进行识别,得到题目和三个答案;

3.将答案按照一定的算法,进行搜索,得出推荐答案;

4.添加了一些其他辅助功能,比如:浏览器搜索结果展示、关键字高亮、浏览器可点击等; 

二、二营长,把我的意大利……………代码,呈上来,给友军看看

1.手机投屏:

    方式很多,这里只列举几个比较常用、且自己感觉简单易用的:

    A.IOS:局域网内,可以利用iTools里的苹果录屏大师(airplay),进行投屏;

    B.安卓:利用连接线,可以用Totall Control,将安卓手机的画面投到电脑上;而且电脑上还能直接操作手机;

    C.模拟器:一般都是安卓模拟器;可以自行下载并安装;

2.截取画面中的题目和答案

    A.先设置要截图的区域。

    我创建了一个窗体,专门用于设置截图区域,给它取名叫:frmCutter。

    原理:在主窗体打开frmCutter时,就将frmCutter全拼显示。同时截取一张整个屏幕的图片,把它设置成frmCutter窗体的背景图片。

这样就能在frmCutter上自由地设置了。

    主窗体打开frmCutter窗体时:

// 新建一个和屏幕大小相同的图片

Bitmap catchBmp = new Bitmap(Screen.AllScreens[0].Bounds.Width, Screen.AllScreens[0].Bounds.Height);

// 创建一个画板,让我们可以在画板上画图

// 这个画板也就是和屏幕大小一样大的图片

// 我们可以通过Graphics这个类在这个空白图片上画图

Graphics g = Graphics.FromImage(catchBmp);

// 把屏幕图片拷贝到我们创建的空白图片 catchBmp中

g.CopyFromScreen(new Point(0, 0), new Point(0, 0), new Size(Screen.AllScreens[0].Bounds.Width, Screen.AllScreens[0].Bounds.Height));

// 创建截图窗体

frmCutter _frmCutter = new frmCutter();

_frmCutter.Tag = this;

// 指示窗体的背景图片为屏幕图片

_frmCutter.BackgroundImage = catchBmp;

_frmCutter.Width = Screen.AllScreens[0].Bounds.Width;

_frmCutter.Height = Screen.AllScreens[0].Bounds.Height;

DialogResult dr = _frmCutter.ShowDialog();

  然后再frmCutter窗体中,写入几个事件:

//点击鼠标右键时,取消设置

private void frmCutter_MouseClick(object sender, MouseEventArgs e)

{

    if (e.Button == MouseButtons.Right)

    {

        this.DialogResult = DialogResult.OK;

        this.Close();

    }

}

//点击鼠标左键时,开始画区域图

private void frmCutter_MouseDown(object sender, MouseEventArgs e)

{

    // 鼠标左键按下是开始画图,也就是截图

    if (e.Button == MouseButtons.Left)

    {

        // 如果捕捉没有开始

        if (!_catchStart && !_catchFinished)

        {

            _catchStart = true;

            // 保存此时鼠标按下坐标

            Point newPoint = new Point(e.X, e.Y);

            _downPoint = newPoint;

            Tools.StartPoint = newPoint;

        }

    }

}

//鼠标移动时,根据移动的鼠标和点击时的第一个点,绘制矩形

private void frmCutter_MouseMove(object sender, MouseEventArgs e)

{

    #region 确保截图开始

    if (_catchStart && !_catchFinished)

    {

        // 新建一个图片对象,让它与屏幕图片相同

        Bitmap copyBmp = (Bitmap)Tools.ScreenShots.Clone();

        // 获取鼠标按下的坐标

        Point newPoint = new Point(_downPoint.X, _downPoint.Y);

        // 新建画板和画笔

        Graphics g = Graphics.FromImage(copyBmp);

        Pen p = new Pen(Color.Red, 1);

        // 获取矩形的长宽

        int width = Math.Abs(e.X – _downPoint.X);

        int height = Math.Abs(e.Y – _downPoint.Y);

        if (e.X < _downPoint.X)

        {

            newPoint.X = e.X;

        }

        if (e.Y < _downPoint.Y)

        {

            newPoint.Y = e.Y;

        }

        _catchRectangle = new Rectangle(newPoint, new Size(width, height));

        Tools.CatchRectangle = new Rectangle(newPoint, new Size(width, height));

        Tools.CatchRectangleSize = new Size(width, height);

        // 将矩形画在画板上

        g.DrawRectangle(p, _catchRectangle);

        // 释放目前的画板

        g.Dispose();

        p.Dispose();

        // 从当前窗体创建新的画板

        Graphics g1 = this.CreateGraphics();

        // 将刚才所画的图片画到截图窗体上

        // 为什么不直接在当前窗体画图呢?

        // 如果自己解决将矩形画在窗体上,会造成图片抖动并且有无数个矩形

        // 这样实现也属于二次缓冲技术

        g1.DrawImage(copyBmp, new Point(0, 0));

        g1.Dispose();

        // 释放拷贝图片,防止内存被大量消耗

        copyBmp.Dispose();

    }

    #endregion

}

//鼠标点击后,弹起来时,完成矩形的绘制

private void frmCutter_MouseUp(object sender, MouseEventArgs e)

{

    if (e.Button == MouseButtons.Left)

    {

        // 如果截图已经开始,鼠标左键弹起设置截图完成

        if (_catchStart)

        {

            Tools.EndPoint = new Point(e.X, e.Y);

            _catchStart = false;

            _catchFinished = true;

        }

    }

}

//双击,确定当前选择的设置

private void frmCutter_MouseDoubleClick(object sender, MouseEventArgs e)

{

    if (e.Button == MouseButtons.Left && _catchFinished)

    {

        if (this.Tag != null)

        {

            frmMain _frmMain = (frmMain)this.Tag;

            if (_frmMain != null)

            {

                //_frmMain.btnRead.Focus();

                _frmMain.ReadImageResult();

            }

        }

        this.DialogResult = DialogResult.OK;

        this.Close();

    }

}

 B.设置好截图区域后,每次题目出现时,变对该区域截图:

//截取设置的区域屏幕图片

Bitmap _screenShots = new Bitmap(Screen.AllScreens[0].Bounds.Width, Screen.AllScreens[0].Bounds.Height);

// 创建一个画板,让我们可以在画板上画图

// 这个画板也就是和屏幕大小一样大的图片

// 我们可以通过Graphics这个类在这个空白图片上画图

Graphics g_screenShots = Graphics.FromImage(_screenShots);

// 把屏幕图片拷贝到我们创建的空白图片 CatchBmp中

g_screenShots.CopyFromScreen(new Point(0, 0), new Point(0, 0), new Size(Screen.AllScreens[0].Bounds.Width, 

  Screen.AllScreens[0].Bounds.Height));

//剪切的图片

_catchBmp = new Bitmap(Tools.CatchRectangleSize.Width, Tools.CatchRectangleSize.Height);

Graphics g = Graphics.FromImage(_catchBmp);

g.DrawImage(_screenShots, new Rectangle(0, 0, Tools.CatchRectangleSize.Width, Tools.CatchRectangleSize.Height), 

  Tools.CatchRectangle, GraphicsUnit.Pixel);

g.Dispose();

g_screenShots.Dispose();

//显示图像

this.imgCut.BackgroundImage = (Image)_catchBmp;

C.将截到的问题和答案图片,用OCR识别

    比如,我现在设置并截取到了这张图片:

    如何利用OCR文字识别各种图文

    识别图片中的文字,OCR软件和API也不少。以前我用的谷歌tesseract4.0,安装在本机的,没做词库,识别率一般。后来发现百度OCR每天免费调用500次,果断转场!事实证明,正确率还是高很多。

    D.得到识别结果,将识别结果处理后,进行百度搜索:

    创建了一个试题实体,后面用起来就方便了:

/// <summary>

/// 试题类

/// </summary>

public class QuestionModel

{

    /// <summary>

    /// 问题

    /// </summary>

    public string Question { get; set; }

    /// <summary>

    /// 答案1

    /// </summary>

    public string Answer1 { get; set; }

    /// <summary>

    /// 答案2

    /// </summary>

    public string Answer2 { get; set; }

    /// <summary>

    /// 答案3

    /// </summary>

    public string Answer3 { get; set; }

}

  E.百度搜索,并显示参考答案:

    a).算法搜索:

    1.用题目去百度搜索。在搜索的结果中,查询答案出现的次数。

    2.用题目+答案去搜索。得到每个组合的百度结果个数。

    然后将上述两种方法,根据权重权衡,用户可以自行决定偏向于哪种结果。

    b).辅助搜索:

    右边还放了一个浏览器,可以在得到识别结果的第一时间,呈现出根据题目搜索百度的结果;并且在里面高亮显示3个答案关键字。

三、坐等吃鸡!

    自动截图、自动识别、自动搜索、自动给出参考答案、自动展现出搜索页面并高亮显示关键字……

    多了一系列的辅助功能,想不吃鸡都难啊~

如何利用OCR文字识别各种图文

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注