光學字符識別(OCR)是從圖像中抽取文本的工具,可以應用於公安、電信、物流、金融等諸多行業,例如識別車牌,身份證掃描識別、名片信息提取等。在爬蟲開發中,如果遭遇了有文字驗證碼的表單,就可以利用OCR來進行驗證碼處理。Tesseract-OCR引擎最初是由惠普公司開發的光學字符識別系統,目前發佈在Github上,由Google贊助開發。
很多網站爲了分別出提供驗證碼的是人還是機器使用了更爲複雜的驗證碼,例如拼圖驗證碼、點觸驗證碼、九宮格驗證碼等。關於這方面的知識,在崔慶才同學的《Python 3網絡爬蟲開發實戰》有較爲詳細的講解,有興趣的可以購買閱讀。