更新時(shí)間:2022-12-02 10:48:28 來源:動(dòng)力節(jié)點(diǎn) 瀏覽3528次
Tess4J簡(jiǎn)介
Tesseract-OCR支持中文識(shí)別,并且開源和提供全套的訓(xùn)練工具,是快速低成本開發(fā)的首選。而Tess4J則是Tesseract在Java PC上的應(yīng)用。在英文和數(shù)字識(shí)別中性能還是不錯(cuò)的,但是在中文識(shí)別中,無論速度還是識(shí)別率還是較弱,建議有條件的話,針對(duì)場(chǎng)景進(jìn)行訓(xùn)練,會(huì)獲得較好結(jié)果。
Tess4J的使用
1.Maven導(dǎo)入依賴
<dependencies>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>5.2.1</version>
</dependency>
</dependencies>
2.添加Tessdata語言庫
網(wǎng)址:mirrors / tesseract-ocr / tessdata · GitCode
下載下面這個(gè)字庫文件:
【注意】路徑中不得有中文
3.準(zhǔn)備圖片資源
【注意】路徑中不得有中文
4.編寫代碼
package cn.zcj;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import java.io.File;
public class tess4jDemo {
public static void main(String[] args) {
//圖片路徑
String path = "D:\\IDEA\\img\\1.png";
//語言位置
String languagePath = "D:\\IDEA\\tess4j";
File file = new File(path);
Tesseract instance = new Tesseract();
//設(shè)置訓(xùn)練庫位置
instance.setDatapath(languagePath);
//chi_sim:簡(jiǎn)體中文,eng根據(jù)需求選擇語言庫
instance.setLanguage("chi_sim");
String result = null;
try{
result = instance.doOCR(file);
}catch (TesseractException e){
e.printStackTrace();
}
System.out.println("圖片中的文字為:"+result);
}
}
輸出結(jié)果為:
相關(guān)閱讀
0基礎(chǔ) 0學(xué)費(fèi) 15天面授
有基礎(chǔ) 直達(dá)就業(yè)
業(yè)余時(shí)間 高薪轉(zhuǎn)行
工作1~3年,加薪神器
工作3~5年,晉升架構(gòu)
提交申請(qǐng)后,顧問老師會(huì)電話與您溝通安排學(xué)習(xí)