1.

Bạn đang xem: Tesseract ocr là gì

Giới thiệu về TESSERACT OCR

OCR - Optical Character Recognition tạm thời dịch là nhấn dạng kí từ quang học, nôm mãng cầu hiểu thì đây là kỹ thuật góp thừa nhận dạng các cam kết từ bên trên một bức ảnh, về định nghĩa ví dụ hơn thế thì những bạn có thể xem bên trên wiki:https://en.wikipedia.org/wiki/Optical_character_recognitionTESSERACT OCR là một tlỗi viện open source dấn dạng chữ viết được phát triển vị google, nó hỗ trợ không hề ít nển tảng Mac,Windows,iOS,Android...Bài viết tiếp sau đây vẫn trả lời phần đa tín đồ bí quyết intergrade tesseract vào vào app android studio project. Bây Giờ thì vào game android sdk sẽ cung cấp api nhấn dạng văn bản viết, mặc dù số lượng ngữ điệu được cung ứng rất ít, đa phần là những ngôn từ có xuất phát latinh, ví dụ như Anh, Pháp,Ý... Vậy đối với các ngữ điệu nhỏng tiếng Việt, tiếng Nhật, tiếng Trung thì sao. Câu vấn đáp là TESSERACT OCR sẽ giúp đỡ chúng ta tiến hành điều ấy.tesseract-android-tools là repo bằng lòng của thử viện này, mặc dù nhằm áp dụng được nó, thì bọn họ nên từ bỏ build lại thư viện qua hàng loạt command, nói thông thường là phức tạp.Tgiỏi vào kia ta hoàn toàn có thể áp dụng một repo khác rmtheis/tess-two, repo này fork tự tesseract-android-tools, mặc dù tác giả đã thêm một số phầm mềm vào đó, với việc intergrade vào android studio project cũng hoàn toàn đơn giản và dễ dàng.

Xem thêm: Cách Đổi Tên Fb Không Dùng Tên Thật Trên Facebook Đã Được Nới Lỏng

Vậy giờ bọn họ vẫn thao tác cùng với rmtheis/tess-two.

2. Sử dụng rmtheis/tess-two

Step 1. Tạo app android project, ví dụ là tesseractdemoStep 2: thêm dependency của < rmtheis/tess-two> vào file build.gradle trong thỏng mục appVào rmtheis/tess-two, copy đoạn mã sau compile "com.rmtheis:tess-two:6.3.0" hôm nay file build.gradle đã trong y hệt như sau:

*
Vào Build-> Make Project, trường hợp không có lỗi thì vấn đề intergrade thỏng viện vào project đang thành công xuất sắc.Step 3: Download trainned data - có thể phát âm là tập dữ liệu này đã được "học", từng ngôn ngữ bao gồm một dữ liệu tệp tin học riêng rẽ.Vào rmtheis/tess-two, tìm tới vị trí trained data file , đây là khu vực đựng tất cả những tập dữ liệu đã được học khớp ứng cùng với các ngữ điệu. Ví dụ giờ bạn có nhu cầu nhấn dạng cho tiếng việt,download tệp tin vie.traineddata .Step 4: Sử dụng api, chế tác một tệp tin OcrManager.java

dataPath: *.traineddata rất có thể được lưu giữ ngơi nghỉ internal hoặc external storage, tuy vậy *.traineddata buộc phải nằm trong vào một tlỗi mục chọn cái tên là tessdata , quý hiếm của dataPath đã đề nghị đường dẫn cho thỏng mục thân phụ của thỏng mục tessdata. Giả sử đường dẫn tuyệt đối mang lại tệp tin *.traineddata là x/y/z/t/tessdata/.traineddata, khi đó quý giá của đối số dataPath đã là x/y/z/t/.Trong đoạn code bên trên tệp tin vie.traineddata được giữ ởgetExternalFilesDir(null)+"/tessdata/"+"vie.traineddata"; khi ấy, quý hiếm buộc phải truyền vào mang đến hàm init() là getExternalFilesDir(null).languageCode: thương hiệu của file *.traineddata , ví dụ vie.traineddata thì languageCode vẫn là vie , jpn.traineddata thì languageCode đang là jpn.Vậy là sẽ nắm rõ đối số bắt buộc truyền vào mang lại hàm init() là gì, trong onCreate của MainActivity thêm đoạn code sau:

OcrManager manager = new OcrManager(); manager.initAPI();Build lên đồ vật thật, nếu như Việc khsinh hoạt sản xuất thành công xuất sắc thì sẽ sở hữu được đoạn log dưới

I/Tesseract(native): Initialized Tesseract API with language=vieTiếp theo nhằm dấn dạng chữ viết, ta chú ý mang lại hàm public String startRecognize(Bitmaps bitmap), trong hàm này ta vẫn điện thoại tư vấn setImage(bitmap) mang lại ảnh nào muốn dìm dạng, getUTF8Text(); đang trả về công dụng là các kí từ bỏ được nhận dạng,Toàn bộ quy trình trên được demo trong Clip phái dưới:

Bài viết liên quan

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *