Duke i shfletu arkivat digjitale te Biblotekes kombetare shqiptare gjeta nje liber te naim frasherit per trupat dhe fenomenet astronomike ishte i botuar ne vitin 1895 ne Bukuresht mu duke shume interesant deshta me provu me procesu me OCR pasi ia heka watermark-in mirepo me nxoren probleme disa karaktere qe ishin perdor te rumunishtes edhe ishin ne cirilisht edhe skish support per to tpakten jo ne software-in Tesseract-ocr te google,dhe ni zgjidhje ishte me provu me train me ni set te charaktereve,deshta me dite a keni ndonje pervoje ne OCR dhe a keni ndonje sygjerim
Linqet:
Libri: http://www.bksh.al/gsdl/collect/libra1/index/assoc/HASH019b.dir/doc.pdf
Tesseract:https://github.com/tesseract-ocr/tesseract
Trained tesseract langs (tessdata) te gatshme per gjuhe te ndryshme:https://github.com/tesseract-ocr/tessdata
pdftoppm (poppler-utils package)- per me convert pdf ne png me kualitet te lart
Gimp per watermark removal