OCR per librat shqip qe permbaje karaktere jo latine

Duke i shfletu arkivat digjitale te Biblotekes kombetare shqiptare gjeta nje liber te naim frasherit per trupat dhe fenomenet astronomike ishte i botuar ne vitin 1895 ne Bukuresht mu duke shume interesant deshta me provu me procesu me OCR pasi ia heka watermark-in mirepo me nxoren probleme disa karaktere qe ishin perdor te rumunishtes edhe ishin ne cirilisht edhe skish support per to tpakten jo ne software-in Tesseract-ocr te google,dhe ni zgjidhje ishte me provu me train me ni set te charaktereve,deshta me dite a keni ndonje pervoje ne OCR dhe a keni ndonje sygjerim

Linqet:

Libri: http://www.bksh.al/gsdl/collect/libra1/index/assoc/HASH019b.dir/doc.pdf

Tesseract:https://github.com/tesseract-ocr/tesseract

Trained tesseract langs (tessdata) te gatshme per gjuhe te ndryshme:https://github.com/tesseract-ocr/tessdata

pdftoppm (poppler-utils package)- per me convert pdf ne png me kualitet te lart

Gimp per watermark removal

Duhet te bejme dicka per livrat qe kane watermark te institucioneve ndetkohe qe jane piblic domain…

Liber shume i vecante po duket.

Fatkeqsisht ligji per te drejtat e autorit ne Shqiperi lejon fitimin e te drejtave per nje periudhe 25 vjecare (lexo vjedhjen nga domeni publik) per personin qe e nxerr ate nga arkivat Neni 42 http://www.wipo.int/wipolex/en/text.jsp?file_id=410069

Tung,

A ka mundesi me me unsubscribe prej kesaj liste sepse vet e kam provu disa here online dhe nuk funksionon.

Me te mira,

Liber shume i vecante po duket.

Fatkeqsisht ligji per te drejtat e autorit ne Shqiperi lejon fitimin e
te drejtave per nje periudhe 25 vjecare (lexo vjedhjen nga domeni
publik) per personin qe e nxerr ate nga arkivat Neni 42
http://www.wipo.int/wipolex/en/text.jsp?file_id=410069

Vepra në fjalë nuk kualifikohet si vepër e pabotuar më parë, pasi është
botuar një herë (për herë të parë - po t’i besojmë fjalëve të autores së
kësaj rrjedhe - më 1895 në Bukuresht). Dhe klauzola në ligj e shpreh qartë:

1. Përfiton një mbrojtje të njëjtë lidhur me të drejtat pasurore,
sikurse autori i veprës, çdo person, i cili, pas përfundimit të
mbrojtjes së të drejtave pasurore të autorit:

      a) publikon për herë të parë në mënyrë të ligjshme ose e vendos po
në mënyrë të ligjshme në dispozicion të publikut një vepër të pabotuar
më parë;

se mund të kihen pretendime për 25 vjet mbi një vepër që nuk është
botuar më parë.

Të fala,
Besnik

Posht ne linqe jane disa samples qe tregojne se watermark removal eshte i mundshem qe se bashku edhe me image enhancement japin nje rezultat te knaqshem duke pas parasysh qe mungojne disa karaktere.

Genti a mundesh me provide sample data per me trajnu tesseract permes projektit te book scannerit.(edhe nese kishe mujt me provu me setup-in tond me bo ocr at file ne link posht)

http://imgur.com/a/tP0gR

[OCR]http://pastebin.com/vJK51tb5