Ticket #504 (closed defect: fixed)

Opened 2 years ago

Last modified 21 months ago

Verwerking van ocr data en zoeken

Reported by: peter Owned by: forgacs
Priority: major Milestone: MediaMosa 3.0
Component: Support for PDF issue Version:
Keywords: Cc:
MoSCoW: Must Have Estimated time after impact analysis:
Related to project: none Tested: no
Accepted: no Estimated Hours: 8

Description

(dutch text)

Binnen het Archipel project is de ocr-data reeds beschikbaar als xml
bestand, dat apart geupload kan worden. Binnen MediaMosa moet een
mogelijkheid komen om de ocr data in een apart verder niet zichtbaar
metadata veld op te nemen, waarop wel met solr gezocht kan worden.

Bestaande Metadata wordt in een 'longtext' opgeslagen, hetgeen dus
ruim voldoende is om dit soort metadata in op te slaan. We stellen
voor om de aanvullende metadata op te slaan in een extra metadata
definitie (/metadata_tag/create [POST]). Deze metadata-tags zijn mbv
SOLR doorzoekbaar. (Dit is bestaande functionaliteit in MediaMosa 2.3)

De /asset/id [GET] REST-calls geven echter dan wel deze data altijd
terug in (detail) restcalls. Hiertoe stellen we voor bij de
/metadata_tag restcall een parameter 'hidden' (default: false) te
introduceren, zowel bij de /metadata_tag varianten als bij de asset/id
[GET] restcalls.

Change History

Changed 2 years ago by peter

  • estimated_hours changed from 0 to 8

Changed 2 years ago by forgacs

  • owner set to forgacs
  • status changed from new to assigned

Changed 2 years ago by forgacs

  • status changed from assigned to closed
  • resolution set to fixed

A new column was introduced in the mediamosa_asset_metadata_property table: is_hidden. Default value is FALSE.
The metadata REST calls have new fields: is_hidden (default FALSE) for creating metadata, and view_hidden_metadata (default FALSE) for getting metadata.

Changed 2 years ago by Frans

Michiel,

Peter heeft mij gevraagd om je vragen op ticket #504 te beantwoorden
m.b.t. PDF upload en OCR data.

Denk dat ik beter in het kort kan uitleggen hoe we het in gedachten
hebben;

1. Upload PDF.
2. Analyse; In dit geval is dit een pdfinfo call ipv een ffmpeg call. In
elk geval wordt de technische metadata zoals nu gewoon gevuld.
3. Metadata uit de PDF wordt gemapt naar asset Metadata velden. Deze
mapping wordt in het beheer vast gelegd. Deze mapping wordt globaal vast
gelegd en geldt voor alle apps. Standaard zal dit uitstaan (geen
mapping).
4. De OCR data wordt apart door de EGA in een asset metadata veld
geplaatst, dit metadata veld is een eigen client app. metadata veld.
5. Het OCR metadata veld heeft een vlag op zijn property dat deze niet
wordt terug gegeven in de asset call. 
 Dit omdat;
  A. Mag alleen doorzoekbaar mag zijn.
  B. Het vaak te groot is om via de REST call /asset/id terug te geven.
6. Deze vlag is alleen mogelijk op client applicatie metadata.

Dus wat nieuw is voor de PDF upload is;
 1. mapping van de pdf metadata naar MediaMosa asset metadata (Globaal,
per app).
 2. Een nieuwe vlag op metadata property, waarbij een EGA zijn eigen
metadata per veld kan verbergen in de asset output.
 3. De /asset/id call krijgt nog een parameter 'show_hidden_metadata' om
toch de metadata terug te krijgen die verborgen is.


Hoop dat dit je vragen beantwoord.

Robert.

Changed 2 years ago by Frans

Robert,

Het is me nu helemaal helder.
Standaard wordt zo'n veld niet meegegeven in responses, maar op
specifieke aanvraag (als je het op de één of andere manier zou willen
tonen in een applicatie), kun je het met een rest-call wel uitlezen.

Prima, dank je wel!

Groeten, Michiel

Changed 22 months ago by Frans

  • component changed from Core to Support for PDF issue
  • milestone changed from Support for PDF to MediaMosa 3.0

Changed 21 months ago by forgacs

App_id = 1

POST: /metadata_tag/create
name=testmm30&type=char&is_hidden=TRUE

POST: /asset/M1gUAZcQDhDhmGx6JnjFPGUd/metadata
action=append&testmm30=this_is_a_test

GET: /asset/M1gUAZcQDhDhmGx6JnjFPGUd

GET: /asset/M1gUAZcQDhDhmGx6JnjFPGUd?view_hidden_metadata=TRUE

Note: See TracTickets for help on using tickets.