[WebLab-User] Best way to store/retrieve metadata

Gérard Dupont ger.dupont at gmail.com
Mon Feb 13 17:46:43 CET 2012


Réponse partielle sur la partie que je maîtrise : le search (en retard de
celle de Jérémie mais plus complète)

Donc un indexeur type Solr sera particulièrement adapté pour des
"métadonnées" simples (type clé/valeur) sur lesquelles tu n'as pas de
raisonnement à faire car cela s'adapte très bien à la structure d'index en
champs. Il te permet de :
- faire des recherches (textes, numériques, plage de valeur...)
- avoir des stats sur les métadonnées d'un ensemble de résultats (les
facettes)
- d'être rapide et de passer largement la charge avec un délais faible de
latence (de mise à jour de l'index) car c'est fait pour cela

Principale inconvénient : c'est pas fait pour raisonner (quoiqu'une
conception poussée de l'index peut résoudre des cas de raisonnement
pré-cablés en indexant plusieurs métadonnées dans un champ spécifique) et
il faut tordre toute des statistiques sous la forme d'une requête.

Principale avantage : il y a un service WebLab solr ! Je te conseille la
dernière version taggée <2.x sur le modèle 1.2 pour commencer. Si vous avez
des soucis de montée en charge (quoique que le premier tiens son million de
doc sans soucis), passez ensuite à la dernière version 2.x qui permet
d'avoir un solr distant distribué.

bon courage.

gdupont

On 13 February 2012 17:36, Rémi Gauthier Assystem <
remi.gauthier.assystem at gmail.com> wrote:

> Hello!
>
> Je reviens vers vous avec une question (ayant une couverture assez grande
> je vous l'accorde).
>
> Ma question est la suivante :
> quel est, d'après vos expériences précédentes, le meilleur moyen de
> stocker les metadata extraites dans une chaîne pour ensuite pouvoir
> chercher, raisonner, faire des stats... sur ces métadonnées?
>
> On pensait ici soit à :
> - un triple store : storage aisé des triples, requêtes moins aisées (et
> moins performantes) en sparql
> - un indexeur type solr : besoin de structurer les données persistées,
> requètage puissant, performant mais complèxe
> - du nosql : soit un quad store, soit un document store avec des technos
> sympas mais non maîtrisées en interne
>
> Est-ce que vous avez des retours d’expérience à faire sur des
> expérimentations dans vos projets (ceux dont vous avez le droit de parler
> bien sur :))?
> Est-ce que vous avez, dans vos outils disponibles en open source, des
> choses qui se rapprochent de ces solutions (J'ai cru comprendre qu'il y
> avait un service d'indexation solr)?
>
> Rémi
>



-- 
Gérard Dupont
Information Processing Control and Cognition (IPCC)
CASSIDIAN - an EADS company

Document & Learning team - LITIS Laboratory
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://weblab-project.org/pipermail/user_weblab-project.org/attachments/20120213/68f58505/attachment.html>


More information about the User mailing list