SOS-DLWD'12 :
des Sources Ouvertes au Web de Données


Collaboration des ateliers "Sources Ouvertes et Services" et "Données Liées pour un Web de Données"

31 Janvier 2011 à Bordeaux

En association avec EGC’2012


Présentation de l’atelier

Cet atelier a pour objectif de réunir les travaux traitant d'une part, des problématiques liées aux sources ouvertes hétérogènes et indépendantes, et d'autres part, des problématiques concernant les liens sémantiques pouvant exister entre les données structurées afin de faciliter leur exploitation et leur intégration via le Web de données. Il est ainsi le résultat de la fusion de la troisième édition de l'atelier SOS (Sources Ouvertes et Services, RFIA'2010 et EGC'2011) et la première édition de l'atelier DLWD (Données Liées pour un Web de Données).
Cet atelier s'organisera en deux sessions complémentaires :

  • Session 1 : Sources Ouvertes et Services (SOS)
  • Session 2 : Données Liées pour un Web de Données (DLWD)


Sources Ouvertes et Services

Cette session veut mettre en exergue les multiples problèmes liés au traitement de données disponibles en sources ouvertes (SO). Les SO désignent l'ensemble média accessibles librement, gratuits ou payants, tels qu'Internet, les bases de données publiques, les journaux, les CD-ROM, les chaînes de télévision et de radio, etc. par opposition aux sources fermées dont la consultation nécessite de disposer d'autorisations spécifiques. Ces SO fournissent d'importants volumes de données multimédia hétérogènes (images, texte, audio, vidéo, etc.) qui nécessitent des traitements adaptés afin de permettre leur exploitation.


En plus des problématiques posées par l'hétérogénéité des données disponibles, l'enchaînement des traitements algorithmiques capables d'exploiter ces données représente un défi scientifique et technique. L'intérêt sera donc porté sur toutes les étapes, partant de la phase de découverte des sources d'informations, en passant par la collecte et l'analyse des données collectées jusqu'à la phase de capitalisation et d'exploitation.


L'intérêt sera également porté sur les choix architecturaux retenus pour la réalisation d'applications exploitant les SO. En effet, ces applications tentent généralement de concilier plusieurs briques logicielles (COTS, logiciels open source, développements ad hoc, etc.) afin de les faire cohabiter en vue de la réalisation d'une tâche particulière. L'accent sera mis sur les architectures orientées service (SOA) et sur l'utilisation des technologies du Web sémantique.


Données Liées pour un Web de Données

Dans cette seconde session, nous aborderons les problématiques liées à la publication des données structurées et à leur exploitation via le Web de données.


Depuis les quatre dernières années, le nombre de sources de données structurées rendues disponibles sur le Web est en croissance fulgurante aboutissant à un espace global de données de l'ordre de milliards d'assertions (31 milliards en septembre 2011). Dans cet espace de données, des liens sémantiques peuvent être établis entre les données. Ces liens permettent aux robots d'exploration, aux navigateurs ou aux applications de naviguer parmi les sources de données et de combiner les informations provenant de sources différentes. Pourtant, dans un environnement ouvert comme le Web, des URIs différentes sont créées régulièrement pour identifier le même objet. Les liens entre URI peuvent être configurés manuellement mais, les données étant nombreuses, certaines approches s'intéressent à la génération automatique de liens entre sources de données RDF. De plus, même si des vocabulaires reconnus existent, permettant de représenter les données sur le Web (FOAF, DublinCore, ...), ces vocabulaires évoluent et sont souvent insuffisants pour certains domaines d'applications qui développent leur propre schéma (ou ontologie). Se pose alors le problème de l'intégration de données liées malgré l'hétérogénéité des vocabulaires utilisés. Ces données liées (ou les liens) peuvent être imprécises, périmées, fausses ou soumises à des restrictions d'usage et certaines approches s'intéressent à la provenance des données ou à leur qualité. Enfin, différentes architectures peuvent être définies qui dépendent largement du domaine d'application concerné. Dans ce domaine, plusieurs initiatives sont menées au niveau national (comme le projet DataLift (http://datalift.org)) et au niveau international (comme les projets LOD2 (http://lod2.eu) et Planet Data (http://planet-data.eu)) afin d'amorcer et de regrouper les efforts pour résoudre les problèmes engendrés par la masse de données liées disponibles.


Thèmes de l’atelier

Les auteurs sont invités à envoyer des propositions ayant une portée théorique, méthodologique ou pratique, sur l’un des thèmes suivants (liste non exhaustive) :

  • Identification, et découverte automatique de sources d'informations
  • Accès et collecte d'informations à partir de sources ouvertes (Web, réseaux sociaux, flux RSS, etc.)
  • Classification, filtrage d'informations d'intérêt, extraction d'informations à partir de textes non structurés et/ou utilisant des vocabulaires spécifiques (blogs, langage sms, forums, etc.)
  • Extraction d'informations à partir de gros volumes de données multi-médias (texte, image, vidéo, audio)
  • Modélisation et capitalisation des connaissances extraites à partir des sources ouvertes (ontologies, annotations sémantiques, etc.)
  • Exploitation des connaissances extraites à partir de sources ouvertes : raisonnement, aide à la décision, visualisation, etc.
  • Détection de signaux faibles
  • Données publiques et gouvernomentales
  • Evaluation et qualification des sources d'informations
  • Provenance et confiance des données et de leurs liens
  • Evaluation et qualification des informations extraites à partir de sources ouvertes
  • Inférence, fouille et validation de liens entre données.
  • Intéropérabilité des sources de données et alignement d'ontologies
  • Génération et publication des données
  • Interrogation du contenu du LOD
  • Développement de services pour les données liées
  • Privacy / contrôle d'accès aux données liées
  • Plateformes d'intégration de services de traitement hétérogènes : interopérabilité des services, orchestration sémantique, etc.
  • Applications de veille stratégique ou économique à partir de sources ouvertes
  • Application de renseignements d'origine sources ouvertes (ROSO)