Seconde édition de latelier
"Des Sources Ouvertes au Web de Données" - SOS-DLWD2013

Lundi 1 juillet 2013 à Lille

En association avec IC2013


Présentation de latelier

Cet atelier a pour objectif de réunir les travaux traitant d'une part, des problématiques liées aux sources ouvertes hétérogènes et indépendantes, et d'autre part, des problématiques concernant les liens sémantiques pouvant exister entre les données structurées afin de faciliter leur exploitation et leur intégration via le Web de données. Il s'agira de la fusion de la quatrième édition de l'atelier SOS (Sources Ouvertes et Services, précédemment en association avec RFIA'2010, EGC'2011 et EGC'2012) et de la seconde édition de l'atelier DLWD (Données Liées pour un Web de Données, précédemment en association avec EGC'2012). Cette nouvelle édition fait suite à l'atelier SOS-DLWD'2012, organisé dans le cadre de la conférence EGC 2012.

Cet atelier s'organisera en deux sessions complémentaires :

  • Session 1 : Sources Ouvertes et Services (SOS)
  • Session 2 : Données Liées pour un Web de Données (DLWD)

SOS-DLWD a pour but de rassembler des chercheurs issus des mondes académique et industriel afin d'obtenir un panel représentatif des acteurs confrontés à la diversité des probl èmes liés aux thèmes présentés ci-dessous. Nous décrivons par la suite les problématiques abordées par les deux sessions de cet atelier.


Session 1 : Sources Ouvertes et Services

Cette session propose de poursuivre une réflexion commune autour des diverses problématiques liées au traitement de données disponibles en sources ouvertes (SO).

Les SO désignent l'ensemble des médias accessibles librement, de façon gratuite ou payante, tels qu'Internet, les bases de données publiques, les journaux, les CD-ROM, les chaînes de télévision et de radio, etc., par opposition aux sources fermées dont la consultation nécessite de disposer d'autorisations spécifiques. Ces SO fournissent d'importants volumes de données multimédia hétérogènes (image, texte, audio, vidéo, etc.) qui nécessitent des traitements adaptés en vue de leur exploitation. Cet atelier est dédié à toutes ces étapes, partant de la phase de découverte des sources d'information, en passant par la collecte et l'analyse des données collectées jusqu'à la phase de capitalisation et d'exploitation des connaissances.

Un intérêt particulier sera porté aux choix architecturaux retenus pour la réalisation d'applications exploitant les SO. En effet, ces applications tentent généralement de faire cohabiter plusieurs briques logicielles (COTS, logiciels open source, développements ad-hoc, etc.) en vue de la réalisation d'une tâche particulière. Cela représente un défi scientifique et technique auquel les recherches sur l'enchaînement des traitements algorithmiques capables d'exploiter ces données peuvent contribuer. L'accent sera mis sur les architectures orientées services (SOA) et sur l'utilisation des technologies du Web Sémantique.


Session 2 : Données Liées pour un Web de Données

Dans cette seconde session, nous aborderons les problématiques liées à la publication des données structurées et à leur exploitation via le Web de données. Depuis les cinq dernières années, le nombre de sources de données structurées rendues disponibles sur le Web est en croissance fulgurante aboutissant à un espace global de données de l'ordre de milliards d'assertions (31 milliards 1 en septembre 2011). Dans cet espace de données, des liens sémantiques peuvent être établis entre les documents mais aussi entre les données. Ces liens permettent aux robots d'exploration, aux navigateurs ou aux applications de naviguer parmi les sources de données et de combiner les informations provenant de sources différentes. Pourtant, dans un environnement ouvert comme le Web, des URIs différentes sont créées régulièrement pour identifier le même objet. Les liens entre URIs peuvent être configurés manuellement mais, les données étant nombreuses, certaines approches s'intéressent à la génération automatique de liens entre sources de données RDF.

De plus, même si des vocabulaires reconnus existent, permettant de représenter les données sur le Web (FOAF, DublinCore, ...), ces vocabulaires évoluent et sont souvent insufisants pour certains domaines d'application qui développent leur propre schéma (ou ontologie). Se pose alors le problème de l'intégration de données liées malgré l'hétérogénéité des vocabulaires utilisés. Ces données liées (ou les liens) peuvent être imprécises, périmées, fausses ou soumises à des restrictions d'usage et certaines approches s'intéressent à la provenance des données ou à leur qualité. Enfin, différentes architectures peuvent être décènies qui dépendent largement du domaine d'application concerné. Dans ce domaine, plusieurs initiatives sont menées au niveau national (comme les projets ANR DataLift et Qualinca) et au niveau international (comme les projets LOD et Planet Data ) afin d'amorcer et de regrouper les efforts pour résoudre les problèmes engendrés par la masse de données liées disponibles.


Pour cette nouvelle édition, l'atelier SOS-DLWD souhaite s'intéresser également au traitement des grandes masses de données (Big data). L'explosion récente des données disponibles sur le Web a fait émerger de nouvelles problématiques visant à adapter et optimiser toute la chaîne de traitement de l'information face aux nouveaux volumes à traiter.


Thèmes de latelier

Les auteurs sont invités à envoyer des propositions ayant une portée théorique, méthodologique ou pratique, sur lun des thèmes suivants (liste non exhaustive) :

  • Identification, et découverte automatique de sources dinformation,
  • Accès et collecte dinformation à partir de sources ouvertes (Web, réseaux sociaux, flux RSS, etc.),
  • Classification, filtrage des informations dintérêt,
  • Extraction dinformation à partir de textes non structurés et/ou utilisant des vocabulaires spécifiques (blogs, langage sms, forums, etc.), à partir de gros volumes de données multimédia (texte, image, vidéo, audio),
  • Analyse des sentiments/opinions dans les médias sociaux (réseaux sociaux, blogs, forums, etc.),
  • Modélisation et capitalisation des connaissances extraites à partir de sources ouvertes (ontologies, annotations sémantiques, etc.),
  • Exploitation des connaissances extraites à partir de sources ouvertes : raisonnement, aide à la décision, visualisation, etc.,
  • Détection de signaux faibles,
  • Evaluation et qualification des sources dinformation et des informations extraites à partir de sources ouvertes,
  • Applications et plateformes de veille à partir de sources ouvertes (stratégique, économique, renseignement, etc.), de traitement de l'information orientées "Big data", dintégration de services de traitement hétérogènes, etc.,
  • Provenance et confiance des données et de leurs liens
  • Evaluation et qualification des informations extraites à partir de sources ouvertes
  • Inférence, fouille et validation de liens entre données
  • Intéropérabilité des sources de données et alignement d'ontologies
  • Génération et publication des données
  • Interrogation du contenu du LOD
  • Développement de services pour les données liées
  • Privacy/contrôle d'accès aux données liées