Titre :Web Mining (W.M.) et Système Multi-Agents (S.M.A.)

Auteurs :


Jérémy Clech, ERIC – Université Lyon 2,

Bât. L, 5 av. Pierre Mendès-France

69676 Bron Cedex

Tel : (33)(0)4.78.77.31.55

jclech@eric.univ-lyon2.fr

http://eric.univ-lyon2.fr/~jclech

Salima Hassas, LISI – Université Lyon 1,

Nautibus, 43 Bd du 11 Nov 1918

69622 Villeurbanne Cedex

Tel : (33)(0)4.72.44.58.90

hassas@lisi.univ-lyon1.fr

http://www710.univ-lyon1.fr/~hassas


 

Résumé :

Le volume des sources de données double chaque année. La plupart de ces sources se trouvent au sein de réseaux comme les intranet, extranet ou encore, le réseau des réseaux, internet. De plus, près de 80% d'entre elles sont non structurées. A leur échelle, ces documents sont la première source d’informations de leurs groupes d’utilisateurs. Face à cette densité en ligne, il est de plus en plus difficile d’exploiter efficacement ces informations. En effet, l’abondance de ces ressources, leur perpétuelle évolution et l’aspect polymorphe de leur contenu (format, média, type d’utilisation) sont autant d’écueils qu’il faut contourner. La nécessité de disposer de méthodes et d’outils avancés permettant d’y remédier, a fait émerger de nouveaux domaines de recherches :

Ø   L’assistance à la recherche, à l’extraction d’informations et à sa gestion,

Ø   Le développement de nouveaux modèles et de nouvelles normes de représentation des données sur le web (XML, RDF, DAML,..) permettant de représenter les données semi‑structurées, et/ou d’associer une sémantique aux données du web et de leur traitement donnant ainsi naissance au domaine du web sémantique,

Ø   Le web mining, qui est l’application de techniques de data mining aux données du web permettant l’extraction d’informations pertinentes et de connaissances issues de la grande masse de données disponible sur le web,

Ø   L’utilisation de nouveaux paradigmes comme ceux des agents autonomes, des multiagents, des techniques d’apprentissage, ou encore des approches évolutionnistes.

 

Dans ce tutoriel, nous nous intéressons au domaine du Web Mining. Ce domaine de recherche soulève de réels problèmes, tant scientifiques que technologiques. La résolution de ces problèmes a non seulement des répercussions sur ces deux aspects (scientifique, technologique), mais ont également un très net impact socio-économique à cause de leur très large champ d’applications. Du point de vue scientifique, le web mining étend la problématique du data mining aux données dépourvues de toute structure, aux données semi-structurées, ainsi qu’aux données évolutives. A un niveau plus général, il pose la problématique de la complexité opératoire (computationnelle) et aussi systémique des outils à développer dans ce contexte. Cette complexité est très fortement liée à la masse importante des données du web, leur diversité, leur distribution, leur aspect dynamique et au caractère ouvert du web.

 

Nous commencerons par présenter le domaine du web mining, et le situer par rapport aux domaines de recherches évoqués ci-dessus. Nous poserons ensuite la problématique du web mining, en la déclinant en trois catégories : le web content mining, le web usage mining et le web structure mining. Pour chacune de ces catégories, nous présenterons la spécificité des données, des traitements et des techniques utilisées pour chacune des étapes du processus KDD général. Nous aborderons ensuite la complexité du web mining, du point de vue opératoire et systémique, et montrerons comment l’usage des agents autonomes et plus généralement du paradigme multiagents peut pallier cette complexité. Nous illustrerons chacune des parties présentées par des exemples d’applications et des systèmes existants. Nous terminerons le tutoriel par les pistes de recherches actuellement explorées et leurs perspectives d’application.

 

Mots clés : web content mining, web usage mining, web structure mining, personnalisation, extraction de connaissances, clustering, complexité, agents internet, multiagents..

 

Objectifs :

 

Plan détaillé

           

1.Introducion

2.Contexte et problématiques

2.1.Contexte technologique

2.1.1.Explosion des Systèmes d’Information

2.1.1.1.Développement des réseaux

2.1.1.2.Croissance des capacités de stockage

2.1.1.3.Caractéristiques de l’information contenue (multimédia, …)

2.1.1.4.Problématiques induites

2.1.2.Nouveaux modes d’accès aux réseaux

2.1.2.1.Des caractéristiques très diverses (taille, débit, …)

2.1.2.2.Des besoins et utilisations différents

2.1.2.3.Problématiques induites

2.2.Contexte économique (nouvelles activités sur le web)

2.2.1.Essor du e-commerce

2.2.1.1.Caractéristiques du e-commerce

2.2.1.2.Problématiques induites

2.2.2.Avènement du e-learning

2.2.2.1.Caractéristiques du e-learning

2.2.2.2.Problématiques induites

2.3.Les acteurs du Web

2.3.1.Qui sont-ils ?

2.3.2.Quels sont leurs besoins ?

3.Le W.M.

3.1.Le W.M., ses objectifs et son positionnement

3.1.1.Un processus K.D.D. sur des données Web

3.1.1.1.Le processus K.D.D. (rappel des différentes tâches)

3.1.1.2.Les origines des données Web (schéma utilisateurs  naviguant sur des sites via la toile + commentaires)

3.1.2.Les catégories du W.M. et les domaines connexes

3.1.2.1.Le Web Structure Mining – Analyse des graphes , relation avec les réseaux informatiques (hub, authorities)

3.1.2.2.Le Web Content Mining – RI, BD

3.1.2.3.Le Web Usage Mining – BD, Analyse des séquences et de traces

3.2.Le Web Structure Mining (W.S.M.)

3.2.1.Objectifs

3.2.2.Les données utilisées (liens inter sites)

3.2.3.Les pré-traitements

3.2.4.Les méthodes (utilisation des graphes)

3.2.5.Exemple d’application

3.3.Le Web Content Mining (W.C.M.)

3.3.1.Objectifs

3.3.2.Les données utilisées

3.3.2.1.Liens intra site et inter sites

3.3.2.2.Contenu multimédia

3.3.2.3.Balises de mise en forme

3.3.3.Pré-traitements

3.3.3.1.Sélection et construction de variables

3.3.3.2.Structuration des données multimédias (mise sous forme vectorielle)

3.3.4.Les méthodes (méthodes de l’apprentissage automatique)

3.3.5.Modèle d’exploitation

3.3.6.Exemple d’application

3.4.Le Web Usage Mining (W.U.M.)

3.4.1.Objectifs

3.4.2.Les données utilisées

3.4.2.1.Les cookies

3.4.2.2.Les fichiers logs

3.4.2.3.Les données d’enrichissement

3.4.3.Sélection et construction de variables

3.4.4.Structuration des données (fichiers logs)

3.4.4.1.Distinguer les différents utilisateurs

3.4.4.2.Reconstruire les sessions utilisateurs

3.4.4.3.Les limites (incomplétude des données, …)

3.4.5.Les méthodes (analyse exploratoire, règle d’associations, analyse de chemin, )

3.4.6.Modèles d’exploitations

3.4.6.1.Amélioration des performances et du design

3.4.6.2.Génération automatique de documents web

3.4.6.3.Modèles auto-adaptatif (relation avec des agents)

3.4.7.Exemple d’application

 

4.Le W.M. face à la complexité opératoire (computationnelle) et systémique

4.1. Le Web comme un système complexe         

4.1.1.Aspect distribué du web

4.1.2.Aspect dynamique du web

4.1.3.Aspect évolutif du web

4.1.4.Aspect ouvert du web

4.1.5.Nécessité d’approches « scalables »

 

4.2.Utilisation des approches à base d’agents dans le contexte du Web Mining

4.2.1.Quelques définitions :

4.2.1.1.Les agents autonomes et les systèmes multiagents

4.2.1.2.Les agents Internet (Information Agents) , les agents mobiles

4.2.2.Catégories des agents du web et techniques utilisées

4.2.2.1.Agents intelligents de recherche (crawlers, spiders)

4.2.2.1.1.Relation avec le Web Content Mining

4.2.2.2.Agents de Filtrage ou de catégorisation

4.2.2.2.1.Relations avec le champ de l’IR

4.2.2.2.2.Relation avec le web structure mining (hyperliens, clustering)

4.2.2.3.Agent personnalisés :assistants personnels

4.2.2.3.1.Relation avec le WUM : extension de la personnalisation de la recherche, navigation, aspect collectif

4.2.2.3.2.Agents interfaces et gestion de profils

4.2.2.3.3.Profils individuels et profils de groupe : clustering

4.2.2.3.4.relation avec les communautés virtuelles

4.2.3.Combinaison des différents niveaux de WM : lien entre structure, contenu et usage

4.2.4.Autres perspectives pour l’utilisation du paradigme multiagents dans le contexte du web

4.2.4.1.Réorganisation et découverte de services web

4.2.4.2.Cas du Web Sémantique

4.2.4.3.Approches dynamiques

5.Conclusion et perspectives

 

6.Bibliographie       (Quelques références bibliographiques)

K. Aas, L. Eikvil  (1999), Text categorisation: A survey. Technical Report, Norwegian Computing Center.

M. Bazsalicza, P. Naim, Data Mining pour le Web, Editions Eyrolles, Boldi & al, 2000

Boldi & al (2000), Trovatore: towards a highly scalable and distributed web crawler
R. Cooley, B. Mobasher, and J. Srivastava (1999), Data preparation for mining world wide web browsing patterns, in Knowledge and Information Systems, (1) 1, pages 5-32 .
J. Cho, H. Garcia-Molina (2002) , The evolution of the web and implications on an incremental crawler.

J.A. Delgado (2000), Agent Based Information Filtering and Recommander System On the Internet, PhD Thesis, Dept. Of Intelligence Computer Science, Nagoya Institute of Technology.

M. Klusch (2001), Information Agent Technology for the Internet: A survey, in Journal on Data and Knowledge Engineering, Special Issue on Intelligent Information Integration, D. Fensel (Ed.), Vol. 36(3), Elsevier Science.

R. Kosala, H. Blockeel (2000), Web Mining Research : A survey, SIGKDD: SIGKDD Explorations: Newsletter of the Special Interest Group (SIG) on Knowledge Discovery & Data Mining, ACM, 2.

H.P. Luhn (1958), The automatic creation of literature abstracts, IBM Journal of Research and Development, 2, pages 159-165.

S.K. Madria, S.S. Bhowmick, W.K. Ng, and E.P. Lim (1999), Research issues in Web data mining, in Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, (DaWaK '99), pages 303-312.

F. Menczer, R. Richard, K. Belew (1999), Adaptive Retrieval Agents: Internalizing Local Context and Scaling up the Web, in Machine Learning, 1-45, Kluwer Academic Publishers.
M.E. Muller (2000),  
An intelligent Multi-agent Architecture for information retrieval from the internet.

C. J. Van Rijsbergen (1979), Information Retrieval 2nd edition. London: Butterworths.

M. Spiliopoupoulou (1999), Data mining for the web, in Principles of Data Mining and Knowledge Discovery, Second European Symposium, PKDD’99, pages 588-589.

J. Srivastava, R. Cooley, M. Deshpande (2000), P-T. Tan, Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data, SIGKDD Explorations, (1) 2, pages 12-23.