Titre :Web Mining (W.M.) et Système Multi-Agents (S.M.A.)
Auteurs :
Jérémy Clech, ERIC – Université Lyon 2,
Bât. L, 5 av. Pierre Mendès-France
69676 Bron Cedex
Tel :
(33)(0)4.78.77.31.55
http://eric.univ-lyon2.fr/~jclech
Salima Hassas, LISI – Université Lyon 1,
Nautibus, 43 Bd du 11 Nov 1918
69622 Villeurbanne Cedex
Tel : (33)(0)4.72.44.58.90
Résumé :
Le volume des sources de données double chaque année. La plupart de ces sources se trouvent au sein de réseaux comme les intranet, extranet ou encore, le réseau des réseaux, internet. De plus, près de 80% d'entre elles sont non structurées. A leur échelle, ces documents sont la première source d’informations de leurs groupes d’utilisateurs. Face à cette densité en ligne, il est de plus en plus difficile d’exploiter efficacement ces informations. En effet, l’abondance de ces ressources, leur perpétuelle évolution et l’aspect polymorphe de leur contenu (format, média, type d’utilisation) sont autant d’écueils qu’il faut contourner. La nécessité de disposer de méthodes et d’outils avancés permettant d’y remédier, a fait émerger de nouveaux domaines de recherches :
Ø L’assistance à la recherche, à l’extraction d’informations et à sa gestion,
Ø Le développement de nouveaux modèles et de nouvelles normes de représentation des données sur le web (XML, RDF, DAML,..) permettant de représenter les données semi‑structurées, et/ou d’associer une sémantique aux données du web et de leur traitement donnant ainsi naissance au domaine du web sémantique,
Ø Le web mining, qui est l’application de techniques de data mining aux données du web permettant l’extraction d’informations pertinentes et de connaissances issues de la grande masse de données disponible sur le web,
Ø L’utilisation de nouveaux paradigmes comme ceux des agents autonomes, des multiagents, des techniques d’apprentissage, ou encore des approches évolutionnistes.
Dans ce tutoriel, nous nous intéressons au domaine du Web Mining. Ce domaine de recherche soulève de réels problèmes, tant scientifiques que technologiques. La résolution de ces problèmes a non seulement des répercussions sur ces deux aspects (scientifique, technologique), mais ont également un très net impact socio-économique à cause de leur très large champ d’applications. Du point de vue scientifique, le web mining étend la problématique du data mining aux données dépourvues de toute structure, aux données semi-structurées, ainsi qu’aux données évolutives. A un niveau plus général, il pose la problématique de la complexité opératoire (computationnelle) et aussi systémique des outils à développer dans ce contexte. Cette complexité est très fortement liée à la masse importante des données du web, leur diversité, leur distribution, leur aspect dynamique et au caractère ouvert du web.
Nous commencerons par présenter le domaine du web mining, et le situer par rapport aux domaines de recherches évoqués ci-dessus. Nous poserons ensuite la problématique du web mining, en la déclinant en trois catégories : le web content mining, le web usage mining et le web structure mining. Pour chacune de ces catégories, nous présenterons la spécificité des données, des traitements et des techniques utilisées pour chacune des étapes du processus KDD général. Nous aborderons ensuite la complexité du web mining, du point de vue opératoire et systémique, et montrerons comment l’usage des agents autonomes et plus généralement du paradigme multiagents peut pallier cette complexité. Nous illustrerons chacune des parties présentées par des exemples d’applications et des systèmes existants. Nous terminerons le tutoriel par les pistes de recherches actuellement explorées et leurs perspectives d’application.
Mots clés : web content mining, web usage mining, web structure mining, personnalisation, extraction de connaissances, clustering, complexité, agents internet, multiagents..
Objectifs :
1.Introducion
2.Contexte
et problématiques
2.1.Contexte
technologique
2.1.1.Explosion des Systèmes d’Information
2.1.1.1.Développement
des réseaux
2.1.1.2.Croissance
des capacités de stockage
2.1.1.3.Caractéristiques
de l’information contenue (multimédia, …)
2.1.1.4.Problématiques induites
2.1.2.Nouveaux modes d’accès aux réseaux
2.1.2.1.Des
caractéristiques très diverses (taille, débit, …)
2.1.2.2.Des
besoins et utilisations différents
2.1.2.3.Problématiques induites
2.2.Contexte
économique (nouvelles activités sur le web)
2.2.1.Essor du e-commerce
2.2.1.1.Caractéristiques
du e-commerce
2.2.1.2.Problématiques induites
2.2.2.Avènement du e-learning
2.2.2.1.Caractéristiques
du e-learning
2.2.2.2.Problématiques induites
2.3.Les
acteurs du Web
2.3.1.Qui
sont-ils ?
2.3.2.Quels sont leurs besoins ?
3.Le
W.M.
3.1.Le
W.M., ses objectifs et son positionnement
3.1.1.Un
processus K.D.D. sur des données Web
3.1.1.1.Le
processus K.D.D. (rappel des différentes tâches)
3.1.1.2.Les
origines des données Web (schéma utilisateurs naviguant sur des sites via la toile +
commentaires)
3.1.2.Les catégories du W.M. et les domaines connexes
3.1.2.1.Le
Web Structure Mining – Analyse des graphes , relation avec les
réseaux informatiques (hub, authorities)
3.1.2.2.Le
Web Content Mining – RI, BD
3.1.2.3.Le Web Usage Mining – BD, Analyse des séquences et de traces
3.2.Le
Web Structure Mining (W.S.M.)
3.2.1.Objectifs
3.2.2.Les
données utilisées (liens inter sites)
3.2.3.Les
pré-traitements
3.2.4.Les
méthodes (utilisation des graphes)
3.2.5.Exemple
d’application
3.3.Le
Web Content Mining (W.C.M.)
3.3.1.Objectifs
3.3.2.Les données utilisées
3.3.2.1.Liens
intra site et inter sites
3.3.2.2.Contenu
multimédia
3.3.2.3.Balises de mise en forme
3.3.3.Pré-traitements
3.3.3.1.Sélection
et construction de variables
3.3.3.2.Structuration des données multimédias (mise sous forme vectorielle)
3.3.4.Les méthodes (méthodes de l’apprentissage automatique)
3.3.5.Modèle d’exploitation
3.3.6.Exemple d’application
3.4.Le
Web Usage Mining (W.U.M.)
3.4.1.Objectifs
3.4.2.Les
données utilisées
3.4.2.1.Les
cookies
3.4.2.2.Les
fichiers logs
3.4.2.3.Les
données d’enrichissement
3.4.3.Sélection
et construction de variables
3.4.4.Structuration
des données (fichiers logs)
3.4.4.1.Distinguer
les différents utilisateurs
3.4.4.2.Reconstruire
les sessions utilisateurs
3.4.4.3.Les
limites (incomplétude des données, …)
3.4.5.Les
méthodes (analyse exploratoire, règle d’associations,
analyse de chemin, )
3.4.6.Modèles
d’exploitations
3.4.6.1.Amélioration
des performances et du design
3.4.6.2.Génération
automatique de documents web
3.4.6.3.Modèles
auto-adaptatif (relation avec des agents)
3.4.7.Exemple
d’application
4.Le W.M. face à la complexité opératoire (computationnelle) et systémique
4.1. Le Web comme un système complexe
4.1.1.Aspect
distribué du web
4.1.2.Aspect
dynamique du web
4.1.3.Aspect
évolutif du web
4.1.4.Aspect
ouvert du web
4.1.5.Nécessité
d’approches « scalables »
4.2.Utilisation
des approches à base d’agents dans le contexte du Web Mining
4.2.1.Quelques
définitions :
4.2.1.1.Les
agents autonomes et les systèmes multiagents
4.2.1.2.Les
agents Internet (Information Agents) , les agents mobiles
4.2.2.Catégories
des agents du web et techniques utilisées
4.2.2.1.Agents
intelligents de recherche (crawlers, spiders)
4.2.2.1.1.Relation
avec le Web Content Mining
4.2.2.2.Agents
de Filtrage ou de catégorisation
4.2.2.2.1.Relations
avec le champ de l’IR
4.2.2.2.2.Relation
avec le web structure mining (hyperliens, clustering)
4.2.2.3.Agent
personnalisés :assistants personnels
4.2.2.3.1.Relation
avec le WUM : extension de la personnalisation de la recherche,
navigation, aspect collectif
4.2.2.3.2.Agents
interfaces et gestion de profils
4.2.2.3.3.Profils
individuels et profils de groupe : clustering
4.2.2.3.4.relation
avec les communautés virtuelles
4.2.3.Combinaison
des différents niveaux de WM : lien entre structure,
contenu et usage
4.2.4.Autres
perspectives pour l’utilisation du paradigme multiagents dans le
contexte du web
4.2.4.1.Réorganisation
et découverte de services web
4.2.4.2.Cas
du Web Sémantique
4.2.4.3.Approches
dynamiques
5.Conclusion et perspectives
6.Bibliographie (Quelques références
bibliographiques)
K. Aas, L. Eikvil (1999), Text categorisation: A survey. Technical Report, Norwegian Computing Center.
M. Bazsalicza,
P. Naim, Data Mining pour le Web, Editions Eyrolles,
Boldi & al
(2000), Trovatore: towards a highly scalable and distributed web crawler
R. Cooley, B. Mobasher, and J. Srivastava (1999),
Data preparation for mining world wide web browsing patterns, in
Knowledge and Information Systems, (1) 1,
pages 5-32 .
J. Cho, H. Garcia-Molina (2002) , The evolution of the web and
implications on an incremental crawler.
J.A. Delgado (2000),
Agent Based Information Filtering and Recommander System On the
Internet, PhD Thesis, Dept.
Of Intelligence Computer Science, Nagoya Institute of Technology.
M. Klusch (2001),
Information Agent Technology for the Internet: A survey, in Journal on Data and Knowledge Engineering,
Special Issue on Intelligent Information Integration, D. Fensel (Ed.), Vol. 36(3), Elsevier Science.
R. Kosala, H. Blockeel
(2000), Web Mining Research : A survey, SIGKDD: SIGKDD
Explorations: Newsletter of the Special Interest Group (SIG) on
Knowledge Discovery & Data Mining, ACM, 2.
H.P. Luhn (1958), The
automatic creation of literature abstracts, IBM Journal of Research
and Development, 2, pages 159-165.
S.K. Madria, S.S.
Bhowmick, W.K. Ng, and E.P. Lim (1999), Research issues in Web data
mining, in Proceedings of Data Warehousing and Knowledge Discovery,
First International Conference, (DaWaK '99), pages 303-312.
F. Menczer, R.
Richard, K. Belew (1999), Adaptive Retrieval Agents: Internalizing Local
Context and Scaling up the Web, in Machine Learning, 1-45, Kluwer Academic Publishers.
M.E. Muller (2000),
C. J. Van Rijsbergen
(1979), Information Retrieval 2nd edition. London:
Butterworths.
M. Spiliopoupoulou
(1999), Data mining for the web, in Principles of Data Mining and
Knowledge Discovery, Second European Symposium, PKDD’99, pages 588-589.
J. Srivastava, R.
Cooley, M. Deshpande (2000), P-T. Tan, Web Usage Mining: Discovery and
Applications of Usage Patterns from Web Data, SIGKDD Explorations, (1)
2, pages 12-23.