code: A2088      studiebelasting: 3 sp      periode: sem. 2
naam: Large datasets
internet: http://www.few.eur.nl/few/edu/vak/a2088/
opleiding/fase: econ/d23/profiel, i&e/jaar 3&4 (oud)/mesor
voertaal: Nederlands
docent(en): dr. J.C. Bioch, prof.dr. Ph.H.B.F. Franses
contactpersoon: dr. J.C. Bioch
secretariaat: Inf
aanmelding: -
toelatingseisen: -
gewenst:
  • A2046 - Computational intelligence
  • A7360 - Methoden en technieken
    Met nadruk wordt er op gewezen dat voor deelname aan de werkcolleges het vak Methoden en technieken in principe dient te zijn gevolgd. De kennis en vaardigheden die in dit vak aan de orde komen, worden in de werkcolleges bekend verondersteld. Dat betekent dat bij praktijkonderzoeken, werkstukken en dergelijken in het kader van de werkcolleges de beoordelingsnorm daar ook vanuit gaat.
onderwijsvorm: hoorcollege 2 uur per week
tentamenvorm: het vak wordt afgesloten met een schriftelijk tentamen;
het uiteindelijke cijfer wordt gebaseerd op het tentamenresultaat en op een referaat betreffende de analyse van een wetenschappelijk artikel
tentamenperiode: mei/juni, augustus (herkansing)
tentameneisen: -
tentamenstof: collegenotities en artikelen uit de (soms populaire) wetenschappelijke literatuur

Doelstelling

Zie hieronder

Inhoud

Een belangrijke bijkomstigheid van E-business activiteiten is dat klanten en leveranciers dichter tot elkaar komen, en dat informatie over elkaar wordt opgeslagen. Klanten kunnen bijvoorbeeld sneller verschillende aanbiedingen met elkaar vergelijken, en leveranciers kunnen (door gericht te vragen of door het feitelijk gedrag bij te houden) gedetailleerde gegevens omtrent hun klanten verzamelen. Het kan nuttig zijn deze laatste gegevens zodanig samen te vatten dat ze bij een volgende gelegenheid nuttig kunnen worden aangewend. Leveranciers kunnen bijvoorbeeld klanten herkennen, en daarna op maat voorstellen doen.

De twee kerneigenschappen van de aldus verzamelde gegevensbestandigheden zijn:

  1. Er zijn heel veel waarnemingen (miljoenen of zelfs meer)
  2. Er is niet direct een duidelijke structuur in de gegevens herkenbaar.

Bij dit vak wordt ingegaan op methoden om structuur aan te brengen in grote gegevensbestanden, met als doel om die structuur aan te wenden voor beleid. Er zijn twee typen methoden:

  1. Statistische methoden (cluster-analyse, discriminant-analyse, niet-parametrische methoden)
  2. Methoden en technieken uit de Computational Intelligence/Machine Learning en Datamining zoals: Concept learning, decision trees, neurale netwerken, association rules, support-vector-machines, logical analysis of data en fuzzy clustering.

Aan de hand van artikelen en toepassingen worden de verschillende methoden besproken en geïllustreerd.

Verplichte literatuur

Wordt nog nader vastgesteld.

 4-4-2001