Business-Insight Company Presentation

Transcription

Brussel, March 1, 2013
Business-Insight Company Presentation
The Business-Insight company creates the latest state-of-the-art softwares in the domain of
predictive datamining.
Predictive datamining techniques are mainly used in the field of Business-Intelligence, to predict the
behavior of customers. Our principal customers include Banks, Telecommunication operators,
Insurance, E-Commerce companies, Bio-Genetics Companies. Typical applications include:
 For Banks: predict of a company will go bankrupt in a delay of 6 monthes.
 For Telecommunication: predict if a customer will change from mobile phone operator in the
next forecoming 3 monthes.
 For Insurance: predict the risk linked to insuring a specific customer.
 E-Commerce: predict what’s the most “likely to be bough” product for a specific customer.
 Bio-Genetics: predict if a woman will have Ovarian Cancer, based on its DNA code.
Business-Insight is on the leading edge of the research in “Predictive Datamining” as demonstrated
by our excellent results at the main “Predictive Datamining Competitions”.
Indeed, Business-Insight is always inside the TOP WINNERS at Worldwide “Predictive Datamining
Competitions”, such as the world-famous “KDD cup 2009” (KDD stands for “Knowledge Discovery in
Database”) and “AUDSM cup 2009” (Australian Dataming cup): see the whole stories here:
http://www.business-insight.com/forum/viewforum.php?f=12
We are proud to create the “Softwares of Tomorrow”. Our mission is to be the technology leader in
the field of predictive analytics and datamining for Business Intelligence.
For more information about the Business-Insight company, please visit our website:
http://www.business-insight.com
To still improve our “datamining suite”, we offer to ULB students the opportunity to take part in the
development of our “next-generation” softwares.
It’s one unique opportunity to shape the future of Business-Intelligence!
You will find hereafter some projects descriptions that are in the leading edge of predictive
datamining techniques. I hope that you will enjoy them!
Business-Insight SPRL
E-mail: [email protected]
Company headquarters:
Address: Chemin des 2 Villers, 11 - 7812 Ath (V.N.D.) - Belgium
Phone (global): +32 479 99 27 68
Project 2: Predictive Datamining: segmentation tool:
Segmentation visualization.
Un second outil très important en terme de « Business-Intelligence » est l’outil de segmentation ou
encore appelé “clustering” de Business-Insight. Un outil de segmentation permet de « découper » la
base de données des clients en plusieurs segments, de façon à pouvoir réaliser des campagnes
marketing adaptées à chaque segment de clientèle. Par exemple, un obtient souvent les segments
suivants :

les jeunes, sans argent

les vieux, plein de thunes.

Les « mid-ages »
L’outil de segmentation de Business-Insight est appelé « StarDust ».
Dans "StarDust", le dataset (la population) à segmenter est représenté par un nuage de points en 3D.
Chaque point représente un individu. Ces points sont texturés. Par exemple, les individus qui sont
dans le segment des « bons clients » sont représentés par des "petit coeurs". Le logiciel actuel utilise
des VBO (vertex buffer objects) de OpenGL pour afficher en temps réel 1 millions d'individus à l'écran
(à 60 frames/sec). Il y a donc tellement de points affichés qu'il est pratiquement impossible d'évaluer
"à l'oeil nu" la densité des points sur certaines parties de l'écran. Or la "densité des points" est une
information très importante pour une étude de segmentation.
Voici une illustration de « StarDust » sur la base de données « Census-Income » (200.000 individus):
La visualisation des résultats de la segmentation est une partie importante (si pas la plus importante)
d’un logiciel de Segmentation. En effet, il n’existe pas de critère objectif qui permette de déterminer
qu’une « segmentation est meilleure qu’une autre ». Donc, seule la visualisation efficace des résultats
permet de « valider & comparer » d’un point de vue « business » les segments obtenus. C’est
pourquoi le moteur d’affichage 3D et d’exploration 3D de « starDust » est très important.
Stardust est le seul logiciel au monde qui permette de visualiser et de segmenter en temps réel des
populations de plusieurs millions d’individus (Le logiciel concurrent le plus proche (SPAD) « plante »
lamentablement sur une base de données de plus de 10.000 individus. et nécessite plus de 10
minutes pour afficher en 2D les segments sur une population ridicule de 2.000 individus).
L’objectif du TFE est de réaliser un code en "OpenGL shading language" qui permet d'ajouter un effet
de transparence aux textures (aux points) affichés dans "StarDust". En effet, grâce à un effet de
transparence, il est possible d'évaluer facilement la densité des points. La technique utilisée pour
réaliser la transparence sera basée sur du "order independent transparency" et codée en "OpenGL
shading language" (car c'est la seule technique qui permet d'atteindre des performances d'affichage
satisfaisante sur des bases de données de plusieurs millions d’individus). Le code s'intégrera à
"StarDust" qui est une application en C/C++ exploitant le framework Qt.
Le candidat devra avoir à disposition une machine avec une carte accélératrice 3D permettant de
coder du "order independent transparency" en "OpenGL shading language" (une carte accélératrice
3D récente est nécessaire). C’est un projet vraiment cool à faire car il implique l’utilisation des
dernières innovations en matière de programmation de carte accélératrice 3D. En effet, le "order
independent transparency" est encore, à l’heure actuelle, un sujet de recherche très actif dans le
domaine de la 3D temps-réel.
Segment 1
Segment 2
Segment 3
outliers
Example of volumetric transparency effect rendered
with a stencil routed k-buffer with 16 fragments per pixel.
Phone (global): +32 479 99 27 68
Project 3: Predictive Datamining: classification tool:
ETL toolbox for social network analysis.
Outil d’analyse de réseaux sociaux : Pour une firme de télécommunication (comme proximus, base ou
mobistar), l’étude des phénomènes de « churn » est très important. Lorsqu’un abonné de chez
Proximus décide de résilier son abonnement chez Proximus et de prendre un abonnement chez Base,
cela s’appelle du « churn » : l’abonné en question vient de « churner ». Il est intéressant (et très
lucratif !) de faire des modèles prédictifs qui prédisent si un abonné va bientôt « churner ». Ces
modèles prédictifs utilisent comme indicateur de « churn » différentes variables : proportion du
nombre d’appels vers l’extérieur du réseau, évolution de la valeur de la facture à la fin du mois, etc.
Une variable très importante pour un abonné X est le « nombre de personnes ayant churné dans le
voisinage de X ». Il faut ici définir la notion de « voisinage » : 2 abonnés sont « voisins » si on constate,
lors de l’analyse de leur « coups de téléphone », qu’ils se téléphonent souvent de l’un à l’autre. Deux
abonnés qui se téléphonent directement de l’un à l’autre sont à une distance de 1. Deux abonnés qui
téléphonent tous les deux à la même personne « intermédiaire » sont à une distance de 2, etc.
Anatella est un environnement de développement de scripts de manipulation des données
extrêmement simple, intuitif & versatile. Cet environnement est basé sur une technologie hybride :
1. Les transformations simples sont décrites à l’aide de « petites boîtes » (qui est la
façon la plus intuitive de représenter des transformations de données et qui est
un standard « de facto » dans tous les ETL modernes).
2. Les transformations complexes sont programmées à l’aide d’un langage de
scripting basé sur javascript (standard ECMA-262) qui est simple, complet et
très versatile.
Anatella intègre aussi un « debugger » qui possède une interface similaire au debugger de Visual
Studio (pour « debugger » les scripts javascript/ECMA-262): possibilité de mettre des « break points »,
de mettre des « watch » sur des variables, de voir le « stack », … Voici un screenshot de Anatella :
L’objectif est d’extraire différents indicateurs hors du « réseau social » (extrait du réseau des « coups
de téléphones ») pour chaque personne. Ces indicateurs sont ajoutés aux données déjà disponibles
sur les clients pour améliorer (substantiellement) la qualité des prédictions (pour le « churn »,
principalement)(voyez le projet « 1 » pour plus d’information sur les techniques prédictives).
L’objectif est de réaliser un opérateur dans Anatella (« une petite boite ») qui permet d’analyser le
réseau, tel qu’il a été défini grâce aux différents filtres définis avec Anatella par l’utilisateur: par
exemple il est intéressant de calculer de nouvelles variables telles que : distance par rapport au plus
proche « churner », proportion de « churners » dans un voisinage de 1,2,3, indice de centralité des
« churner » dans le cluster, etc.
L’hypothèse sous-jacente qui doit être vérifiée pour que ce type d’analyse fonctionne est que le
« réseau des coups de téléphone » (qui est le seul que nous avons à disposition) est égal au « réseau
social » (qui est le seul à influencer le « churn »). Pour extraire le « réseau social » à partir du « réseau
des coups de téléphone », il est nécessaire de « filter » hors de l’analyse les appels à caractère nonsocial (les appels de type « commerciaux », par exemple). Ces filtres ad-hoc, qui sont très importants,
sont déjà disponibles dans le logiciel de Business-Insight nommé « Anatella ». Anatella est un ETL :
(ETL= « Extract-Transform-load »): c’est un outil de manipulation de donnée conçu pour les larges
volumes.
Les algorithmes seront appliqués à des réseaux sociaux construits à partir de réseaux de « coups de
téléphones ». La taille des réseaux analysés est donc très grande : plusieurs millions de nœuds et
plusieurs centaines de millions d’arcs sont des choses courantes.
Ce projet est parfait pour tout étudiant intéressé dans l’« optimisation de code C++ » et l’algorithme
de haut vol. En effet, un mauvais choix algorithmique peut provoquer une « complexité algorithmique
» telle qu’il est impossible que cela fonctionne pour des réseaux de plusieurs millions d’individus!
Phone (global): +32 479 99 27 68
database exploration.
Grâce à Stardust, il est possible d’explorer en 3D des nuages de points qui représentent des bases de
données de plusieurs millions d’individus. On peut, par exemple, se « déplacer » à l’aide de la souris
dans un espace 3D représentant, de façon multivariée, la base de données. La "densité des points"
dans l’espace est une information très importante pour une étude de segmentation. Pour pouvoir
illustrer cette « densité », il serait intéressant de pouvoir utiliser, non pas une souris, mais un
« pointeur 3D haptique ». Le terme « haptique » est un terme qui désigne une interface utilisateur
qui oppose une certaine « résistance programmable au déplacement » (aussi appelé « retour de
force »). Typiquement, les « pointeurs 3D haptiques » sont utilisés par des chirurgiens lorsqu’ils
opèrent à l’aide de micro-scapels, pour avoir un « retour de force », quand ils commencent à
« couper ». Ce genre d’appareil est assez couteux mais Business-Insight en possède un (avec les
librairies qui permettent de le programmer : le Falcon3D). Nous aimerions pouvoir exploiter notre
« pointeur 3D haptique » dans StarDust. Le « retour de force » serait proportionnel à la "densité
locale des points" dans l’espace. C’est un projet vraiment cool à faire car il implique de programmer
le « retour de force » d’un appareil « haptique » de dernière génération.
pointeur 3D haptique mis à disposition : le NovInt Falcon 3D
Phone (global): +32 479 99 27 68
5
Dimensionality reduction.
Dans "StarDust", le dataset à segmenter est représenté par un nuage de points en 3D. Chaque point
représente un individu. Pour obtenir la coordonnée des points en 3D, il est nécessaire de réaliser
une PCA, qui "projette" dans un espace 3D des points qui, au départ, sont dans un espace bien plus
large à "d" dimension (d>>3). Dans "StarDust", le code qui réalise la PCA est très primitif et
fonctionne de façon satisfaisante sur des dimensions de départ "d"<300.
L'objectif du TFE est d'intégrer un code dans "Stardust" qui calcule la projection lorsque de d>300. Il
faudra investiguer plusieurs librairies informatiques disponibles sur internet pour calculer la PCA et
"benchmarker" chacune. Note: La PCA est réalisée sur une matrice pleine (et donc la matrice n’est
pas "creuse").
C’est un Project à forte composante mathématique et il devrait intéresser tout étudiant avec un
penchant pour les mathématiques très avancées appliquées à des cas concrets.
Phone (global): +32 479 99 27 68

Business-Insight Company Presentation

Transcription

Documents pareils

Déclaration de Politique Qualité

Cas Client

Les outils numériques de veille et la gestion des connaissances

stage charge d`etudes datamining - h/f

Cas Client

Cas Client

Programme Soirée 17 Decembre Mobile Monday Mediterranee

StarDust

alterkit starmax

Sacs cadeaux, SUSY CARD 40321 Sac à bouteille de Noël avec