Les Voisins De Wikipédia
Les Voisins De Wikipédia est une base lexicale distributionnelle du français construite entièrement automatiquement, à partir d'un corpus comprenant l'ensemble des articles de l'encyclopédie française Wikipédia en juin 2008.
Le corpus texte a été étiqueté au niveau morphosyntaxique par Treetagger, de l'Université de Stuttgart. L'extraction des contextes syntaxiques a été réalisée par la chaîne d'analyse syntaxique Syntex, développée par Didier Bourigault dans le cadre d'une collaboration entre le laboratoire CLLE-ERSS et la société Synomia. L'analyse distributionnelle a été réalisée par l'outil Upery développé à CLLE-ERSS par Didier Bourigault. La constitution du corpus et l'application de Syntex et Upery à ce corpus ont été réalisées par Franck Sajous.