Python – Langage Naturel
Objectif : initiation aux fonctionnalités spécifiques de Python
Public admis : demandeur d’emploi, salarié, entreprise, étudiant, particulier
Pré-requis : Python – Base
Certification : TOSA
Référence : 59718
PROGRAMME
1. ENVIRONNEMENT PYTHON POUR LE NLP
- L'environnement de développement Python / Anaconda / Jupyter Notebook
- Les principaux types de données : chaînes, booléennes, nombres, listes, tuples et dictionnaires
- Les structures de contrôles : les boucles for et while, le test if/elif/else
- Les fonctions : création, passage de paramètres, valeurs par défaut, arguments variables
- Numpy : vecteurs, matrices, slicing, concaténation
- Pandas : l’analyse de données tabulaires (CSV, Excel), statistiques, pivots, jointures, filtres
2. PRÉTRAITEMENT DES DONNES TEXTUELLES
- Identifier les données textuelles et présentation des librairies spaCy et nltk
- Tokenisation des mots
- Suppression des stop-words, de la ponctuation et des éléments non essentiels à l’analyse
- Lemmatisation vs racinisation (stemming)
3. EXTRACTION D'INFORMATIONS
- Identification de la nature grammaticale des mots à l’aide du Part Of Speech Tagging
- Identifier des personnes et lieux avec le Named Entity Recognition
4. REPRÉSENTATIONS VECTORIELLE DES DONNÉES TEXTUELLES
- Bag of words
- Pondération tf-idf
- Approche avec des n-grams
- Les embeddings : word2vec, gloVe, fastTesxt
5. MACHINE LEARNING SUR DES DONNÉES TEXTUELLES
- Rappels sur les étapes de construction d'un modèle prédictif
- Classification
- Analyse de sentiment
- Topic modelling
6. PROCÉDURES D’ÉVALUATION DE MODÈLES
- Les techniques de ré-échantillonnage en jeu d'apprentissage, de validation et de test
- Test de représentativité des données d'apprentissage.
- Mesures de performance des modèles prédictifs
- Matrice de confusion