# <center>Chapitre 11 : Les chaines de caractères </center>

## Introduction

On appelle *chaîne de caractères* des fragments de texte utilisés par un programme.  Il n'est pas nécessaire que le texte ait un sens pour un humain : il suffit qu'il soit composé d'une suite de caractères (un caractère n'est pas obligatoirement une lettre de l'alphabet :`` 'A','9', ' ', '.' ``sont des caractères).

La chaîne de caractères (string) est un type de base pour beaucoup de langages  de programmation et il existe de nombreuses bibliothèques de fonctions pour les manipuler.
Comprendre et savoir traiter les chaînes de caractères est indispensable pour un informaticien tant elles sont omniprésentes dans tous les domaines de l'informatique :

- pour le Web : les pages HTML, les scripts PHP par exemple,
- les bases de données : SGBDR,
- les réseaux : dans la constitution des trames ethernet,
- les systèmes d'exploitation : écriture de scripts sous linux,
- programmation : sources de programmes, fichiers textes etc.

Le but de ce chapitre est de comprendre et concevoir des algorithmes de traitements de chaînes. Ces algorithmes seront de plus en plus
élaborés; cela vous permettra d'entrevoir la puissance des chaînes de caractères au travers des algorithmes qui les traitent.

Pour rappel, une chaîne de caractères est une suite ordonnée de caractères. Cette
suite est délimitée par des guillemets `""` ou, plus rarement, par deux apostrophes `''` (en Python les deux sont possibles). Une chaîne de caractères n'est pas modifiable.

**Exemples de chaînes littérales :**

``'bonjour'`` est une chaînes de caractères contenant 7 caractères.
``''`` est la chaîne de caractères vide contenant 0 caractère.

**Nous pouvons initialiser une variable** avec une chaîne de caractères littérale,  cette variable sera de type chaîne de caractères.


In [None]:
message='L\'hiver approche, vite vite, il faut se couvrir des morsures du froid.'
print(message)

**NB:** Le caractère ``\`` avant l'apostrophe de ``L'hiver`` qui permet que le caractère ``'`` ne soit pas interprété comme un délimiteur de chaînes de caractères.  Pour éviter l'utilisation de caractères d'échappement vous pouvez utiliser les guillemets ``"`` pour délimiter la chaîne de caractères.

In [None]:
message="L'hiver approche, vite vite, il faut se couvrir des morsures du froid."
print(message)

Nous pouvons affecter une variable à partir d'une autre variable de type chaîne de caractères.

In [None]:
message='L\'hiver approche, vite vite, il faut se couvrir des morsures du froid.'
messageBis=message
print(messageBis)

## Concaténation de chaînes de caractères

L'opérateur ``+`` permet de concaténer des chaînes de caractères.

In [None]:
message='L\'hiver approche, vite vite, il faut se couvrir des morsures du froid.'
messageBis=' Couvrons nous!'
messageTierce=' Oui, couvrons nos oreilles!'
superMessage = message + messageBis + '\n'+ messageTierce
print(superMessage)

## Les chaînes de caractères vues comme des tableaux

Les chaînes de caractères sont analogues aux tableaux de caractères, à ceci près qu'elles ne sont plus modifiables après leur initialisation: seule la lecture des caractères de la chaîne de caractères est autorisée.

**Important :** même si les chaînes de caractères peuvent être soumises à une partie des opérations prévues pour les tableaux, elle ne sont pas de **"type"** tableau, c'est-à-dire que ``'abc'`` est différent de ``['a', 'b', 'c']`` : le second est modifiable, pas le premier. 

In [None]:
message='L\'hiver approche, vite vite, il faut se couvrir des morsures du froid.'
print(message[4]) # affichage : v
print(message[3] + message[6]) # affichage : ir
message[1] = 'c'

 Il faut alors bien distinguer les opérations qui **recopient** la chaîne  de  celles qui la **modifient**. 
 Par exemple :

In [None]:
mot='abc'
mot=mot + 'd'  # correct parce que + crée une nouvelle chaîne
print(mot)

On peut déterminer la longueur (c'est-à-dire le nombre de caractères) d'une chaîne, en faisant appel à la fonction **len()** :

In [None]:
print(len(message))

## Les chaînes sont comparables

La fonction `ord(c)` permet de connaître la valeur du code ASCII représentant le caractère `c`. La fonction `chr(n)`permet de connaître le caractère représenté par le code ASCII `n`.

In [None]:
# code point of integer
print(ord('5'))
print(ord('5')- ord('0'))

# code point of alphabet 
print(ord('A'))
print(ord('B'))

print(ord('a'))
print(ord('b'))

# code point of character
print(ord('$'))
print(ord('\n'))

print(chr(97))

Les chaînes peuvent être comparées alphabétiquement selon l'ordre du code ASCII. Tous les opérateurs de comparaison ``(>, <..)`` fonctionnent avec les chaînes de caractères. Cela est très utile pour trier des mots par ordre alphabétique usuel s'ils sont écrits en majuscules ou en minuscules :

In [None]:
mot = input("Entrez un mot quelconque : ")
if mot < "chat":
    place = "est avant"
elif mot > "chat":
    place = "est après"
else:
    place = "se confond avec"
print ("Le mot", mot, place, "le mot 'chat' dans l'ordre alphabétique")

- Sur ce thème : **Exercice 1, TD 11**

## Quelques fonctions sur les chaînes de caractères

`find(mot)` : renvoie la position du début de la sous-chaîne `mot`
 dans la chaîne, en partant du début de la chaîne et `-1` si `mot`est absent de la chaîne.

In [8]:
ch= "je suis étudiant à Paris 13"
mot = "suis"
print (ch.find(mot))
mot2="non"
print(ch.find(mot2))

3
-1


- Sur ce thème : **Exercices 2 et 3, TD 11**

`count(mot)` : renvoie le nombre d'occurrences de la sous-chaîne `mot` qui apparaissent sans chevauchement dans la chaîne.

In [None]:
ch = "Le héron au long bec et au long cou"
mot = 'long'
print (ch.count(mot))

- Sur ce thème : **Exercice 4, TD 11**

`lower()` : convertit une chaîne en minuscules.<br>
`upper()` : convertit une chaîne en majuscules.

In [None]:
phrase1 = "Merci beaucoup"
print (phrase1.upper())

phrase2 ="ATTENTION : Danger !"
print (phrase2.lower())

`strip()` : enlève les espaces éventuels au début et à la fin de la chaîne.

In [None]:
phrase = "   Monty Python   "
print(phrase.strip())

`replace(old, new)` : remplace chaque occurence de la chaîne de caractères `old` par la chaîne de caractères `new`
 dans la chaîne.

In [None]:
phrase = "Je suis étudiant en Informatique"
print(phrase.replace(" ","_"))

- Sur ce thème : **Exercices 5 et 6, TD 11**