key: cord-0798253-y48z787l
authors: Lamoril, J.; Ameziane, N.; Deybach, J.-C.; Bouizegarène, P.; Bogard, M.
title: Les techniques de séquençage de l’ADN : une révolution en marche. Première partie
date: 2008-10-31
journal: Immuno-analyse & Biologie Spécialisée
DOI: 10.1016/j.immbio.2008.07.016
sha: 1ed105f8635e045c0cae87ad7aad8d835a978c89
doc_id: 798253
cord_uid: y48z787l

Summary DNA sequencing is an essential tool in molecular biology and applied biosciences. Described in the late 1970s, this method had enormously increased the possibilities of genetic research. DNA sequencing is now routinely used in molecular biology laboratories. This technology has allowed sequencing of various and important genomes as the human one. Numerous innovations to improve DNA sequencing have been realized and new technologies have been described. The main objective of this article made up of two parts is to present the actual sequencing methodologies and the main evolutions in progress in this field. Individual human sequencing is not so far. In addition to ethical questions that will rise, other questions need to be considered. For example, how will we interpret the many genetic variants in regard to predisposition to disease and to phenotype ? Many studies in progress will answer these questions. In any case, a revolution is in motion. Résumé Le séquençage d’ADN est devenu un outil essentiel en biologie moléculaire tant en médecine que dans de nombreuses autres disciplines des sciences de la vie. Le séquençage a été décrit il y a environ 30 ans et n’a cessé d’évoluer depuis cette période. Cette méthode est devenue une technique courante dans les laboratoires de biologie moléculaire. Les connaissances acquises grâce à cette méthode et la possibilité de séquencer des génomes de grande taille, tel que le génome humain, ont amené les chercheurs à développer des techniques de séquençage de plus en plus sophistiquées. Cet article, composé de deux parties, présente les techniques actuellement utilisées pour séquencer l’ADN, qu’il soit humain ou d’autre origine, et les méthodes de séquençage en développement. Ces dernières constituent un réel bouleversement. Le séquençage à l’échelle individuelle n’est plus loin. En dehors des problèmes éthiques qu’elle soulève, cette révolution pose de nouvelles questions, par exemple : comment interpréterons-nous les nombreuses variations génétiques observées chez un individu, quelles en seront les conséquences sur ses prédispositions génétiques aux maladies et autres risques, quels en seront les retentissements sur le phénotype ? De nombreuses études en cours cherchent les réponses. Dans tous les cas, la révolution est en marche.

Résumé Le séquençage d'ADN est devenu un outil essentiel en biologie moléculaire tant en médecine que dans de nombreuses autres disciplines des sciences de la vie. Le séquençage a été décrit il y a environ 30 ans et n'a cessé d'évoluer depuis cette période. Cette méthode est devenue une technique courante dans les laboratoires de biologie moléculaire. Les connaissances acquises grâce à cette méthode et la possibilité de séquencer des génomes de grande taille, tel que le génome humain, ont amené les chercheurs à développer des techniques de séquençage de plus en plus sophistiquées. Cet article, composé de deux parties, présente les techniques actuellement utilisées pour séquencer l'ADN, qu'il soit humain ou d'autre origine, et les méthodes de séquençage en développement. Ces dernières constituent un réel bouleversement. Le séquençage à l'échelle individuelle n'est plus loin. En dehors des problèmes Introduction Depuis la description de la structure de l'ADN en 1955 jusqu'à nos jours, la biologie a connu une suite de remarquables progrès technologiques dont le séquençage constitue l'un des évènements clés. En ce début de troisième millénaire déjà riche en nouvelles technologies, nous assistons à une nouvelle révolution dans le domaine du séquençage. À travers deux articles, nous souhaitons vous présenter ces changements. Dans une première partie, nous exposerons les différentes méthodes de séquençage dans leur aspect actuel et dans une seconde partie, les bouleversements technologiques en marche dans ce domaine.

Le séquençage de l'ADN constitue une méthode dont le but est de déterminer la succession linéaire des bases A, C, G et T prenant part à la structure de l'ADN. La lecture de cette séquence permet d'étudier l'information biologique contenue par celle-ci. Étant donné l'unicité et la spécificité de la structure de l'ADN chez chaque individu, la séquence de l'ADN permet de nombreuses applications dans le domaine de la médecine, comme, par exemple, le diagnostic, les études génétiques, l'étude de paternité, la criminologie, la compréhension de mécanismes physiopathologiques, la synthèse de médicaments, les enquêtes épidémiologiques. Dans de nombreuses publications, le terme séquençage peut se retrouver sous deux dénominations différentes qu'il est important de connaître. Dans les études de génomes, le terme de reséquençage (expression pouvant prêter à confusion) est utilisé à la place de séquençage. Cette dénomination, essentiellement utilisée en génétique, désigne le séquençage d'un segment d'ADN suivi de la comparaison du résultat obtenu avec celui d'une séquence de référence connue. Un autre terme est également employé : le séquençage de novo. Dans ce cas, il s'agit du séquençage d'un génome pour lequel il n'existe pas de séquence référence. Il s'agit donc de la détermination d'une séquence inconnue. Dans notre article, sauf dans quelques cas, nous parlerons de séquençage au sens large du terme sans distinguer le reséquençage du séquençage de novo, les techniques utilisées étant généralement les mêmes.

Le génome humain contient six milliards de bases, soit la quasi-totalité de notre patrimoine génétique. De plus, nous possédons un petit génome indépendant, celui de la mitochondrie (d'environ 16 500 bases). La séquence complète du génome humain contenu dans le noyau de la cellule sous forme d'ADN a été finalisée en 2006. Par ailleurs, les génomes de nombreux agents infectieux, de mammifères et de plantes ont également été sequencés dans leur totalité (nombre d'entre eux sont accessibles sur le site www.ncbi.nlm.nih.gov/Genomes). Leur connaissance a modifié considérablement les recherches biomédicales et biologiques en ouvrant de vastes panoramas dans le domaine de la médecine (diagnostic, thérapeutique, prédiction, pronostic, prévention. . .) et dans de nombreuses autres disciplines biologiques (anthropologie, agronomie, environnement. . .). La progression des connaissances croît à une vitesse spectaculaire. Le séquençage est de fait un remarquable instrument nécessaire à la compréhension des cycles de la vie dans leur globalité. Il devrait permettre d'améliorer la santé humaine et l'équilibre écologique de la planète. Les techniques de séquençage évoluent et leurs applications s'élargissent (Tableau 1). Par ailleurs, le séquençage a pu « se démocratiser » dans de nombreux laboratoires, en partie depuis la description de la polymerase chain reaction (PCR) en 1985, suivie de sa diffusion très large dans les laboratoires de biologie moléculaire. Depuis 2000, outre la PCR que nous ne décrirons pas, de nouvelles techniques de séquençage se sont développées. Elles constituent un progrès technologique révolutionnaire et seront présentées dans la seconde partie de cet article. Maxam-Gilbert. Cette technique est une méthode chimique de traitement de l'ADN. Un fragment amplifié par PCR et marqué radioactivement par le phosphore radioactif (P 32 ) est modifié par un agent chimique, par exemple l'hydralazine. Celle-ci modifie les bases C et T et en milieu alcalin, uniquement les bases C (comme dans ce schéma). Dans un second temps, l'addition de pipéridine casse de manière aléatoire et au moins une fois au niveau de chaque base C modifié. On obtient donc des fragments de taille différente.

Les deux premières techniques de séquençage de l'ADN, celle de Maxam-Gilbert [25] et celle de Sanger [66] ont été décrites en 1977. À noter que les deux premières publications rapportant un séquençage datent de 1973 [25, 49] . Il s'agissait du séquençage de l'opérateur Lac et de l'ARNm de celui-ci. La technique de Sanger a révolutionné le monde de la biologie moléculaire en permettant de décrypter différents génomes, tel que celui du génome humain complètement déchiffré en 2006 ou d'autres génomes, le génome bactérien, par exemple, le premier d'entre eux étant celui d'Haemophilus influenzae, complètement décrit en 1995 [18] . Bien que les techniques de séquençage évoluent, comme nous allons le voir dans cet article, la méthode de Sanger continue d'être la méthode la plus employée dans le monde à l'heure actuelle.

Cette technique est pratiquement abandonnée de nos jours. Nous la décrirons brièvement pour des raisons historiques. Cette méthode, publiée parallèlement à celle de Sanger en 1977, par son caractère révolutionnaire a grandement contribué à l'histoire de la biologie moléculaire. Il s'agit d'une méthode chimique de séquençage. Les réactifs clivent spécifiquement après chacune des bases A, C, G, [A + G], [C + T]. Cette technique est basée sur la propriété de certains agents chimiques, l'hydrazine, le diméthyl sulfate (DMS) et l'acide formique, de modifier les bases de l'ADN. Dans un second temps, la pipéridine est ajoutée et « casse » les brins d'ADN au niveau des bases modifiées. Les agents chimiques sont utilisés dans des conditions telles qu'ils n'agissent qu'avec un faible pourcentage des bases de l'ADN étudié. Le DMS agit au niveau des bases « G ». L'acide formique agit au niveau des bases « A + G ». L'hydrazine agit au niveau des bases « C + T » (en milieu alcalin, l'hydrazine agit uniquement au niveau des « C »). L'ADN à séquencer est marqué à une extrémité. Le plus souvent, il s'agit d'un marqueur radioactif. Le produit de séquence est déposé sur un gel d'acrylamide, puis la séquence lue après autoradiographie ( Fig. 1 et 2 ). L'ADN étudié peut être simple ou double brin. Cette technique permettait d'analyser des fragments allant jusqu'à 500 pb.

La diffusion de la méthode de Sanger, la commercialisation d'automates utilisant des fluorophores quatre couleurs ainsi que le déploiement de la PCR dans les laboratoires ont considérablement amélioré les procédures de séquençage. La méthode de Sanger a en effet rapidement dépassé la méthode de Maxam-Gilbert pour la remplacer et reste à ce jour la principale méthode de séquençage utilisée dans les laboratoires. Son principe est le suivant. Dans un premier temps, il est nécessaire d'amplifier l'ADN cible par PCR, puis de le dénaturer afin d'obtenir un ADN simple brin. À l'aide d'une amorce spécifique et complémentaire du brin étudié (sens ou antisens), identique ou différente de celle utilisée pour la PCR, une ADN polymérase effectue alors la synthèse de l'ADN complémentaire à partir de cette amorce. De l'extrémité 5 vers l'extrémité 3 , cette enzyme ajoute les désoxyribonucléotides-triphosphates (dNTP) complémentaires et de manière aléatoire et inconstante des didéoxyribonucléotides triphosphates (ddNTP), par exemple un ddGTP sera parfois ajouté à la place d'un dGTP. La réaction se faisant dans un seul tube, les ddNTP (ddATP, ddGTP, ddCTP et ddTTP) sont marqués à l'aide de fluorophores différents pour chaque ddNTP (fluorophores « quatre couleurs »). Lorsqu'un ddNTP est incorporé à la place d'un dNTP, l'ADN polymérase ne peut plus continuer sa polymérisation. La réaction d'extension s'arrête (en effet, le didéoxynucléotide ne possède pas de groupe 3 -hydroxyle indispensable Figure 2 Technique de Maxam-Gilbert. Dans quatre tubes différents, l'ADN cible est traité par chacun des produits de modification spécifique de base (hydralazine C + T ; hydralazine C en milieu alcalin ; diméthyl sulfate G ; acide formique A + G), suivi d'un traitement par la pipéridine. Les fragments coupés aléatoirement et au moins une fois après chaque base spécifique sur l'ADN cible sont de taille différente. La migration de ces derniers dans un gel d'acrylamide spécifique suivie d'une autoradiographie permet de déduire la séquence de l'ADN au cours de la lecture du gel dans le sens 5 → 3 de bas en haut du gel. à la réaction de polymérisation de l'enzyme). Statistiquement, au cours de la réaction, pour chaque « base » de l'ADN cible, au moins une fois, un ddNTP complémentaire sera incorporé à la place d'un dNTP. Par conséquent, à la fin de la réaction, nous obtiendrons des fragments de taille différente. L'analyse de la réaction est ensuite effectuée. Différentes méthodes d'analyse sont possibles. Aujourd'hui, l'électrophorèse capillaire réalisée sur un automate de séquençage est la méthode de choix. Lors de la migration, chaque fragment (contenant un ddNTP marqué par un fluorophore) sera excité par un laser et le signal obtenu analysé par un logiciel spécifique. L'analyse informatique des signaux permet d'obtenir la séquence étudiée, par exemple, sous forme d'un électrophorégramme, de lecture manuelle aisée mais souvent fastidieuse (Fig. 3) . Des logiciels d'analyse des séquences peuvent être utilisés. Dans tous les cas, l'analyse d'un fragment d'ADN après PCR se fait toujours à l'aide d'une amorce sens et antisens afin de confirmer la séquence (et une éventuelle anomalie de séquence). En général, cette technique permet d'obtenir des séquences de longueur comprise entre 400 et 850 pb [30] . Comme déjà indiqué, cette technique, décrite pour la première fois en 1977, reste la plus utilisée dans les laboratoires, notamment en milieu hospitalier. À titre d'exemple, de nombreux labo-ratoires hospitaliers utilisent un séquenceur commercialisé par la société Applied Biosystems permettant l'analyse de  séquences en plaques de 96 ou 384 puits par électrophorèse  capillaire (analyse multicapillaire en parallèle). Ce séquenceur contient un, quatre, huit, 16, 48 ou 96 capillaires  selon le modèle. Ainsi, le modèle ABI3130Xl (96 puits, 16 capillaires) permet le séquençage d'environ 400 pb/puits en trois heures (soit 28,8 kb pour la plaque entière). En sachant que cette machine permet de lire environ 18 bases par seconde (pour des 96 capillaires), un an serait nécessaire pour séquencer un génome humain à l'aide de 100 machines utilisées en parallèle, en recouvrant cinq fois le génome (équivalent à cinq séquençages du génome), minimum nécessaire pour s'assurer de l'absence d'erreurs et en supposant que le temps de préparation de ces machines et des échantillons soient négligeable. D'autre développement de la méthode de Sanger sont néanmoins en cours et notamment la miniaturisation de la technique. À titre d'exemple, récemment des auteurs ont réussi à séquencer 600 pb en 6,5 minutes à l'aide d'une puce constituée d'une microfluidique permettant une électrophorèse avec un capillaire de 7,5 cm de long constitué d'une polymère spécifique [21] . D'autres technologies ont donc été développées pour améliorer le rendement, la rapidité et le coût du séquençage.

Principes du séquençage selon la méthode de Sanger. Après dénaturation du produit amplifié par séquençage, l'un des deux brins (ici, le brin sens) s'hybride à une amorce spécifique. Pour la simplicité du schéma, nous avons pris une amorce de 5 pb, la taille habituelle des amorces étant de 20 pb environ. Le mélange réactionnel contient, outre les tampons et l'ADN polymérase, des déoxynucléotides triphosphates (dNTP, dA-, dC-, dG-, dT-TP) mais aussi des didéoxynucléotides triphosphates (ddNTP, ddA-, ddC-, ddG-, ddT-TP). L'incorporation aléatoire d'un ddNTP à la place d'un dNTP ne permet plus la polymérisation par l'ADN polymérase. L'extension s'arrête. À la fin de la réaction de séquence effectuée selon des cycles thermiques identiques à ceux de la PCR (on parle de PCR asymétrique, une seule amorce étant utilisée au lieu de deux), nous avons des fragments de taille différente. Ces fragments sont soumis à migration dans un champs électrique. Il s'agit le plus souvent d'une électrophorèse capillaire. Chaque ddNTP étant marqué par un fluorophore différent, un signal lumineux sera généré, spécifique de la base didéoxy incorporée. Les fragments étant de taille différente et la résolution allant jusqu'à une base de différence, il sera simple de recueillir ce signal et en déduire la séquence. Les signaux lumineux sont analysés par un logiciel spécifique, et le résultat de l'analyse peut être lu, par exemple, sous forme d'un électrophorégramme de lecture facile. Des logiciels d'interprétation des séquences sont également disponibles. Pour confirmer un résultat, toute réaction de séquence d'un fragment d'ADN est systématiquement faite sur le brin sens et le brin antisens.

La technique shotgun (séquençage aléatoire globale). Elle a été utilisée massivement pour le séquençage d'un grand nombre de génomes notamment bactériens (séquençage de novo). Schématiquement, cette méthode consiste à fragmenter le génome entier à étudier en petits fragments d'ADN à l'aide de moyens mécaniques. Sur chaque fragment, une réaction de ligation permet de fixer de courtes séquences d'ADN appelées adaptateurs, ces derniers servant d'amorce pour la PCR. Ces fragments sont ensuite intégrés dans des plasmides et constituent une bibliothèque (library) de fragments aléatoires d'ADN simple brin. Ils sont ensuite amplifiés par PCR, par exemple, puis séquencés à l'aide de la méthode de Sanger. À l'aide de logiciels informatiques, les séquences sont ensuite alignées et recoupées par chevauchement. Ces séquences représentent plusieurs blocs de séquences continus : on parle alors de « contig ». Certaines séquences manquent : ce sont des trous de séquences (gap). Ceux-ci sont comblés par séquençage à partir des séquences déjà déterminées. À partir de ces dernières, sont dessinées des amorces de PCR servant pour l'amplification en direction de ces trous. Cette technique nécessite de séquencer le génome cible plusieurs fois (minimum cinq fois), tant pour éviter les erreurs de séquençage que pour s'assurer du maximum de chevauchement entre les séquences et faciliter l'ordonnancement des séquences. Cette technique est essentiellement utilisée pour des génomes de petite taille comme ceux des bactéries. Le principe de séquençage de grands génomes. L'automatisation à l'aide de robots a permis de séquencer de nombreux génomes dont le génome humain (pour plus de détails sur une des méthodes utilisées, voir le site jgi.doe.gov/education/how). Le travail a été considérable et n'a pu être effectuée que grâce à une robotisation et une informatisation poussées dans des instituts dédiés à ces séquençages à grande échelle. À ce jour, plus de 280 génomes prokaryotes ont ainsi été totalement séquencés. Pour réaliser le séquençage d'un grand génome (eucaryote ou procaryote, par exemple), une carte physique du génome est d'abord constituée. Il s'agit d'établir des repères sur le génome à l'aide de marqueurs spécifiques de chaque chromosome. Schématiquement, deux types de marqueurs sont utilisés :

• les polymorphismes (avec étude de la liaison génétique entre ceux-ci • les séquences uniques polymorphes ou non appelées aussi sequence tagged sites (STS).

La carte physique permet de limiter la zone à étudier et ainsi de faciliter la reconstitution du génome à séquencer. Plusieurs méthodes existent. Nous en décrirons une de manière simplifiée. Pour permettre le séquençage du génome, il est nécessaire de le fragmenter (Fig. 4) . Pour cela, l'ADN est cassé mécaniquement. Les nombreux fragments obtenus sont ensuite insérés au hasard dans des plasmides (ces fragments sont alors appelés inserts). Ils peuvent être aussi insérés dans des cosmides ou des fosmides (vecteurs particuliers dérivés de plasmides, utilisés pour des inserts de plus grande taille) [3] . L'ensemble est introduit dans des bactéries (Escherichia coli) par transformation. Les fragments insérés ont une taille d'environ 2 à 4 kb. On obtient alors des clones dont on peut étudier les marqueurs et les STS. Pour cela, il est nécessaire de sélectionner les bactéries ayant incorporé le plasmide/insert (la transformation ne présente pas un rendement de 100 %). Des marqueurs de sélection sont utilisés (par exemple, résistance à des antibiotiques et système de couleurs des colonies s'assurant du succès de la transformation). Étant donné le nombre important de bactéries à sélectionner, plusieurs robots sont utilisés. Ils reconnaissent et sélectionnent les bactéries ayant incorporé le plasmide avec l'insert. La connaissance de la carte génétique et des STS facilitent ensuite la sélection des clones à séquencer de manière ordonnée. D'autres robots permettent de récupérer l'ensemble plasmide/insert après culture des bactéries et d'extraire l'ADN de l'ensemble plasmide/insert. Cet ADN est alors amplifié non par PCR mais par rolling circle amplification (RCA). L'ADN est ensuite séquencé à l'aide d'hexamères aléatoires par la technique de Sanger. Cette réaction est également réalisée à l'aide de robots. Les séquences sont ensuite lues par électrophorèse capillaire à l'aide d'automates de séquençage de 384 capillaires. De nombreux fragments sont obtenus et l'analyse informatique regroupe les séquences chevauchantes pour obtenir une séquence continue. Cette séquence, une fois validée, sera la séquence de référence pour d'autres études sur le génome cible. Dans le cas du génome humain, plutôt que des plasmides, ce sont des chromosomes bactériens artificiels appelés bacterial artificial chromosomes (BAC, pouvant contenir des inserts d'une taille allant jusqu'à 300 kb) et parfois des phage artificial chromosomes (PAC, de même capacité) qui ont été utilisés. Ces clones ont ensuite été ordonnés (positionnés les uns par rapport aux autres et le long des chromosomes humains). Pour cela, l'utilisation des profils de restriction, la connaissance de la carte génétique et des STS ainsi que l'étude par hybridation des clones entre eux ont été nécessaires. Le séquençage a alors été réalisé sur les clones chevauchant pour obtenir la séquence humaine de référence. Depuis le séquençage initial du génome à l'aide de la technique shotgun précédemment décrite, d'autres approches similaires ont été développées pour permettre un séquençage plus rapide. Par exemple et schématiquement, après fragmentation de l'ADN et addition d'adaptateurs aux extrémités par ligation, les différents fragments ainsi préparés sont fusionnés ensemble au hasard et forment ainsi une bibliothèque (library) de fragments aléatoires simple brin. Chaque frag-Tableau 2 Recommandations pour l'identification bactérienne par séquençage de l'ARNr 16S [35] . [80] . L'analyse de méthylation du génome et profil de méthylation du génome (méthylome). Le séquençage permet de déterminer la succession des bases sur l'ensemble du génome. L'étude de ce dernier a montré que certes la séquence du génome était fondamentale pour la compréhension de nombreux mécanismes cellulaires mais il demeurait certaines anomalies et particularités génétiques inexpliquées résultant de la structure de ce génome. Schématiquement, elles ont pour origine un ensemble de mécanismes aboutissant à des modifications phénotypiques sans atteinte génotypique. On parle alors d'épigénétique. Il n'y a donc pas d'altération de la séquence de l'ADN (qui est donc normale) mais altération de la structure de ce génome. En ce qui concerne la chromatine, on observe des modifications au niveau des histones et un remodelage des nucléosomes. L'épigénétique joue donc un rôle important. Ces modifications épigénétiques sont étudiés par diverses techniques dont le séquençage. En effet, parmi les modifications observées qu'il nous est impossible de décrire en totalité dans cet article, on retrouve des méthylations de l'ADN sur les cytosines de zones riches en bases GC, zones appelées aussi îlots CpG (plus précisément, une méthylation sur le carbone 5 des cytosines). Ces méthylations jouent un rôle fonctionnel majeur, notamment dans la régulation de l'expression de gènes [6] . Le séquençage est un moyen d'étudier ces méthylations normales ou non. La méthode de Sanger est utilisée après traitement de l'ADN génomique au bisulphite de sodium, technique décrite pour la première fois en 1992 [22] . Ce traitement a été adapté dans un second temps au séquençage par pyroséquençage (voir infra) [75] . Schématiquement, avant amplification du produit à analyser par PCR, l'ADN génomique est traité avec du bisulphite de sodium. Celuici possède la propriété de transformer les cytosines non méthylées en uracile alors que les cytosines méthylées ne sont pas modifiées. Après PCR, l'uracile sera transformé en thymine et le séquençage permettra de distinguer bien évidemment les thymines (correspondant à une cytosine non méthylées sur l'ADN génomique) des cytosines (cytosine méthylée sur l'ADN génomique). Les nouvelles générations de séquenceur (traitées dans la seconde partie de cet article) permettent aussi l'analyse de méthylation du génome. • empêcher un déséquilibre d'amplification entre les locus chromosomiques.

L'amplification du génome doit donc être équilibrée, c'est-à-dire qu'elle doit être quantitativement identique pour chaque région du génome. Parmi les techniques publiées, la plus utilisée est la méthode d'amplification par déplacement multiple également appelée MDA (multiple displacement amplification) décrite pour la première fois en 2002 [13] . À noter pour mémoire que d'autres techniques d'amplification tout génome ont été décrites avant la description de la MDA telles que la préamplificaton par extension d'amorce, primer extension preamplification (PEP) et la PCR à l'aide d'amorces dégénérées, degenerate oligonucleotide primed PCR (DOP-PCR) [74, 79] . Nous ne les décrirons pas. La MDA est basée sur les propriétés particulières d'une ADN polymérase issue d'un bactériophage, le bactériophage 29. Cette enzyme possède trois caractéristiques importantes :

• une activité de polymérisation très rapide ;

• une grande fidélité de recopiage ; • une activité de déplacement de brin.

La première technique utilisant cette enzyme fut décrite en 1998. Il s'agissait d'une technique d'amplification isotherme à partir d'un ADN circulaire, technique appelée aussi amplification par enroulement de cercle ou plus simplement RCA [43] . Cette méthode utilisée par la suite dans d'autres applications permettait l'amplification de courts fragments d'ADN. Une variante de cette technique a ensuite été décrite. En utilisant des amorces hexamères aléatoires (random hexamers) modifiées en 3 par l'addition d'un groupement thiophosphate les protégeant d'une dégradation possible liée à l'activité exonucléasique 3 -5 de la 29 ADN polymérase, il a été démontré qu'on pouvait réaliser une amplification dite hyperbranchée appelée RCA multiamorcée (multiple-primed RCA [MP-RCA]) au court de laquelle de plus grands fragments pouvaient être amplifiés (5 Mb, voire plus) [14] . En 2002, il a été démontré que cette même enzyme pouvait également répliquer des fragments linéaires [13] . Le principe de cette technique WGA est le suivant : des amorces hexamères aléatoires hybrident au hasard et en de nombreuses localisations sur l'ADN cible. La 29 ADN polymérase réplique l'ADN à partir de ces amorces. Au cours de la polymérisation, l'enzyme atteint d'autres sites d'initiation de la réplication, conséquences de l'hybridation des amorces aléatoires et de leur réplication parallèle. Du fait de ses propriétés de déplacement d'ADN double brin, l'enzyme déplace les fragments amplifiés. La réplication continue. L'ADN déplacé sert de nouveau pour l'initiation de la réplication à partir d'autres hexamères aléatoires. L'ensemble donne un aspect d'ADN « hyperbranché » (Fig. 5) . Les fragments d'ADN ainsi obtenu ont une taille moyenne d'environ 10 kb (voire plus). Même des fragments riches en GC (> 80 % GC, zones difficiles à amplifier par PCR) ont été amplifiés avec succès. Cette méthode permet l'analyse d'ADN par de nombreuses techniques de biologie moléculaire dont le séquençage [45] . Comparée à la stratégie actuellement la plus utilisée (extraction d'ADN génomique suivie de PCR, puis séquençage), la stratégie WGA suivie de séquençage permet d'obtenir des résultats identiques [47] . Une publication a démontré qu'en partant d'une quantité d'ADN de 0,3 ng (équivalent à 45 cellules), on obtenait des résultats similaires à ceux obtenus avec des quantités d'ADN nettement supérieures [44] . Une autre étude a comparé la technique d'amplification WGA suivie de PCR, puis de séquençage versus la technique de PCR sur ADN total suivie de séquençage. Une discordance de 9 % a été observée (sujets considérés homozygotes alors qu'ils étaient hétérozygotes) [55] . La discordance observée était probablement liée à la faible quantité d'ADN de départ. Pour limiter ce risque, il a été démontré qu'une dilution de l'ADN amenant à une concentration d'une seule molécule d'ADN (une cellule contient 6 pg d'ADN) suivie de MDA améliorait grandement le résultat après PCR : dans ce dernier exemple, deux méthodes d'amplification étaient synergiquement utilisées [40] . La MDA a également montré son intérêt dans l'étude des micro-organismes. Il a été possible d'amplifier de l'ADN génomique d'une seule spore ou d'une seule bactérie [23, 61] . En pratique, la MDA a démontré sa supériorité sur les autres techniques d'amplification tout génome telle que les techniques PEP et DOP-PCR et représente la méthode de choix pour amplifier de l'ADN génomique dans de nombreuses indications et, plus particulièrement, quand la quantité d'ADN de départ est faible [56, 59] . Il est cependant nécessaire que l'ADN extrait soit de bonne qualité. Ainsi, il faut rester prudent dans l'interprétation après amplification par MDA lorsque des ADN d'archives congelés/décongelés plusieurs fois sont étudiés [12] .

En 1988, une nouvelle technologie basée non pas sur la migration de fragments en électrophorèse mais sur l'hybridation est décrite. Cette technique reprend le principe du Southern blot mais à grande échelle et sur un support miniaturisé. L'idée proposée était de déterminer la fréquence d'hybridation de courtes séquences nucléotidiques à un ADN génomique, d'assembler l'ensemble de ces courtes séquences parfaitement hybridées en une séquence unique et de comparer celles-ci à un ADN de référence [16, 46] . Ce principe a permis le développement des puces d'ADN et de nombreuses applications dont le SBH. Il est impossible de décrire simplement et brièvement cette technique. Par conséquent, nous décrirons schématiquement le principe de la technique, une revue récente sur les puces d'ADN et ses applications ayant été récemment publiée dans cette revue [9] . La fabrication de ces puces et le principe de séquençage qui en découle ont été rendus possibles grâce aux nombreuses avancées réalisées dans des domaines variés tels que la fabrication des puces informatiques (dont découle l'idée de puce d'ADN), les synthèses d'oligonucléotides, la photolithographie, les imprimantes à jet d'encre mais aussi grâce aux progrès de la biologie moléculaire, de l'optique physique, de la robotisation, de l'informatique, des progrès sur la connaissance des génomes et, bien évidemment, grâce à l'application des règles de Watson-Crick pour l'appariement des bases d'ADN. Schématiquement, les puces d'ADN constituent une collection de sondes courtes (oligonucléotides ou oligomères) fixées de manière ordonnée sur un support solide. Le principe général du SBH est basé sur l'idée que de longues séquences d'ADN peuvent être obtenues par le chevauchement de nombreux oligomères spécifiques (courte séquence d'ADN ou sondes) après hybridation entre l'ADN étudié et ces oligomères [71, 73] . Par exemple, avec les trois octamères suivants :

On peut définir l'unique décamère, ATCAGGTCTG. En connaissant la position des oligomères, leur séquence et les résultats de l'hybridation, à l'aide de calculs mathématiques, il est possible de reconstituer la séquence totale du fragment étudié. La longueur optimale des sondes nécessaires pour la fixation de l'ADN cible dépend de la complexité de ce dernier (Fig. 6 et 7) . À titre d'exemple, il a été démontré que l'utilisation de sondes de 11-15 nucléotides fixées sur une surface étaient suffisantes pour l'analyse d'un ADN de 10 9 pb et pouvaient constituer une méthode de choix. Dans ce dernier cas, il a été calculé que 4,2 × 10 6 oligonucléotides de 11 pb étaient nécessaires. Toutefois, un défi consiste en la nécessité de discriminer les duplexes sans misappariement de ceux avec misappariement au cours de l'hybridation. Les premiers résultats furent concluants et encourageants [73] . D'autres études ont suivi. Ainsi, une première détermination du séquençage de l'ADN mitochondrial décrite en 1996 montrait les difficultés rencontrées en appliquant une telle technique [11] . En effet, dans ce travail, un certain nombre de limitations a été observé : nécessité de générer un ARN après transcription in vitro de l'ADN cible, séquençage d'un seul des deux brins et insuffisances du logiciel d'interprétation des données. En 1998, une étape supplémentaire a été franchie avec le séquençage des exons 5 à 8 du gène codant pour le gène p53. Pour séquencer les 2000 kb de l'ADN cible, les auteurs préparèrent 16 384 variants de 7 pb de longueur. Après amplification par PCR de l'ADN cible, celui-ci était hybridé aux sondes fixées sur un support [17] . Les résultats montrèrent cependant que toutes les mutations n'étaient pas mises en évidence (notamment, les délétions et insertions importantes) et que même si les résultats étaient confirmés à 100 % par la méthode de référence pour le séquençage, la méthode de Sanger (le séquençage « classique »), 10 % des sondes n'avaient pas hybridé. Enfin, certaines régions étaient difficilement analysables (par exemple, les régions riches en motifs CA). Les difficultés rencontrées pour ces motifs étaient probablement une conséquence de leur structure secondaire dont les caractéristiques d'hybridation aux sondes étaient modifiées. Une autre étude réalisée en 2000 a comparé les performances des puces de séquençage et la méthode de Sanger [77] . Pour cette étude, les auteurs ont analysé des mutations sur le gène codant pour la p53, l'un des gènes les plus fréquemment mutés dans les cancers (gène sur lequel plus de 600 mutations sont connues). Pour cette étude, la société Affymétrix, spécialisé dans la fabrication de puces d'ADN (DNA chips) a réalisé des puces constituées de 65 000 sondes de 18 pb chacune. À l'aide de ces sondes, l'analyse des exons 2 à 11 du gène a pu être réalisée en étudiant les brins sens et antisens. L'ensemble des sondes permettait l'analyse de la séquence normale et des mutations ponctuelles ainsi que les délétions d'une paire de base, la douzième base en partant de l'extrémité 3 étant la base modifiée (A, C, G, T ou délétion d'1 pb). Par ailleurs, des sondes spécifiques de 300 mutations connues pour ce gène étaient également ajoutées. Dans ce cas, 12 sondes (six en sens et six en antisens) étaient synthétisées pour chaque mutation, la substitution sur chaque sonde étant localisée en différents points de celle-ci. Pour chaque position, il existait donc cinq sondes. Un logiciel et un scanner de puces spécifiques ont permis la lecture, puis l'interprétation des puces. La concordance (résultats identiques) entre la méthode de Sanger et la méthode SBH était de 81 %, avec un avantage pour le séquençage par SBH dont la détection atteint 94 % des mutations versus 87 % pour la méthode de Sanger. Néanmoins, la méthode par SBH n'a pas détecté certaines mutations (six mutations sur les 108 échantillons analysés dans cette étude). Celles-ci correspondaient à des délétions ou des insertions de 3 à 15 pb. Le taux de détections de minidélétions ou -insertions (> 1 pb) est donc moindre dans la technique par SBH. D'autres études comparant la technique SBH à la méthode de Sanger ont retrouvé des résultats similaires [2, 28, 29] . Quelques années plus tard, en 2004, une équipe a décrit le séquençage des 16,5 kb de l'ADN mitochondrial par cette technique. Faisant suite à la première étude réalisée en 1996, cette seconde génération de puce pour le séquençage de l'ADN mitochondrial par SBH a constitué un progrès important. Cette puce appelée Mito-Chip par les auteurs (fabriquée par la société Affymétrix) a permis le séquençage des 29 366 pb incluant l'ADN mitochondrial et les séquences plasmidiques de contrôle servant de contrôle positif d'hybridation. Cette puce contenait les sondes complémentaires des séquences sens et antisens de l'ADN mitochondrial (chaque sonde mesurait 25 pb). Pour détecter une mutation sur l'ADN, seule la treizième base de chaque sonde était modifiée et pouvait être une des quatre bases A, T, G ou C. La quantité d'ADN nécessaire était faible, puisque 300 ng d'ADN ont suffi pour ce séquençage (il faut 100 ng pour une PCR) et le nombre de PCR nécessaires au séquence réduit à trois (pour un séquençage selon la méthode de Sanger, le nombre de PCR est compris entre 12 et 32 selon les analyses). Avant l'hybridation, le produit issu de la longue PCR était fragmenté par une DNase et marqué pour permettre une lecture du fluorophore. Le résultat était aussi bon que ceux obtenus avec la méthode de Sanger, puisque la méthode permette d'obtenir 96 % de la séquence analysable et une reproductibilité de 100 %. Par ailleurs, la méthode a démontre sa grande sensibilité puisque l'étude a permis de montrer que les mutations pouvaient être détectées jusqu'à 2 % d'hétéroplasmie (mélange de mitochondries normales et anormales ; 2 % d'hétéroplasmie signifie ainsi 2 % de mitochondries mutées parmi l'ensemble des mitochondries de la cellule) nettement supérieure à la technique de Sanger (taux de détection de l'hétéroplasmie : environ 10 %) [48] . Le séquençage de l'ADN mitochondriale à l'aide de cette méthode a été repris par la suite dans d'autres études [41] . Elle reste cependant imparfaite (par exemple, dans les zones riches en GC responsables d'artéfacts). Bien entendu, la technique de séquençage par SBH a été décrite dans des domaines autres que la génétique humaine. Dans les années 2000, outre la société Affymétrix, d'autres sociétés se sont crées pour le développement de puces d'ADN et pour certaines, pour le séquençage par SBH. En 2008, une société domine cependant les autres, il s'agit de la société Affymétrix, précurseur dans ce domaine et leader incontesté des puces d'ADN (www.affymetrix.com). À titre d'exemple, la société Affymétrix a développé une puce de séquençage pour l'étude du génome de l'hépatite B [58] ou pour séquencer d'autres virus, par exemple le coronavirus responsable du severe acute respiratory syndrom (SARS) [78] . En pratique, les puces d'ADN pour séquençage ont démontré leur capacité à séquencer un génome, notamment dans le cadre du reséquençage. Cependant, dans cette indication, elles restent encore imparfaites, certaines mutations n'étant pas décelées par les puces, les points sensibles étant :

• les zones riches en GC ; • les délections ou insertions importantes ; • les séquences répétées.

De plus, leur coût important ne permet pas l'utilisation de cette technique en pratique quotidienne. Les puces sont cependant utilisées dans le domaine de la recherche, soit pour le reséquençage soit pour l'étude de variants de bases, les single nucleotide polymorphism (SNP). La société Affymétrix commercialise actuellement des puces permettant l'étude des polymorphismes humains répartis sur l'ensemble du génome (genome wide human SNP array). Cette puce permet l'étude de 1,8 millions de SNP mais aussi permet d'étudier les variations du nombre de copies de segments ; 900 000 variants CNV détectés). Bien qu'il ne s'agisse pas à proprement parler de séquençage mais de la recherche de variants alléliques identifiés, il s'agit d'une technique similaire à la SBH et qui présente probablement un avenir plus prometteur pour les puces d'ADN que la technique par SBH. L'avenir des puces semble donc essentiellement tourné vers l'identification de marqueurs génétiques (génotypage) tels que des SNP ou des CNV ainsi que l'analyse d'expression des gènes plutôt que vers le séquençage proprement dit [5, 9, 26] . Certains auteurs continuent cependant à travailler sur des développements de cette technique, telle que la shotgun-SBH exposée dans la seconde partie [60] .

La méthode polony a été décrite pour la première fois en 1999 pour l'étude de génomes bactériens [53] . Le principe de cette technique consiste à séparer physiquement des fragments d'ADN génomique, puis de les amplifier de telle sorte qu'ils restent séparés (une molécule d'ADN amplifiée par PCR et par colonie) (Fig. 8) . Les produits amplifiés sont appelés polony (abréviation de PCR colony). Le séquençage peut ensuite se faire sur chaque molécule d'ADN individuellement et en parallèle par incorporation d'un dNTP fluorescent. Après addition du dNTP, le fluorophore est clivé (chimiquement ou photochimiquement) et la fluorescence émise recueillie pour analyse informatique. Un second dNTP fluorescent est alors ajouté et le processus se répète ainsi. Ce système de séquençage est aussi appelé séquençage par fluorescence in situ (fluorescence in situ sequencing [FISSEQ] ). Mille à 10 000 molécules peuvent ainsi être séquencées parallèlement et indépendamment. Initialement décrite par immobilisation de l'ADN sur un gel d'acrylamide [52, 54] , cette technique de séparation des molécules d'ADN a inspiré d'autres développements tels que la PCR émulsion et la capture sur billes (voir seconde partie). Il a ainsi été possible de séquencer 30,1 millions pb d'une souche d'E. coli en 2,5 jours avec une précision de 99,7 % [69] .

Cette nouvelle technique a été publiée pour la première fois en 1998 alors que le principe a été décrit en 1985 [1] . Avec les nouveaux automates de séquençage, elle est en train de supplanter progressivement la méthode de Sanger. Il s'agit d'une méthode permettant d'analyser la synthèse d'ADN cible en temps réel. On parle de séquençage par synthèse d'ADN [63] . Le principe de base de la méthode consiste à hybrider une amorce à l'ADN cible (amplifié par PCR), puis à ajouter séquentiellement et dans l'ordre une base à partir de l'extrémité 3 de l'amorce. Chaque base est marquée par un fluorophore différent dont le signal est mesuré par bioluminescence à condition que la base complémentaire de la cible soit incorporée. La séquence est déduite en fonction de l'ordre d'incorporation des nucléotides sur l'ADN complémentaire de la cible néosynthétisée. Quatre enzymes sont nécessaires pour la réaction : une ADN polymérase, une ATP sulfurylase, une luciférase et une apyrase. Le mélange réactionnel contient, par ailleurs, les substrats de ces différentes enzymes : adénosine phosphosulfate (APS), D-luciférine, l'amorce de séquence (complémentaire de l'ADN cible). Les nucléotides alphathio-dATP (dATP-␣S), dCTP, dGTP, dTTP sont ajoutés de manière cyclique un par un, toujours dans le même ordre et successivement. Une caméra CCD mesure le signal de bioluminescence produit ( Fig. 9 et 10 ). Cette méthode performante totalement automatisée permet de séquencer de courts fragments d'ADN (en moyenne, 60 bp pour l'automate commercialisé par Biotage et en moyenne 106 pb sur l'automate 454 commercialisé par Roche), voire, dans certains cas, jusqu'à 200 pb [24] . La limitation du nombre de bases séquencées est liée à l'inhibition progressive de l'apyrase par l'accumulation de déoxymononucléotide phosphate (dNMP) et de son produit intermédiaire le déoxydinucléotide phosphate (dNDP, Fig. 9 ) ou l'élimination incomplète des nucléotides résiduels après lavage [51] . La société suédoise Biotage commercialise des automates de pyroséquençage (www.biotage.com). Cette technique est également utilisée sur d'autres automates de séquence tel que le 454 (société Roche, voir seconde partie). Le pyroséquençage, du fait de la faible longueur des bases pouvant être lues, a eu longtemps une indication limitée dans le séquençage. L'arrivée d'automates, tel que le 454 permettant le séquençage massif parallèle, a permis le développement de cette technique à une échelle bien plus Figure 9 Principe du pyroséquençage. Il s'agit d'une technique d'addition séquentielle de nucléotides en temps réel. Prenons le premier cas de figure où l'automate ajoute la base complémentaire T à l'ADN cible. 1 : l'ADN polymérase ajoute le déoxynucléotide dTTP à l'ADN cible à partir de l'amorce de séquence déjà hybridée. Par cette réaction de polymérisation, un pyrophosphate inorganique (PPi) est libéré. 2 : le pyrophosphate inorganique réagit avec l'APS (adénosine phosphosulfate), substrat de l'enzyme ATP sulfurylase produisant ainsi de l'ATP (adénosine triphosphate). 3 : L'ATP réagit avec un substrat de la luciférase, la D-luciférine aboutissant à la production d'un produit intérmédiaire, la luciférine-AMP. 4 : la luciférine-AMP en présence d'oxygène est transformée immédiatement par la luciférase en oxyluciférine, en CO 2 , en AMP et en un signal lumineux mesuré par la caméra CDD. À noter que dans la réaction de pyroséquençage, la luciférase permet la production de lumière à partir d'ATP. Elle peut aussi en produire à partir de dATP. Ce nucléotide est donc remplacé dans la réaction de pyroséquençage par un nucléotide modifié, le dATP-␣S [60] . 5 : le dTTP en excès non incorporé ainsi que l'ATP sont ensuite dégradés par l'apyrase (sur l'automate de la société Biotage). Dans un autre système de pyroséquençage (automate 454 de la société Roche), la séquence cible est capturée sur des billes et les dNTP et l'ATP non incorporés au cours de la réaction sont éliminés par lavage et non par action d'une apyrase. L'addition d'un autre nucléotide peut avoir lieu. Cette réaction est cruciale. En effet, elle permet de s'assurer que le signal lumineux mesuré correspond au nucléotide spécifiquement ajouté. 6 : l'automate a donc mesuré un signal lumineux pour la base T. La réaction peut se continuer par l'addition d'un autre nucléotide. Lorsqu'un nucléotide non complémentaire est ajouté par l'automate (par exemple, un dATP en regard de la base G de l'ADN cible), celle-ci ne sera pas incorporée par l'ADN polymérase et sera directement dégradée par l'apyrase. Il n'y aura pas de signal lumineux. grande (voir seconde partie). Le pyroséquençage est beaucoup utilisée pour l'étude de variants alléliques, notamment les polymorphismes bialléliques (SNP). Du fait de l'addition séquentielle de bases, lorsque les SNP ne sont pas trop éloignés les un des autres, cette technique permet l'étude directe d'haplotypes (association de plusieurs SNP sur un même chromosome). Il s'agit de la seule technique actuelle capable de déduire un haplotype de l'analyse directe du génome. Cette technique est également appliquée dans le génotypage bactérien et viral ainsi que dans l'analyse de méthylation en épigénétique.

Le séquençage par spectrométrie de masse La spectrométrie de masse a évolué considérablement ces 20 dernières années. Bien que réservée à certains laboratoires de recherche, ses applications en biologie moléculaire sont nombreuses et toujours en évolution. Plusieurs variantes de spectrométrie de masse existent (par exemple, matrix-assisted laser desorption ionization time-of-flight mass spectrometry [MALDI-TOF MS], ionisation par électrospray ou par analyse de Fournier). Bien qu'actuellement abandonné pour le séquençage, nous évoquerons schématiquement le principe du séquençage de la MALDI-TOF MS.

En effet, les recherches sur le séquençage à l'aide de cette technique ont permis de l'améliorer considérablement et de faire évoluer cette technique vers d'autres utilisations en biologie moléculaire [50] . Cette technique, décrite pour la première fois en 1988, a d'abord été rapportée pour l'analyse des protéines. L'analyse des acides nucléiques s'est fait dans un second temps (début des années 1990). Le principe de la méthode de spectrométrie MALDI-TOF est simple. L'ADN cible est séché à température ambiante sur une matrice constituée d'acide hydroxypicolique. Cette substance possède la propriété d'absorber les UV sans interagir avec l'ADN. L'ADN est exposé à de courtes impulsions laser UV (dont l'énergie est absorbée par la matrice) désorbant ainsi l'ADN dans la phase gazeuse (l'ADN sous forme d'ions est expulsé de la matrice). Les ions ADN sont monovalents et l'ADN intact. Juste après la désorption, une impulsion électrique de grande intensité permet l'extraction, puis l'accélération de l'ADN ionisé dans un champs électrique. L'ADN parcourt alors une distance connue dans le vide (dans un tube d'environ 1 m de long) pendant un temps donné (time of flight) et acquiert une certaine énergie cinétique. Le temps relatif pour parcourir cette distance est proportionnel à la masse de la molécule. En fin de parcours, l'ADN rentre en collision avec un Figure 10 Exemple de pyrogramme. En abscisse, en dessous du diagramme, l'addition séquentielle des nucléotides par l'automate. En ordonnée, l'intensité du signal lumineux mesuré. Lorsque plusieurs bases successives sont présentes sur la séquence, le signal mesuré est proportionnel au nombre de bases identiques présentes. Ainsi, lorsque deux G se suivent (séquence « GG »), l'intensité du pic lumineux est double. Lorsque aucune base n'est ajoutée, le nucléotide est dégradé (absence de complémentarité avec la séquence ADN cible) : il n'y a pas de signal lumineux. détecteur mesurant le temps de parcours de la molécule depuis l'impulsion laser de départ. La première description de cette application pour le séquençage consistait à réaliser un séquençage classique par la méthode de Sanger, puis de détecter les molécules par MALDI-TOF, la masse des monobrins séquencés étant détectée (au lieu de les séparer dans un gel comme dans la technique électrophorétique) [27] . Le MALDI-TOF présente certains avantages : il est automatisable et rapide (un spectre est analysé en une milliseconde et en quelques secondes, une centaines de spectres peuvent être obtenus). Le rapport charge/masse mesuré par l'appareil est une propriété de l'ADN monobrin indépendante de sa structure secondaire. En 1996, il était possible de séquencer en moyenne 89 pb [70] . Depuis cette date, des progrès considérables ont été réalisés dans la rapidité et la masse de données analysables alors que le nombre de bases séquencées ne changeait pas, limitant son intérêt. La société Sequenom (www.sequenom.com) s'est spécialisé dans le MALDI-TOF appliqué à la biologie moléculaire. Actuellement, cette technique s'est orientée vers des applications telles que le génotypage ou l'analyse de méthylation, le séquençage ayant été abandonné [80] .

En routine, le séquençage en milieu hospitalier est réalisé sur de l'ADN génomique le plus souvent amplifié par PCR. L'ADN est extrait à partir d'un groupe plus ou moins important de cellules. Le séquençage d'une seule molécule d'ADN représente une technique alternative capable de séquencer une seule molécule d'ADN à la fois (amplifiée ou non au préalable) [4] . Ce principe possède deux avantages : d'abord, il n'est pas nécessaire d'amplifier l'ADN ou, si c'est le cas, peu de cycles d'amplification sont nécessaires, ensuite, le séquençage peut être réalisé en temps réel (absence de cycles répétés ou de succession de réactions enzymatiques). Nous citerons brièvement ces méthodes développées dans la seconde partie : Technique de détection par sonde atomique (scanning probe). Elle utilise un instrument développé pour les nanotechnologies, le microscope par force atomique. La sonde de ce dernier scanne chaque base d'ADN pour en déduire la sequence. Le séquençage par l'exonucléase. Bien que décrite dans les années 1980, cette technique est redevenu d'actualité. Après transcription d'un ADN par incorporation de nucléotides fluorescents (fluorophores spécifique pour chaque nucléotide) à l'aide d'une ADN polymérase, chaque molécule d'ADN est fixée sur un support (bille, par exemple), puis circule dans un microcapillaire où elle est digérée par une exonucléase. Cette enzyme libère séquentiellement chaque nucléotide fluorescent dont la lecture se fait en temps réel dans un canal microfluidique. Le séquençage par synthèse ou cyclic reversible termination (CRT) [64] . Dans cette approche, en parallèle et de manière cyclique, chaque molécule d'ADN est séquencée par addition du nucléotide complémentaire (fluorescent) catalysée par une enzyme. La réaction est suivie en temps réel par une caméra. Chaque nucléotide intégré possède un groupe protecteur qui arrête la synthèse de l'ADN. Le fluorophore est ensuite éliminé ainsi que le groupe protecteur par une autre enzyme. Le cycle peut redémarrer. Quelques sociétés développe ce procédé (par exemple, Pacific Biosciences, www.pacificbiosciences.com ; VisiGen, www.visigen.com). Le séquençage après traversée de nanopores. Une molécule d'ADN traverse un nanopore [62] . Le passage de chaque nucléotide à travers un nanopore (par exemple, une alphahémolysine) soumis à un courant électrique provoque une variation de ce courant nucléotide-dépendant au cours de la traversée du nanopore. Ce principe décrit en 1996 semble prometteur [37] . Cette technique est rapide, ne nécessite pas de réactifs ni d'amplification de l'ADN [62] .

La première séquence connue d'un être vivant date de 1977 : il s'agit génome du bactériophage X174 séquencé par la méthode de Sanger [65] . En 1998, le premier génome d'un animal (en fait, un ver de terre), Caernohabditis elegans, fut publiée [67] . En 1990, un projet considéré comme fou fut initié par les américains : ce projet surnommé Human Genome project (Hugo) avait pour objectif de déterminer la séquence complète de l'ADN génomique humain (contenu dans le noyau de la cellule). Ce projet colossal a duré 13 ans et a réuni plusieurs équipes internationales (la majorité d'entre elles américaines). En parallèle, des instituts publics (d'abord américain, puis rejoint par des institutes européennes et asiatiques) et un institut privé Celera Genomics se lançaient aussi dans cette course. Bien que la stratégie choisie de séquençage Tableau 3 Exemple du séquençage de J. Craig Venter, 62 ans, américain d'origine britannique en bonne santé : quelques données [42] .

Sang total Arbre généalogique présenté sur trois générations [42] . Contrairement à celui de James Watson, celui-ci a été séquencé selon la technique classique de Sanger. Ces deux séquençages individuels constituent une étape majeure vers la médecine personnelle. Par ailleurs, il existe actuellement une compétition entre plusieurs sociétés (par exemple, les sociétés Illumina, Applied Biosystems et 454 Life Sciences) pour réaliser le séquençage de 100 génomes Figure 11 Le séquençage en milieu hospitalier : exemple pratique. 1 : bien que tout type d'échantillon biologique puisse être utilisé, le séquençage d'un sujet est essentiellement réalisé à partir de sang total. Du sang est prélevé dans un tube contenant l'anticoagulant EDTA (anticoagulant qui n'inhibe pas l'ADN polymérase utilisée pour la PCR). De nombreux kits d'extraction d'ADN sont disponibles et permettent une extraction rapide de l'ADN. Lorsque le laboratoire extrait de nombreux échantillons, il peut aussi utiliser un automate d'extraction. L'ARN peut aussi être séquencé après extraction. Dans ce cas, il est nécessaire de le transformer en ADN complémentaire (ADNc) par une réaction de transcription inverse (ou reverse transcription). 2 : pour séquencer l'ADN, ce dernier doit d'abord être amplifié. La polymerase chain reaction (PCR) est la principale technique d'amplification utilisée. La taille des échantillons amplifiés est variable. Selon la zone à amplifier, elle peut aller de 250 pb à 500 pb en moyenne. À titre d'exemple, dans le cas de gènes, il est habituel de séquencer les exons avec leurs jonctions exon/intron, la partie 3 non codante (NC) du gène ainsi que le promoteur. Le nombre de PCR pour un gène varie donc en fonction de la taille de ce dernier. Ainsi, un gène possédant cinq exons pourra avoir au minimum sept PCR (une pour le promoteur, une pour chaque exon [et jonctions exon/intron] et une pour la partie 3 NC). 3 : après PCR, il est le plus souvent nécessaire de purifier le produit d'amplification. Des kits permettent de réaliser cette étape. La réaction de séquençage est ensuite réalisée à l'aide d'autres kits spécifiques. Les recommandations internationales préconisent de séquencer chaque produit amplifié à l'aide d'amorces de séquence sens et antisens. Par conséquent, deux réactions de séquence au minimum sont réalisées pour chaque fragment amplifié. Ces amorces peuvent être les mêmes ou différentes de celles utilisées pour la PCR. Ces réactions ont lieu en général en microplaques (de 96 puits, par exemple). Les réactions de séquence sont ensuite purifiées pour éliminer notamment les désoxynucléotides, les didéoxynucléotides et l'amorce de séquence non incorporés ainsi que l'enzyme. 4 : la microplaque contenant les réactions de séquences purifiées est alors déposé dans un automate de séquence pour permettre la migration des échantillons (par exemple, par électrophorèse capillaire), la lecture se faisant après excitation par un laser. Les signaux sont transmis à un ordinateur qui permet leur interprétation à l'aide d'un logiciel spécifique. Ainsi, avec un séquenceur 16 capillaires, pour des fragments de 350 pb, le temps nécessaire pour la migration d'une plaque de 96 échantillons et son analyse est d'environ 3 heures. 5 : La lecture des séquences est effectuée soit manuellement et visuellement, séquence par séquence, soit à l'aide de logiciel(s) permettant automatiquement la détection de variant(s) (mutation ou polymorphisme) au sein de la séquence. Ces logiciels ne sont pas fiables à 100 %. Il est donc souvent nécessaire de contrôler visuellement les séquences. 

Le projet de séquençage du génome humain qui a duré 13 ans a coûté environ trois milliards de dollars. En 2004, le NIH américain (l'équivalent de l'Inserm aux États-Unis) a lancé un nouveau défi : le génome d'un seul être humain pour un coût total de 1000 dollars [68] . En 2008, l'objectif n'est pas encore atteint. Les séquenceurs de nouvelle génération basés sur l'analyse massive en parallèle de l'ADN semblent prometteurs pour atteindre cet objectif. La seconde partie de cet article exposera les séquenceurs de nouvelle génération. D'autres projets de séquençage de nombreux individus et à prix bas sont en cours de réalisation [36] . Bien qu'encore réservé aux instituts de recherche ayant des moyens financiers considérables, le passage au séquençage total individuel est en passe de devenir une réalité. Une révolution biomédicale est en cours. La seconde partie vous présentera les faits.

Le séquençage du génome humain et d'autres organismes vivants constitue une étape majeure pour comprendre l'organisation des êtres vivants. L'étude du génome humain permet l'élucidation toujours en progrès de notre fonctionnement, de nos différences et de nos similitudes (études des polymorphismes et des variations du nombre de copies dans le génome). Du séquençage sont sorties de nouvelles disciplines biologiques, telles que la génomique, la transcriptomique, la protéomique. . . L'étude des gènes, de leur variabilité, de leur expression, de leur régulation, de leur fonctionnement, de leur organisation participent à la compréhension du vivant et permettront des applications dans le domaine de la santé, de la prévention et des traitements. Le séquençage comparatif de plusieurs génomes humains n'en est qu'à ses débuts [38] . Certains gènes impliqués dans des maladies héréditaires à transmission mendélienne, notamment, étaient déjà connus avant le séquençage du génome humain (le gène CFTR et la mucoviscidose, par exemple). Depuis sa complétion, une foison de gènes impliqués dans de nombreuses pathologies ont été découverts (voir le site Omim pour les maladies à transmission mendélienne, Online mendelian inheritance in men, www.ncbi.nlm.nih.gov/sites/entrez?db=OMIM). Par ailleurs, le projet de séquençage humain et le reséquençage en général ont été possibles grâce à l'essor de la bio-informatique, outil clé de la génomique. L'étude des variabilités humaines au niveau des SNP a permis la réalisation d'une carte des variations génétiques humaines à l'échelle mondiale (projet HapMap, voir le site www.hapmap.org). Le séquençage est donc une méthode fondamentale en médecine humaine et dans de nombreuses autres disciplines biologiques.

En médecine, et plus particulièrement en génétique humaine, le séquençage a permis l'analyse des maladies monogéniques à transmission mendélienne, puis a évolué vers la description de variations dans les maladies polygéniques et multifactorielles. De nombreuses avancées ont déjà été réalisées et les progrès continuent (Tableau 4). Même si certains problèmes ne sont pas encore résolus (Tableau 5), de véritables usines à séquençage ont été mises en place et participent à la connaissance des génomes (humain et autres). L'arrivée du séquençage massif en parallèle permet désormais le séquençage de grands fragments de génome (> 1 Mb) à des prix de plus en plus bas [57] (Tableau 5).

Le séquençage de l'ADN par la méthode de Sanger est actuellement la méthode de choix dans les laboratoires hospitaliers et de recherche (Fig. 11 ). Sans cesse améliorée depuis plus d'une dizaine d'années, elle semble atteindre aujourd'hui ses limites même si des améliorations, notamment la miniaturisation de cette technique sont en développement [20, 21] . Outre les limites technologiques, le coût du séquençage selon cette méthode est encore élevé (Tableau 5). Nous avons évoqué de manière schématique certains aspects des nouvelles technologies en cours de développement. La Fig. 12 résume quelques étapes des progrès du séquençage. La seconde partie de cet article traitera des nouvelles générations de séquenceurs et des révolutions que ces nouvelles machines apportent et apporteront dans un futur proche [7] . Par ailleurs, il est important de noter que l'arrivée dans un futur proche du séquençage tout génome (humain) posera de nombreux problèmes éthiques [10, 34] . Il est aussi important de remarquer que même si le séquençage des génomes quelles que soit leur origine (animale ou non) apporte des informations fondamentales, elles ne suffisent pas à comprendre l'ensemble des phénomènes observés au niveau des interactions moléculaires de la cellule et de son environnement. Parmi les mécanismes agissant sur les génomes, outre l'environnement et d'autres facteurs, les modifications épigénétiques (qui sortent du cadre de cet article) jouent également un rôle fondamental dans l'expression des gènes et le fonctionnement du génome [6] (Tableau 6).

La première séquence humaine d'un être humain clairement identifié, celle de James Watson codécouvreur de l'hélice de l'ADN : http://jimwatsonsequence. 

Pyrosequencing: history, biochemistry and future

Rapid p53 sequence analysis in primary lung cancer using an oligonucleotide probe array

Principes de biologie moléculaire en biologie clinique. Collection Campus Référence Elsevier

Sequencing single molecules of DNA

Array-based DNA diagnostics: let the revolution begin

The methylome: approaches for global DNA méthylation profiling

DNA sequencing: generation next-next

The personal side of genomics

Microarray d'ADN et profils d'expression des gènes. Première partie : concept, fabrication et mise en oeuvre

Research ethics recommendations for whole-genome research: consensus statement

Accessing genetic information with high-density DNA arrays

Performance of whole-genome amplified DNA isolated from serum and plasma on high-density single nucleotide polymorphism arrays

Comprehensive human genome amplification using multiple displacement amplification

Rapid amplification of plasmid and phage DNA using Phi 29 DNA polymerase and multiply-primed rolling circle amplification

Transforming single DNA molecules into fluorescent magnetic particles for detection and enumeration of genetic variations

Sequencing of megabase plus DNA by hybridization: theory of the method

Accurate sequencing by hybridization for DNA diagnostics and individual genomics

Whole-genome random sequencing and assembly of Haemophilus influenzae Rd

How close is close: 16S rRNA sequence identity may not be sufficient to guarantee species identity

What is the future of electrophoresis in large-scale genomic sequencing ? Electrophoresis

Ultrafast DNA sequencing on a microchip by a hybrid separation mechanism that gives 600 bases in 6.5 min

A genomic sequencing protocol that yields a positive display of 5-methylcytosine residues in individual DNA strands

Suitability of genomic DNA synthesized by strand displacement amplification (SDA) for AFLP analysis: genotyping single spores of arbuscular mycorrhizal (AM) fungi

Long-read pyrosequencing using pure 2 -deoxyadenosine-5 -O -(1-thiotriphosphate) Sp-isomer

The nucleotide sequence of the lac operator

Comparing whole genomes using DNA microarrays

Mass spectrometry in DNA analysis

Detection of heterozygous mutations in BRCA1 using high density oligonucleotide arrays and two-colour fluorescence analysis

Evolutionary sequence comparisons using high-density oligonucleotide arrays

Advanced sequencing technologies and their wider impact in microbiology

Comparison of DNA pyrosequencing with alternative methods for identification of mycobacteria

Organic reactions in microemulsions

Uniform amplification of multiple DNAs by emulsion PCR

Keeping pace with the times -The genetic information non-discrimination Act of 2008

16S rRNA gene sequencing for bacterial identification in the diagnostic laboratory: pluses, perils and pitfalls

A plan to capture human diversity in 1000 genomes

Characterization of individual polynucleotide molecules using a membrane channel

Mapping and sequencing of structural variation from eight human genomes

Initial sequencing and analysis of the human genome

Single-cell analysis of loss of heterozygosity at the ATM gene locus in Hodgkin and Reed-Sternberg cells of Hodgkin's lymphoma: ATM loss of heterozygosity is a rare event

Whole mitochondrial genome screening in maternally inherited non-syndromic hearing impairment using a microarray resequencing mitochondrial DNA chip

The diploid genome sequence of an individual human

Mutation detection and single-molecule counting using isothermal rolling-circle amplification

Quantitative evaluation by minisequencing and microarrays reveals accurate multiplexed SNP genotyping of whole genome amplified DNA

Multiple displacement amplification to create long lasting source of DNA for genetic studies

Determination of the nucleotide sequence of DNA using hybridization with oligonucleotides. A new method

Use of multiple displacement amplification to amplify genomic DNA before sequencing of the alpha and beta haemoglobin genes

The Human MitoChip: a high-throughput sequencing microarray for mitochondrial mutation detection

The nucleotide sequence of the lactose messenger ribonucleic acid transcribed from the UV5 promoter mutant of Escherichia coli

New DNA sequencing methods

Analysis of read length limiting factors in Pyrosequencing chemistry

A new method for sequencing DNA

In situ localized amplification and contact replication of many individual DNA molecules

Fluorescent in situ sequencing on polymerase colonies

Assessment of multiple displacement amplification for polymorphism discovery and haplotype determination at a highly polymorphic locus, MC1R

Single-molecule reverse transcription polymerase chain reaction using water-in-oil emulsion

Large scale DNA sequencing: new challenges emerge -The 2007 human genome variation society scientific meeting

Niesters HG. Comparison of reverse hybridization, microarray, and sequence analysis for genotyping hepatitis B virus

Detection and idendification of microorganisms by gene amplification and sequencing

Rapid genome sequencing with short universal tiling probes

Genomic DNA amplification from a single bacterium

Nanopore sequencing technology: research trends and applications

A sequencing method based on real-time pyrophosphate

Toward nanoscale genome sequencing

Nucleotide sequence of bacteriophage phi X174 DNA

Coulson AR DNA sequencing with chain-terminating inhibitors

Sequencing Consortium Genome sequence of the nematode C. elegans Caernahbaditis elegans: a platform for investigating biology

The race for the 1000$ genome

Accurate multiplex polony sequencing of an evolved bacterial genome

Sequence from spectrometry: a realistic prospect

DNA chips: analysing sequence by hybridization to oligonucleotides on a large scale

Taxonomic note: a place for DNA-DNA reassociation and 16S rRNA sequence analysis in the present species definition in bacteriology

DNA sequencing by hybridization: 100 bases read by a non-gel-based method

Degenerate oligonucleotide-primed PCR: general amplification of target DNA by a single degenerate primer

DNA methylation analysis by pyrosequencing

The sequence of the human genome

Comparison of TP53 mutations identified by oligonucleotide microarray and conventional DNA sequence analysis

Tracking the evolution of the SARS coronavirus using high-throughput, high-density resequencing arrays

Whole genome amplification from a single cell: implications for genetic analysis

Toward a new era in sequencing