s o u r c e : h t t p s : / / d o i . o r g / 1 0 . 7 8 9 2 / b o r i s . 6 0 7 2 7 | d o w n l o a d e d : 6 . 4 . 2 0 2 1   Analysis  of  Variation  Significance  in  1   Artificial  Traditions  Using  Stemmaweb  2   Tara  L  Andrews,  Universität  Bern1  3    4   The  role  of  the  scholar’s  intuition  in  textual  scholarship  is  a  subject  that  has  occasioned  5   impassioned  debate  at  times  over  the  last  century  or  more.  Is  textual  criticism  a  science,  6   or  an  art—should  it  be  pursued  with  methodical  rigor  or  with  intellectual  inspiration?  7   Nowhere  is  this  conflict  more  pointed  than  in  the  sub-­‐field  of  text  stemmatology.  While  8   nearly  all  textual  scholars  agree  that,  particularly  in  the  era  before  the  printing  press,  9   texts  were  copied  and  changed  in  both  intentional  and  unintentional  ways,  not  all  of  10   them  admit  both  the  possibility  and  the  utility  of  deriving  a  stemma  of  its  transmission.  11   Those  who  would  do  so,  either  for  the  purposes  of  text  reconstruction  or  simply  to  study  12   its  history,  must  align  themselves  on  an  ideological  spectrum  that  ranges  from  the  13   superiority  of  human  intellect  and  judgment  represented  by  the  method  of  Lachmann,  to  14   the  wholehearted  embrace  of  empirics  and  statistics  represented  by  phylogenetic  15   methods.        16   Since  the  nineteenth  century,  the  process  of  stemma  construction  has  been  more  17   or  less  codified  and  methodical.  For  all  the  formalization  it  has  undergone,  however,  at  18   the  core  of  stemmatics  there  still  lies  the  question  of  what  role,  precisely,  philological  19   judgment  should  play.  While  modern  computational  methods  allow  philologists  to  delay  20                                                                                                                   1  Email:  firstname.lastname@kps.unibe.ch     Correspondence:  Digital  Humanities,  Muesmattstrasse  45,  CH-­‐3012  Bern.       judgment  until  most  of  the  analysis  is  done  (in  the  case  of  neo-­‐Lachmannian  binary  tree  21   construction)  or  even  to  suspend  it  altogether  (in  the  case  of  purely  phylogenetic  trees  22   presented  as  stemmata),  there  has  been  little  assessment  of  the  positive  difference  that  23   philological  intuition  makes  to  the  recovery  of  the  transmission  history  of  a  text.  24   Here  we  report  on  an  experiment  designed  to  assess  the  weight  that  can  be  given  25   to  philological  judgment  in  three  cases,  all  artificial  traditions  in  which  the  true  stemma  26   of  the  text  is  known.  We  shall  give  an  overview  of  each  of  these  traditions,  discuss  the  27   methods  and  tools  used  for  experimentation,  examine  the  results  that  were  obtained,  28   and  draw  some  general  conclusions.  2  29   Background  30   In  his  recent  study  of  the  development  of  humanistic  method,  Rens  Bod  (Bod,  2013)  31   writes  approvingly  that  ‘stemmatic  philology  appears  to  be  the  only  humanities  32   discipline  to  have  become  a  “normal  science”’.  This  statement  might  come  as  something  33   of  a  surprise  to  stemmatologists,  many  of  whom  are  embroiled  in  an  on-­‐going  conflict  34   between  the  desire  for  empiricism  and  falsifiability  in  stemmatic  method  on  the  one  35   hand,  and  the  belief  on  the  other  hand  that  mechanical  process  simply  cannot  replace  36   human  intuition  as  a  means  to  divine  the  ‘signal’  in  textual  variation  from  the  ‘noise’.  37   The  history  of  textual  criticism  since  roughly  the  time  of  Lachmann  can  certainly  38   be  understood  as  a  story  of  attempts  to  create  Bod’s  “normal  science”—to  formalize  and  39   generalize  the  restoration  of  a  text  into  something  approaching  a  scientific  method  (e.g.  40   Greg,  1927)—  and  reactions  against  these  attempts  by  scholars  who  believed  that  no  41   mechanistic  approach  could  ever  rival  the  work  produced  by  the  intuition  that  a  genuine  42                                                                                                                   2  I  am  very  grateful  to  the  reviewers  of  this  article  for  their  numerous  helpful  comments,   and  in  particular  to  Matthew  Spencer  for  his  suggestions  concerning  statistical  analysis  of  the   results.  Their  feedback  has  vastly  improved  this  paper.     master  of  textual  scholarship  should  possess  (e.g.  Housman,  1921)  or  indeed  who  43   believed  that  stemmatic  methods  tend  to  produce  specious  nonsense  (e.g.  Bédier,  1928).  44   The  middle  ground  after  over  a  century  of  these  debates  is  perhaps  stated  most  45   succinctly  by  West  (1973),  who  explains  how  a  stemma  should  be  created:    46   The  investigator  will  not  put  off  the  question  of  the  interrelationships  of  the  manuscripts  till  he  47   has  finished  collating  them:  he  will  be  considering  it  while  he  collates  them,  forming  and  48   modifying  hypotheses  all  the  time.  This  will  not  only  make  the  work  considerably  more  49   interesting  to  do  (which  will  make  him  more  alert  and  accurate  while  doing  it),  it  will  also  50   shorten  it,  as  will  be  explained  presently.    51   As  the  use  of  cladistic  and  other  phylogenetic  methods  accelerated  in  the  last  52   decades  of  the  twentieth  century,  and  as  software  for  automatic  collation  began  to  be  53   available,  the  prevailing  attitude  changed  again:  many  scholars  today  (Andrews,  2012a;  54   Robinson,  2004;  Wattel,  2004)  have  advocated  best-­‐practice  methods  in  which  the  55   collation  is  produced  before  any  analytical  judgment  is  made  concerning  the  56   relationships  between  the  texts,  on  the  basis  of  all  available  textual  information,  with  as  57   little  human  interference  as  possible  (although  opinion  remains  divided  as  to  whether  58   the  collations  should  be  normalized  for  orthography,  punctuation,  and  so  forth.)  Only  59   when  the  collation  is  finished  should  the  analysis  begin.  This  attitude  is  itself  represents  60   a  shift  in  textual  criticism  back  in  the  direction  of  ‘science’  from  ‘art’,  insofar  as  61   interpretation  is  separated  from  that  which  can  be  done  in  a  mechanical  way  with  62   reasonable  and  undisputed  accuracy.  Even  so,  while  some  scholars  have  wholeheartedly  63   embraced  cladistics  to  such  a  degree  that  they  no  longer  attempt  even  the  orientation  of  64   a  phylogenetic  tree  into  a  more  traditional  stemma,  most  others  prefer  a  ‘happy  65   marriage  of  our  human  philological  judgment  with  the  computing  power  of  our  66   algorithm’  (Roelli  and  Bachmann,  2010).  Cladistic  methods  do  not  make  any  inherent  67     distinction  or  judgment  concerning  the  significance  of  a  variant;  while  arbitrary  68   weightings  can  certainly  be  supplied  by  scholars  to  be  used  in  the  algorithm  (Howe,  69   Connolly,  and  Windram,  2012),  at  present  these  weightings  tend  to  arise  from  70   philological  judgment  rather  than  any  computable  property  of  the  text.  71   Rather  than  simply  the  increasing  separability  of  collatio  and  recensio,  however,  72   Bod  seems  to  draw  his  impression  of  stemmatology-­‐as-­‐a-­‐science  from  multiple  studies  73   that  appeared  in  the  late  1990s  and  early  2000s  (e.g.  Salemans,  1996,  2000;  Schøsler,  74   2004;  Smelik,  2004)  in  which  attempts  were  made  to  derive  formal  categories  of  text  75   variation  and  assign  relative  text-­‐genealogical  weights  to  different  categories.  76   The  most  well-­‐known  of  these  is  the  work  of  Salemans  (2000),  who  proposed  a  77   strict  set  of  formal  guidelines  for  the  categorization  of  textual  variation  and  the  selection  78   of  those  variants  that  should  be  deemed  ‘text-­‐genealogical’,  that  is,  significant  enough  to  79   form  the  basis  for  construction  of  a  text-­‐stemmatic  tree.  Salemans  is  straightforward  80   about  how  he  constructed  these  guidelines.  Some  of  them  are  drawn  from  his  own  81   philological  intuition,  informed  by  the  common  wisdom  of  philologists  who  came  before  82   him,  for  identifying  those  sorts  of  variants  that  are  unlikely  to  occur  by  chance;  others,  83   which  appear  more  strangely  restrictive,  are  meant  to  ensure  that  the  algorithm  he  uses  84   can  draw  up  a  neat  binary  tree,  as  free  of  contradiction  as  possible.    A  few  examples  of  85   these  rules  are  listed  here:  86   • A  place  of  variation  in  the  text  occurs  where  there  are  two  or  more  87   ‘competing’  readings  of  the  text,  while  the  surrounding  readings  agree  in  88   all  text  versions;  these  places  should  be  as  small  as  possible.  89   • A  place  of  variation  suitable  for  the  construction  of  a  stemma  is  one  that  90   contains  exactly  two  competing  variants,  each  attested  by  at  least  two  91   witnesses.  92     • Reordering  of  words  (assuming  the  reordering  is  grammatically  correct)  93   may  be  used  as  a  text-­‐genealogical  variation,  so  long  as  there  are  at  least  94   three  words  being  reordered,  none  of  which  are  adverbs.  95   • Nouns  and  verbs  are  the  most  suitable  types  of  readings  for  creation  of  a  96   stemma.  97   The  primary  concern  of  Salemans  was  to  exclude  the  possibility  (so  far  as  it  can  98   be  done)  that  the  scholar  might  compromise  his  or  her  stemma  by  inadvertently  99   assigning  text-­‐genealogical  significance  to  a  variant  that  in  fact  arose  coincidentally  in  100   parallel  in  unrelated  manuscripts;  in  order  to  avoid  this  possibility,  the  method  tends  to  101   discard  the  vast  majority  of  observed  variation  from  consideration.  102   Cautious  as  it  is,  does  the  method  of  Salemans  work?  He  used  it  to  produce  a  103   plausible  stemma  for  the  text  of  Lanseloet  van  Denemerken,  but  as  Salemans  himself  104   affirms  in  a  long  discussion  of  the  merits  of  deductive  reasoning,  he  has  used  his  own  105   textual  intuition  and  prejudices  to  build  up  a  set  of  rules  for  avoiding  those  very  textual  106   prejudices.  As  Schmid  (2004)  points  out,  this  has  produced  a  result  that  conforms  very  107   nicely  to  the  intuition  by  which  it  is  shaped.  It  is  an  interesting  deductive  experiment  but  108   there  is  little  in  the  way  of  falsifiability  in  the  result.    109   In  the  same  article,  Schmid  observes  that  Salemans  ‘certainly  pinned  down  [the  110   types  of  variant  readings]  that  are  predominantly  suspect  of  accidental  variation’.  In  111   other  words,  Salemans  has  done  an  excellent  job  of  codifying  the  shared  philological  112   common  wisdom  of  his  time;  he  has  not  provided  additional  evidence  that  the  common  113   wisdom  is  actually  justified.  Schmid  goes  on  to  demonstrate  not  only  that  ‘suspected  114   accidental’  variation  is  not  always  coincidental,  but  also  that  variation  that  ought  to  be  115   safely  genealogical  by  the  standard  of  Salemans  is  not  necessarily  so!  This  has  called  into  116   sharp  question  the  reliability  of  philological  common  sense  in  the  first  place.  117     Schmid’s  findings  on  the  potential  significance  of  ‘insignificant’  variance  have  118   been  corroborated  elsewhere  (Blake  and  Thaisen,  2004;  Spencer,  Mooney,  et  al.,  2004);  119   it  is  clear  that,  if  we  discount  these  entirely,  we  are  losing  potentially  valuable  120   information.  What  has  not  so  far  been  tested  in  any  real  way  is  the  philological  judgment  121   that  is  at  the  heart  of  all  the  classification  systems  that  have  been  proposed.    122   Between  2010  and  2012  a  computational  object  model  was  developed,  123   implemented  as  a  Perl  library,  to  represent  a  given  tradition  together  with  the  variation  124   in  its  witnesses  as  an  interlinked  graph;  a  companion  model  was  developed,  again  based  125   conceptually  on  a  graph,  to  represent  arbitrarily  complex  manuscript  transmission.  Use  126   of  these  models  made  it  possible  to  perform  empirical  analysis  on  a  variety  of  stemmata  127   produced  using  different  methods  (Andrews  and  Macé,  2013).  The  models  also  provide  128   the  underlying  framework  for  a  set  of  software  tools  that  were  used  to  perform  the  129   analysis  and  subsequently  made  available  to  other  textual  scholars  for  their  own  use  130   (Andrews,  2012b).  One  tool  allows  the  categorization  and  annotation  of  the  way  in  131   which  individual  variant  readings  are  related,  another  allows  the  specification  of  one  or  132   more  stemma  hypotheses,  and  a  third  performs  an  analysis  and  cross-­‐correlation  of  133   reading  variants  with  their  consequences  for  any  of  the  existing  stemma  hypotheses.  134   The  initial  experiments  conducted  using  these  tools  also  corroborated  the  findings  that  135   ‘insignificant’  variation  was  surprisingly  likely  to  follow  text-­‐genealogical  transmission  136   patterns  in  both  artificial  text  traditions  and  genuine  traditions  for  which  reasonable  137   certainty  of  the  stemma  can  be  had;  we  concluded  that  the  application  of  syntactically-­‐138   based  categories  of  the  sort  that  are  relatively  straightforward  to  identify  automatically  139   using  linguistic  analysis  parsers  (e.g.  spelling  variation,  grammatical  variants  of  the  140   same  word,  variants  that  involve  different  words  fulfilling  the  same  grammatical  141     function,  which  were  termed  ‘lexical’  variants  in  the  tools)  does  not  tend  to  pick  out  the  142   sorts  of  variation  that  are  more  or  less  likely  to  indicate  the  copying  history  of  the  text.  143   With  these  tools  in  place,  however,  and  with  a  set  of  texts  for  which  the  stemma  is  144   known  (such  as  the  corpus  of  artificial  text  traditions),  we  can  instead  attempt  a  much  145   simpler  categorization:  to  indicate  those  variants  which,  in  the  scholarly  judgment  of  a  146   philologist,  are  likely  to  be  stemmatically  significant.  From  there  we  can  assess  the  147   results:  how  often  was  the  philologist  correct,  and  how  often  did  the  copyist  produce  an  148   unexpected  surprise?    149   The  artificial  traditions  150   In  roughly  the  last  decade  there  have  been  a  number  of  ‘artificial  traditions’  made  for  the  151   purposes  of  stemmatological  experimentation;  these  are  texts  that  were  copied  by  152   volunteers,  so  that  the  actual  order  of  transmission  is  known  and  a  true  stemma  can  be  153   drawn.  Three  of  these  were  used  in  the  experiment  described  here.  154   The  first  is  a  French  translation  of  a  Swedish  work,  Notre  besoin  de  consolation  est  155   impossible  à  rassasier.  The  archetype  text,  first  dictated  to  a  non-­‐native  French  speaker  156   and  then  corrected  by  a  native  speaker  without  reference  to  the  printed  edition,  is  1015  157   words  long;  it  has  been  made  available  in  13  copies  from  11  different  hands  (see  Fig.  1  158   for  the  stemma).  One  of  the  texts  was  copied  both  before  and  after  being  mutilated;  the  159   first  of  these  copies  was  itself  copied  before  being  ‘lost’,  and  the  second  used  a  different  160   exemplar  to  replace  the  missing  text.  This  was  done  to  simulate  both  the  loss  of  texts  in  161   a  copying  history  and  the  phenomena  of  ‘contamination’  of  the  stemma.    162   This  tradition  was  created  for  the  comparison  of  several  different  methods  for  163   computational  stemmatology  (Baret,  Macé,  and  Robinson,  2006);  this  experiment  is  the  164   only  one  to  date  for  which  the  results  of  ‘classical’,  non-­‐computational  methods  of  165   stemma  creation  were  included  alongside  the  computational  versions.  In  the  published  166     experiment,  one  of  the  two  non-­‐computational  methods  came  closest  to  reproducing  the  167   true  stemma,  although  the  computational  methods  (none  of  which  are  able  to  infer  the  168   sort  of  contamination  that  was  present  in  the  true  stemma)  were  assessed  on  the  basis  169   of  the  raw  output  of  the  algorithm,  without  any  interpretative  intervention.  The  authors  170   note  that  ‘most  philologists’  were  easily  able  to  observe  the  shift  of  exemplar  from  the  171   collation  alone,  which  suggests  that,  had  the  computational  methods  been  subject  to  172   interpretation,  the  outcome  may  well  have  been  different.  173   T1 T2 A J C U M FS D V * B L  174   Fig.  1:  Stemma  for  the  Notre  besoin  artificial  tradition  175    176     The  second  artificial  tradition  is  an  English  translation  of  a  portion  of  the  177   medieval  German  epic  poem  Parzival.  This  text  is  834  words  long,  copied  by  an  178   unknown  number  of  volunteer  scribes,  and  is  available  in  16  versions  (see  Fig.  2  for  the  179   stemma).  Although  the  text  is  a  little  shorter  than  Notre  besoin,  the  somewhat  archaic  180   language  gave  rise  to  more  frequent  variation  within  copies.  The  Parzival  artificial  text  181   was  used  to  test  the  applicability  of  phylogenetic  methods  from  evolutionary  biology  on  182   textual  data  (Spencer,  Davidson,  Barbrook,  and  Howe,  2004).  No  attempt  to  reconstruct  183   the  stemma  by  hand  was  reported  for  this  experiment.  184   * * * p9 p2 p13 p15 p16 * p8 p11 p5 p10 * p1 p4 p3p6 p7 p14p12  185   Fig.  2:  Stemma  for  the  Parzival  artificial  tradition  186    187   The  third  artificial  tradition  is  a  text  in  Old  Finnish,  Piispa  Henrikin  Surmavirsi.  188   This  text,  also  known  as  the  “Heinrichi”  tradition,  is  roughly  1200  words  long  and  was  189   copied  by  17  volunteer  scribes.  67  copies  were  made,  of  which  47  were  made  available  190   for  analysis  (see  Fig.  3  for  the  stemma).  The  creators  of  this  tradition  wished  to  simulate  191   medieval  copying  conditions  as  far  as  possible  in  the  modern  era;  in  service  to  that  goal  192   they  chose  a  text  in  an  archaic  language  that  was  only  imperfectly  known  to  most  of  193   their  scribes  (speakers  of  the  modern  language),  they  produced  a  far  larger  set  of  194     manuscript  texts,  they  had  some  of  the  volunteers  make  two  or  three  copies  from  195   different  exemplars,  and  several  of  the  copies  were  mutilated  after  the  volunteer  work  196   of  copying  had  finished  to  simulate  damage  to  manuscripts  that  tends  to  occur  over  197   time.  This  tradition  was  the  primary  data  set  used  in  a  ‘computer-­‐assisted  stemmatology  198   challenge’  run  in  2007  (Roos  and  Heikkilä,  2009);  both  the  Notre  besoin  and  the  Parzival  199   artificial  traditions  were  also  provided  to  challenge  entrants.  No  attempt  at  a  stemma  200   reconstruction  by  hand  of  the  Heinrichi  text  was  reported  during  the  challenge.  201   * * * * * * *W Ae S T Ba Be CaO P V F * * N CCd E * Ad Cb Z H X * * Ac CcG * A K L * M Ab Ce R BCf BbBd  202   Fig.  3:  Stemma  for  the  available  texts  of  the  Heinrichi  artificial  tradition  203    204   The  experiment  205   For  each  of  the  artificial  traditions,  a  volunteer  philologist  agreed  to  use  the  Stemmaweb  206   software  (Andrews,  2012b)  to  categorize  the  textual  variants  according  to  whether,  in  207   his  or  her  opinion,  the  variation  was  stemmatically  significant;  in  the  case  of  the  Parzival  208   text,  two  volunteers  were  found.  The  volunteers  were  chosen  both  for  their  experience  209   in  the  practice  of  philological  reconstruction  of  medieval  texts  and  for  their  native  or  210   near-­‐native  familiarity  with  the  language  of  the  text.  If  there  were  more  than  two  211     readings  in  a  variant  location,  then  the  determination  had  to  be  made  for  each  pair  of  212   readings  with  respect  to  each  other  at  that  location.  Since  the  philologist  did  not  consult  213   the  stemma,  it  was  impossible  to  have  any  external  verification  of  which  reading  in  a  set  214   of  variant  readings  came  from  the  archetype,  and  which  were  derivative  readings.      215   The  premise  to  be  tested  is  this:  a  trained  philologist  should  be  able  to  choose  variants  216   as  ‘significant’  that  do,  in  fact,  genealogically  follow  the  true  stemma.  The  converse  is  not  217   true;  the  philologist  should  not  be  expected  to  choose  with  any  certainty  those  variants  218   that  positively  contradict  the  stemma;  to  call  a  variant  ‘insignificant’  merely  means  that  219   it  cannot  be  relied  upon  to  provide  text-­‐genealogical  information.  A  great  many  so-­‐called  220   ‘insignificant’  variations  happen  to  follow  the  stemma  in  all  three  of  the  texts.  221   The  Notre  besoin  and  Parzival  texts  were  not  normalized  in  any  way;  the  Heinrichi  text,  222   due  to  its  sheer  size  and  complexity,  was  normalized  for  spelling.  Since  spelling  variation  223   is  almost  universally  considered  not  to  be  stemmatically  significant,  it  was  felt  that  this  224   normalization  would  not  harm  the  philologist’s  chances  of  choosing  ‘significant’  225   variation.  226     The  Stemmaweb  text  annotation  interface  presents  the  variant  texts  as  a  unified  227   ‘variant  graph’,  in  which  textual  alternatives  are  represented  relative  to  each  other  in  a  228   continuous  presentation  of  the  entire  text  (c.f.  Andrews  and  Macé,  2013;  Dekker,  Hulle,  229   Middell,  Neyt,  and  Zundert,  2014;  Schmidt  and  Colomb,  2009).  The  user  may  create  a  230   relationship  between  two  analogous  reading  nodes,  and  define  several  properties  of  the  231   relationship  (see  Fig.  4).  In  this  case  the  philologist  had  the  option  of  providing  any  or  all  232   of  the  following  information:  233   • How  the  readings  were  related  syntactically  (e.g.  whether  it  was  a  spelling,  234   grammatical,  or  some  other  sort  of  variation;  whether  the  readings  were  variant  235     grammatical  forms;  whether  they  were  different  words  filling  the  same  grammatical  236   role  in  the  sentence).  237   • Whether  the  variation  was  significant  (possible  answers  were  “yes”,  “maybe”,  and  238   “no”.  239   • Whether  the  variation  was  unlikely  to  have  occurred  coincidentally.  240   • Whether  a  scribe,  upon  seeing  reading  A,  might  ‘correct’  it  to  match  reading  B  241   without  reference  to  another  exemplar  (or  vice  versa).  242    243   Fig.  4:  Variant  classification  interface  for  Stemmaweb:  creating  a  relationship  between  the  parallel  244   readings  ‘honour’  and  ‘horror’.  245   There  is  currently  a  deficiency  in  the  Stemmaweb  software,  so  that  there  is  no  246   way  to  indicate  whether  a  gap  (or  addition)  in  the  text  is  stemmatically  significant.  The  247   volunteer  philologists  were  made  aware  of  this  deficiency  at  the  outset  of  the  248   experiment,  and  each  of  them  was  asked  to  keep  a  list  of  which  addition/omission  249   variants  might  be  significant.  Two  such  lists  were  received,  both  for  the  Parzival  text;  for  250   the  other  texts,  the  philologists  working  on  the  texts  simply  stated  guidelines  to  be  251     applied  for  these  variants.  In  both  cases  they  advised  that  they  were  likely  to  be  252   significant,  unless  it  was  purely  a  question  of  easily-­‐replaceable  readings  such  as  253   punctuation.  254   Once  annotated,  the  text  variation  was  compared  against  the  true  stemmas  for  255   each  tradition.  For  this,  the  text  is  subdivided  into  variant  locations—these  are  places  in  256   the  text  where  variation  occurs,  and  in  terms  of  the  graph  a  variant  location  occurs  257   wherever  more  than  one  readings  occurs  at  the  same  rank  (that  is,  the  same  number  of  258   readings  distant  from  the  nearest  shared  prior  reading)  in  the  graph.  In  order  to  avoid  259   artificially  inflating  the  number  of  variants,  each  graph  was  compressed  before  analysis,  260   so  that  individual  sequences  of  readings  that  did  not  vary  between  witnesses,  and  for  261   which  no  individual  relationships  had  been  made  to  parallel  readings,  were  treated  as  a  262   single  reading.  Three  examples  of  a  graph  with  compression  rules  applied  are  given  in  263   Fig.  5.  In    the  example  marked  A,  the  relationship  between  βλασφημίας  and  βλαςφημία  264   prevents  compression,  so  that  βλασφημία[ς]  is  treated  as  one  reading,  and  the  omission  265   of  ἀπορία  in  witness  Q  is  treated  as  a  separate  reading.  In  example  B,  on  the  other  hand,  266   the  entire  phrase  ὡς  οὐκ  οἶδε  is  treated  as  a  single  omission  in  witness  P(a.c.),  and  in  267   example  C  the  two  words  καθαίρει  αὐτὸν  are  treated  as  a  single  reading  with  the  268   alternative  καθεαυτὸν  in  witness  S.  269      270   Fig.  5:  Examples  of  reading  compression  before  analysis.  271    272    For  each  distinct  variant  location  within  the  text,  an  individual  instance  of  273   variation  was  counted  when  one  reading  was  changed  by  one  or  more  copyists  into  a  274   different  reading.  In  the  example  given  in  Fig.  6  for  a  set  of  non-­‐genealogical  variants,  the  275   original  reading  turns  has  been  modified  two  different  ways:  in  witnesses  p10  and  p11  it  276   became  twins,  and  in  witness  p13  it  became  turn.  The  reading  turn  itself  was  modified  277   again,  reverting  to  turns  in  witness  p12.  Three  instances  of  variation  are  thus  counted:  278   turns  -­‐>  twins,  turns  -­‐>  turn,  and  turn  -­‐>  turns.  As  a  result,  coincidental  variation  is  279   counted  as  a  single  instance  of  variation  (turns  -­‐>  twins),  but  the  phenomenon  of  280   reading  reversion,  wherein  a  scribe  uses  his  or  her  intuition  to  correct  the  reading  of  the  281   exemplar  to  match  an  ancestral  reading  that  the  scribe  did  not  personally  see,  is  counted  282   as  two  instances  of  variation  (turns  -­‐>  turn  and  turn  -­‐>  turns).  283   The  analysis  of  variant  locations  against  the  stemma  is  done  using  a  pair  of  graph  284   calculation  programmes  that  were  developed  for  the  purpose  (Andrews  et  al.,  2012);  the  285   programmes  first  determine  whether  the  specific  occurrence  of  readings  can  be  286   explained  by  genealogical  adherence  to  a  given  stemma,  and  then  calculate  the  minimum  287   set  of  manuscripts  (the  ‘roots’)  in  which  each  reading  could  have  independently  arisen  288   (that  is,  without  having  been  copied  directly  from  the  exemplar.)  In  the  calculation,  a  289     particular  reading  is  classified  as  ‘genealogical’  if  and  only  if  there  is  a  single  ‘root’  for  290   the  reading  in  the  stemma;  for  archetypal  readings,  the  ‘root’  will  always  be  the  291   archetype.  No  attempt  was  made  to  detect  potential  reading  reversions;  these  were  292   treated  simply  as  separate  variants.  293   Since  the  philologists  were  working  without  reference  to  a  stemma,  there  are  294   several  pairs  of  variants  that  were  categorized  in  the  interface  but  did  not  occur  in  the  295   final  analysis,  because  there  was  no  instance  of  variation  between  the  readings  that  296   formed  the  pair.  In  our  example  above,  any  categorization  of  the  pair  turn  –  twins  would  297   be  thus  disregarded,  although  the  philologist  may  well  have  expressed  an  opinion,  298   because  according  to  the  stemma  no  copyist  read  ‘turn’  and  wrote  ‘twins’  or  vice  versa.  299    300    301   Fig.  6:  Analysis  of  a  variant  location  in  Parzival.  Three  instances  of  variation  are  recorded:  turns  -­‐>  302   turn  by  witness  p13,  turn  -­‐>  turns  by  witness  p12,  and  turns  -­‐>  twins  by  witnesses  p11  and  p10.  303      304   Results  305   How,  then,  did  our  scholarly  intuition  fare?  Taking  into  account  the  difficulty  with  306   recording  significance  of  addition/omission  variants,  the  traditions  were  analysed  307   according  to  three  different  scenarios:  308   1. Addition/omission  variants  were  excluded  from  the  analysis.  309   2. Additions  were  treated  as  significant  unless  the  added  readings  were  punctuation-­‐310   only,  in  which  case  they  were  treated  as  insignificant.  Deletions  were  treated  as  311   possibly-­‐significant,  unless  they  were  punctuation-­‐only.  In  the  case  of  the  Parzival  312   text,  the  addition/deletion  significance  information  that  was  provided  directly  by  the  313   philologist  was  used  instead.  314   3. Additions  were  treated  as  significant  (except  for  the  Parzival  text),  and  deletions  315   were  excluded  from  analysis.  316    317   As  well  as  the  question  of  additions  and  deletions,  there  was  the  question  of  318   orthographic  normalization  of  the  text.  Due  to  the  sheer  size  of  the  Heinrichi  tradition,  319   the  text  was  normalized  for  spelling  and  punctuation  before  the  experiment  began;  the  320   other  two  traditions  were  not  normalized  beforehand.  In  order  to  provide  an  adequate  321   basis  for  comparison,  the  analysis  for  these  two  texts  was  run  both  with  and  without  322   normalization  in  the  relevant  scenarios.    323   Table  1  shows  the  aggregate  results.  For  each  text  (normalized  or  not)  in  each  324   scenario,  the  number  of  total  variants  assigned  to  each  of  the  significance  values  “yes”,  325   “maybe”,  and  “no”  is  given,  as  well  as  the  number  of  variants  in  each  category  that  were  326   found  to  follow  the  stemma  in  a  genealogical  fashion.  Reading  the  table,  for  instance,  we  327   can  see  that  within  the  non-­‐normalized  Parzival  tradition  there  were  211  variants  in  328     total,  of  which  20  were  deemed  significant  and  51  were  deemed  potentially-­‐significant.  329   13/20  (65%)  of  the  readings  deemed  significant  were  in  fact  genealogical  according  to  330   the  stemma;  31/51  (60.8%)  of  the  readings  deemed  potentially-­‐significant  were  331   genealogical.  332   A  list  of  those  variants  marked  significant  for  each  text  is  given  in  Tables  2–5.  We  333   have  omitted  additions  and  deletions  from  the  list,  as  well  as  “type-­‐1”  variation—this  is  334   a  term  for  variant  locations  in  which  only  a  single  manuscript,  copied  by  no  others,  335   differed  from  the  rest  in  its  reading.  For  each  relationship  link  the  exemplar  and  copy  336   reading  is  listed,  along  with  whether  the  variation  conforms  genealogically  to  the  337   stemma  or  is  an  instance  of  parallel/coincidental  variation.    338   There  was  a  somewhat  surprising  situation  to  be  found  within  the  Notre  besoin  339   data—when  the  text  was  normalized,  the  number  of  variants  counted  went  up  and  the  340   accuracy  went  down.  This  was  due  to  the  set  of  readings  at  rank  47  in  the  graph  (see  Fig.  341   7):  the  potential  variants  included  the  words  “nime”,  “cime”,  “cîme”,  “scime”,  and  an  342   illegible  word  that  was  either  “nime”  or  “scime”.  If  the  two  readings  “cime”  and  “cîme”  343   were  treated  as  separate  variants,  then  the  variants  could  be  arranged  genealogically  on  344   the  stemma  so  that  each  spelling  arose  from  the  reading  in  witness  C;  if,  however,  they  345   were  treated  as  spelling  variants  of  the  same  word,  then  it  was  a  parallel  variation,  in  346   which  witnesses  U  and  S  independently  read  ‘cime’  from  their  exemplars  (A  and  C  347   respectively)!  This  was  an  interesting  specific  counter-­‐example  to  the  prevailing  wisdom  348   that  texts  should  be  normalized  for  orthography  before  analysis.    349      350   Fig.  7:  A  variant  location  that  is  genealogical  only  before  normalization  351    352   Table  1:  Aggregate  results  of  variant  analysis  for  the  three  texts  353   Including addition/deletion assumptions 354   355   356   357   358   359   360   361   362   363   364   365   366   367   368   369   370   371   372   373   374   375   376   377   378   379   380   381   382   383   384   385   386   387   388     Parzival  1   Parzival  1   normalized   Parzival  2   Parzival  2   normalized   Notre   besoin   Notre   besoin   normalized   Heinrichi   normalized   Total  yes   20   19   10   10   22   23   194   Total  maybe   51   43   19   17   22   20   420   Total  no   140   73   185   107   74   43   749   Genealogical  yes   13   12   6   6   16   16   103   Genealogical  maybe   31   24   7   6   16   14   115   Genealogical  no   73   34   103   54   55   32   382    355   Excluding addition/deletion assumptions 356   357   358   359   360   361   362   363   364   365   366   367   368   369   370   371   372   373   374     Parzival  1   Parzival  1   normalized   Parzival  2   Parzival  2   normalized   Notre   besoin   Notre   besoin   normalized   Heinrichi   normalized   Total  yes   13   12   9   9   20   21   83   Total  maybe   32   27   10   8   16   14   0   Total  no   98   32   123   50   43   14   557   Genealogical  yes   9   8   5   5   15   15   68   Genealogical  maybe   18   14   6   5   11   9   0     Genealogical  no   59   21   74   30   31   10   371    357   Excluding only deletion assumptions 358   359   360   361   362   363   364   365   366   367   368   369   370   371   372   373   374   375   376   377   378   379   380   381   382   383   384   385   386   387   388   389   390   391   392   393   394   395   396   397   398   399   400   401   402   403   404   405   406   407     Parzival  1   Parzival  1   normalized   Parzival  2   Parzival  2   normalized   Notre   besoin   Notre   besoin   normalized   Heinrichi   normalized   Total  yes   15   14   9   9   22   23   194   Total  maybe   35   30   11   9   16   14   0   Total  no   112   46   141   68   55   25   629   Genealogical  yes   11   10   5   5   16   16   103   Genealogical  maybe   19   15   7   6   11   9   0   Genealogical  no   65   27   82   38   40   18   382    359    360   Table  2:  List  of  significant  variants  in  Notre  besoin  (excluding  addition/deletion)  361   362   363   364   365   366   367   368    369   370   371   372   373   374   375   376    377   378   379   380   381   382   383   384    385   386   387   388   389   390   391   392    393   394   395   396   397   398   399   400    401   402   403   Text position Genealogical? Exemplar reading Copy reading Note 7 yes Je n'ai Jai 24 yes minspire m'inspirent 24 no m'inspirent minspire Reverted reading 47 yes nime or scime cime 51 yes arche arc 56 yes abandées à bander 68 yes au deu dieu odieux 102 yes avides arides 102 no arides avides Reverted reading 107 yes la cèse l'ascèse 117 yes Perds Prends 121 no joie jour Reverted reading 121 yes jour joie 135 no du au 135 no au du 146 yes tout tour 148 yes coup tour 205 yes des pour 215 yes être humain lézard 217 yes lézard être humain  362    363   Table  3:  List  of  significant  variants  in  Parzival  1  364   365   366   367   368   369   370   371    372   373   374   375   Text position Genealogical? Exemplar reading Copy reading Note 9 yes rue use 9 yes rue see   12 yes clash dash 13 yes where with 45 yes hare horse 53 no reveal several 71 yes Oh OK 124 yes Its His 205 yes rate note 205 no note rate 343 no odd old 403 no cum and 403 yes cum over  365    Table  4:  List  of  significant  variants  in  Parzival  2  366   Text position Genealogical? Exemplar reading Copy reading Note 6 yes heart heat 6 no heat heart Reverted reading 9 yes rue see 45 yes hare horse 53 no reveal several 176 yes is in 205 yes rate note 205 no note rate Reverted reading 407 no cum and  367   Table  5:  List  of  significant  variants  in  Heinrichi  368   Text position Genealogical? Exemplar reading Copy reading Note 247 no wainen nainen 303 yes carcot carkuhun 304 yes gongarita gangista 304 yes gongarita gangistu 304 yes gongarita amvanta 463 yes suin nin 471 yes paljon tuhansia 477 yes enämbi erämki 506 yes cotiani cariani 508 yes pane pahe 511 no ohjat olijat 512 yes suoniset puaniset 517 yes harman harwan 522 yes orhilda ahtialda 524 yes iduilta iavialta 526 yes lihainen likainen 531 yes luocka kuokka 533 yes harjallen haijuillen 534 yes hyvän kywän 534 yes hyvän luocka 540 no aiella siellä 545 yes wiritti wintti 547 yes juoxemahan juotemahan 551 yes laulajtta kaulojtta   551 yes laulajtta laukijitta 556 yes wirguttamahan weigottamahan 556 yes wirguttamahan wingottumahan 559 yes rauta-cahlehisa routa-cahlehisa 561 yes rautainen rantainen 561 yes rautainen tauroinen 562 yes kukersi kaukan 567 yes walcoinen waleoinen 570 no fildin tildin 573 yes njn siju 577 yes wandi wanki 577 yes wandi waneli 600 yes takoa kackoa 600 yes takoa tokra 625 yes pannahinen lallinlainen 631 yes kiukahalda luikahalda 631 yes kiukahalda kirikahalda 632 yes parku lauleli 639 yes wielä sulle 640 yes se olutta 641 yes sun tarjoapi 641 no sun suu 645 yes wielä wiila 646 yes päänsi leiwän 646 yes päänsi päänni 647 yes päristelepi päällystelepi 649 yes sirgotelepi virgotelepi 650 yes heittelepi heittelemi 655 yes kijruhti lähti 658 yes Lalloi Lakoi 659 yes cuin ain 662 yes walehteli certoili 691 yes heitti kejtti 692 yes tuhkia luhkia 696 yes siwui silleni 698 no lahtarinsa lahtaunsa 700 yes pitkän pilkän 707 yes wuoldu wuceldu 722 no suxen suten 726 no siasta piasta 728 yes sitten sinen 728 no sinen sitten Reverted reading 758 yes wandi wouti 760 yes corkuhujnen dorkuhujjnen 765 yes tacoa tuloa 765 yes tacoa taloa 774 no kuhunga kuhunsa 775 yes luuni luuhi 775 yes luuni kuuni 776 yes lendelepi laudelepi 778 no suaneni suoleni 790 no oroin aroin 813 yes Nousiaisten Pargahisten 815 no hieta-cungahan hieta cangahan   820 yes haudattihin handotti 847 yes kewät kewät [850] Transposition 854 no sijne sijtte Reverted reading 854 yes sijtte sijne 1111 no ja jo  369   In  all  texts  but  Heinrichi,  the  philological  determination  of  stemmatic  significance  370   fared  surprisingly  poorly.  If  human  intuition  is  to  be  a  reasonably  reliable  and  accurate  371   tool  for  assessing  variation,  one  would  expect  to  see  a  relatively  much  higher  proportion  372   of  text-­‐genealogical  variation  marked  as  significant  than  as  potentially-­‐significant;  the  373   “maybes”  should  probably,  in  turn,  be  higher  again  than  that  not  marked  as  significant  at  374   all.    375   How,  in  this  instance,  do  we  define  ‘poorly’?  One  way  to  examine  the  data  is  376   through  use  of  a  chi-­‐square  analysis  on  each  of  the  text  scenarios:  if  our  philologists  are  377   successful  at  identifying  genealogical  variation,  we  should  expect  to  find  that  there  is  a  378   positive  correlation  between  ‘genealogical’  and  ‘significant’.  If,  on  the  other  hand,  the  379   philologists  are  not  successful,  we  will  not  be  able  to  demonstrate  the  correlation  with  380   any  degree  of  certainty.  The  chi-­‐square  test  is  not  foolproof,  both  because  the  amount  of  381   variation  classed  significant  is  fairly  low  for  most  of  our  texts,  and  because  it  may  not  be  382   safe  to  assume  that  each  variant  is  entirely  independent  of  the  others  in  whether  or  not  383   it  is  genealogical.  It  can  nevertheless  work  as  a  first  approximation.    384   Table  6  shows  the  results  of  the  chi-­‐square  analysis  across  texts  and  scenarios.  385   The  only  text  to  show  a  strong  correlation  between  ‘significant’  and  ‘genealogical’  is  386   Heinrichi.  In  the  case  where  additions  and/or  deletions  are  included,  however,  this  387   extremely  strong  correlation  is  highly  negative!    These  are  the  scenarios  where  text  388   additions  are  usually  assumed  to  be  significant,  and  deletions  are  usually  assumed  to  be  389   in  the  ‘maybe’  category.  If  we  refer  back  to  the  numbers  in  Table  1,  however,  we  find  390   that  96/186  (51.6%)  of  significant  variants  are  genealogical,  as  compared  to  382/749  391     (51%)  of  insignificant  variants  but  only  115/420  (27.3%)  of  possibly-­‐significant!  In  this  392   case,  the  decision  to  treat  additions  and  deletions  in  this  categorical  manner  has  had  a  393   disastrous  impact  on  the  result.  394   Table  6:  Results  of  chi-­‐square  analysis  across  all  text  scenarios  395   All  variants   Χ2  value   P-­‐value   Parzival  1   1.95   0.38   Parzival  1  normalized   2.06   0.36   Parzival  2   2.60   0.27   Parzival  2  normalized   1.85   0.40   Notre  besoin   0.04   0.98   Notre  besoin  normalized   0.23   0.89   Heinrichi  normalized   75.28   0.00              Excl.  addition/deletion   Χ2  value   P-­‐value   Parzival  1   0.65   0.72   Parzival  1  normalized   1.39   0.50   Parzival  2   0.07   0.96   Parzival  2  normalized   0.09   0.95   Notre  besoin   0.17   0.92   Notre  besoin  normalized   0.24   0.89   Heinrichi  normalized   5.10   0.02              Excl.  deletions   Χ2  value   P-­‐value   Parzival  1   1.63   0.44   Parzival  1  normalized   1.83   0.40   Parzival  2   0.16   0.92   Parzival  2  normalized   0.39   0.82   Notre  besoin   0.10   0.95   Notre  besoin  normalized   0.25   0.88   Heinrichi  normalized   3.38   0.07      396   Once  addition  and  deletion  is  excluded,  the  news  for  Heinrichi  is  much  improved:  397   we  can  say  with  roughly  98%  certainty  that  there  is  indeed  a  positive  correlation  398   between  ‘genealogical’  and  ‘significant’.  For  the  other  two  texts,  the  chi-­‐square  text  399   rather  spectacularly  fails  to  demonstrate  any  correlation  at  all!    400    401     An  objection  to  the  chi-­‐square  test  could  be  raised  here,  however:  the  text  that  402   demonstrated  a  convincing  correlation  also  happens  to  be  the  text  for  which  an  order  of  403   magnitude  more  variation  existed  to  be  analyzed.  The  test  is  not  usually  recommended  404   unless  all  combinations  of  category  contain  at  least  10  instances,  and  that  criterion  is  not  405   quite  met  by  any  of  the  texts  besides  Heinrichi.  In  the  case  of  Parzival  2  in  particular,  the  406   philologist  has  marked  relatively  few  variants  as  significant  at  all.  407   We  might  thus  apply  a  simpler  test:  to  compare  the  success  rates  of  the  408   ‘significant’  and  ‘possibly-­‐significant’  categories  to  the  mean  success  rate  of  the  text  as  a  409   whole.  We  can  treat  this  situation  as  a  binomial  distribution  (with  the  same  caveat  410   concerning  the  independence  of  genealogical  variants),  and  analyze  the  ‘significant’  411   group  as  a  sample  drawn  from  the  whole.  In  this  case,  the  successful  philologist  should  412   have  constructed  a  sample  of  ‘significant’  variants  that  should  have  a  markedly  higher  413   mean  success  rate  than  the  wider  population  of  variants.  (The  same  analysis  can  be  414   performed  on  the  population  of  ‘possibly-­‐significant’  variants,  but  we  would  not  expect  415   such  a  marked  difference  in  the  success  rate,  so  we  omit  that  analysis  here.)  The  specific  416   question  we  ask  is:  what  is  the  probability  that  a  random  sample  of  variants  would  have  417   at  least  the  same  number  of  genealogical  variants  as  our  significant  sample?  418   Table  7  shows  the  results  of  our  binomial  distribution.  In  every  case  except  for  419   that  of  Heinrichi  there  were  fewer  than  15  genealogical  variants  classed  as  significant,  420   the  ‘plus-­‐four’  rule  has  been  applied  to  the  data  in  order  to  compensate  for  the  small  421   sample  size  (Moore,  Craig,  and  McCabe,  2012).  422   Table  7:  ‘Significant’  variants  treated  as  samples  from  a  binomial  distribution  423      424   All  variants     %  mean     genealogical   %  genealogical   significant   Likelihood  of   randomness   Std.   deviation   Parzival  1   55.5%   62.5%   18.5%   0.63   Parzival  1  normalized   51.9%   60.9%   14.1%   0.79   Parzival  2   54.2%   57.1%   31.6%   0.19     Parzival  2  normalized   49.3%   57.1%   19.6%   0.50   Notre  besoin   73.7%   69.2%   62.9%   -­‐0.48   Notre  besoin  normalized   72.1%   66.7%   67.0%   -­‐0.58   Heinrichi  normalized   43.8%   53.1%   0.5%   2.55                      Excl.  addition/deletion     %  mean   genealogical     %  genealogical   significant   Likelihood  of   randomness   Std.   deviation   Parzival  1   60.1%   64.7%   26.8%   0.34   Parzival  1  normalized   60.6%   62.5%   34.6%   0.14   Parzival  2   59.9%   53.8%   57.0%   -­‐0.37   Parzival  2  normalized   59.7%   53.8%   56.6%   -­‐0.36   Notre  besoin   72.2%   70.8%   48.0%   -­‐0.13   Notre  besoin  normalized   69.4%   68.0%   48.5%   -­‐0.14   Heinrichi  normalized   68.6%   81.9%   0.4%   2.38                      Excl.  deletion     %  mean   genealogical     %  genealogical   significant   Likelihood  of   randomness   Std.   deviation   Parzival  1   58.6%   68.4%   13.5%   0.77   Parzival  1  normalized   57.8%   66.7%   15.8%   0.67   Parzival  2   58.4%   53.8%   52.7%   -­‐0.28   Parzival  2  normalized   57.0%   53.8%   48.5%   -­‐0.19   Notre  besoin   72.0%   69.2%   55.3%   -­‐0.29   Notre  besoin  normalized   69.4%   66.7%   54.8%   -­‐0.28   Heinrichi  normalized   58.9%   53.1%   97.4%   -­‐2.03    425   With  this  analysis,  we  can  see  a  differentiation  of  results  between  the  three  texts.  426   The  results  for  Notre  besoin  were  by  far  the  worst:  there  was  no  scenario  where  the  427   variants  treated  as  significant  were  more  likely  than  average  to  be  genealogical.  Both  428   Parzival  texts  fared  slightly  better  when  additions  and  deletions  were  taken  into  429   account;  since  these  were  the  two  texts  for  which  a  positive  list  of  additions  and  430   deletions  were  received,  and  in  light  of  the  overall  small  sample  size,  this  is  not  431   particularly  surprising.  Heinrichi  again  appears  to  be  the  most  convincing  case  of  432   success,  when  additions  and  deletions  are  disregarded;  the  philologist  was  correct  about  433   82%  of  the  time,  as  opposed  to  the  69%  that  random  chance  might  yield.    434    435     Conclusions  436   What  are  we  to  make  of  these  rather  surprising  results?  Above  all  it  is  important  437   to  bear  in  mind  that  the  experiment  was  done  using  artificial  traditions.  Particularly  for  438   the  Notre  besoin  text,  many  of  whose  copyists  were  themselves  philologists,  there  is  a  439   real  risk  that  the  volunteers  consciously  or  semi-­‐consciously  introduced  innovations  440   into  their  copies  in  order  to  make  the  resulting  tradition  “interesting”.    On  the  other  441   hand,  also  in  the  case  of  Notre  besoin,  at  the  time  of  the  original  experiment  a  philologist  442   using  classical  methods  was  able  to  reconstruct  a  stemma  that  was  not  very  different  443   from  the  true  stemma.  Is  this  a  case  of  one  philologist  simply  being  better  than  the  444   other?  While  that  is  possible,  it  is  not  tremendously  likely;  over  70%  of  all  variation  445   within  Notre  besoin  followed  the  stemma,  which  made  its  reconstruction  a  446   comparatively  straightforward  task  no  matter  what  method  was  used.  The  results  of  447   that  experiment  bore  this  out:  they  showed  that  every  one  of  the  attempted  methods,  448   including  the  computational  methods  whose  results  were  not  manipulated  into  a  449   ‘normal’  rooted  stemma,  could  correctly  identify  the  main  manuscript  groupings.  That  450   does  in  itself  raise  another  question:  how  accurate  must  we  be  in  choosing  significant  451   variation  in  order  to  reconstruct  an  accurate  stemma?  Although  none  of  the  volunteers  452   in  this  study  attempted  to  draw  a  stemma,  one  of  the  two  philologists  for  Parzival  453   provided  a  set  of  observations  concerning  which  manuscripts  should  be  grouped  454   together;  these  were  broadly  accurate,  even  though  the  selection  of  individual  455   significant  variants  was  often  wide  of  the  mark;  it  is  also  worth  noting  that  the  456   philologist  quite  often  cited  variants  as  examples  of  group  affinity  that  were  not  judged  457   significant!    458   Compared  to  the  rest,  the  Heinrichi  artificial  tradition  fared  comparatively  well.    459   The  overall  mean  rate  of  genealogical  variation  in  that  text  was  rather  lower  than  in  the  460     other  two  texts,  at  just  under  44%.  The  Heinrichi  corpus  includes  2-­‐3  copies  per  scribe,  461   which  increases  the  possibility  of  horizontal  transmission  (particularly  for  spelling  and  462   grammatical  idiosyncrasies)  in  a  different  way;  on  the  other  hand,  that  tradition  appears  463   to  have  contained  many  more  genuine  errors,  and  the  philologist  who  did  the  work  was  464   accordingly  more  accurate—leaving  aside  the  question  of  additions  and  deletions—in  465   detecting  whether  variation  was  significant.  The  creators  of  Heinrichi  seem  to  have  had  466   more  success  than  the  others  in  creating  a  tradition  that  is  reasonably  close  to  the  ‘real-­‐467   world’  situation  of  a  medieval  text  widely  copied.  468   One  substantial  conclusion  to  be  found  in  the  data,  and  one  that  reinforces  469   findings  made  previously,  is  that  ‘insignificant’  variation  is  really  not  that  insignificant  at  470   all.  We  have  seen  that  some  philologists  prefer  to  exclude  it  entirely;  others  (e.g.  Wattel  471   and  van  Mulken,  1996)  include  the  information  but  give  it  as  low  a  weighting  as  472   possible.  This  experiment,  together  with  several  others,  strongly  suggests  that  our  473   practices  for  handling  this  sort  of  ‘insignificant’  variation  are  in  dire  need  of  revision.  474   A  second  conclusion  concerns  the  effect  of  the  adoption  of  blanket  475   generalizations:  in  this  case,  the  guidelines  from  two  of  the  philologists  for  how  to  476   handle  certain  variants.  They  advised  that,  “in  general”,  additions  and  deletions  should  477   be  treated  in  a  certain  way;  when  these  rules  were  duly  applied  in  a  general  fashion,  the  478   resulting  proportion  of  “significant”  genealogical  variation  was  badly  impacted.  This  479   aspect  of  the  experiment  suggests  that  we  must  be  extremely  careful  before  adopting  480   any  sort  of  rule-­‐based  guideline  for  the  classification  of  variants,  especially  if  the  481   guidelines  are  meant  to  be  applied  in  a  regular  computational  way.  It  is  far  too  easy  to  be  482   led  blindly  into  poor  results.  483   Finally,  this  experiment  makes  clear  that  stemmatology  has  some  way  to  go  484   before  it  can  claim  the  title  of  a  ‘normal  science’  that  Rens  Bod  has  offered.  Our  systems  485     of  categorization  are  suspect;  our  very  philological  sense  of  what  is  or  is  not  significant  486   has  not  fared  as  well  as  we  ought  to  expect  in  the  test  against  artificial  traditions.  We  487   have  more  work  to  do  than  Bod’s  simple  ‘problem-­‐solving’;  we  have  yet  to  capture  in  488   any  formal,  demonstrable,  or  falsifiable  way  the  essence  of  what  scribes  were  likely  to  489   copy  and  what  they  were  likely  to  change.  If  stemmatology  is  indeed  to  become  a  490   science,  this  is  the  next  task  that  needs  to  be  done.  491    492   References  493   Andrews,  T.  L.  (2012a).  The  Third  Way:  Philology  and  Critical  Edition  in  the  494   Digital  Age.  Variants,  10:  1–16.  495   Andrews,  T.  L.  (2012b).  Stemmaweb  -­‐  a  collection  of  tools  for  analysis  of  collated  496   texts.  http://byzantini.st/stemmaweb/  (accessed  18  April  2014).  497   Andrews,  T.  L.,  Blockeel,  H.,  Bogaerts,  B.,  Bruynooghe,  M.,  Denecker,  M.,  De  498   Pooter,  S.,  …  Ramon,  J.  (2012).  Analyzing  manuscript  traditions  using  constraint-­‐based  499   data  mining.  In  CoCoMile  2012  -­‐  COmbining  COnstraint  solving  with  MIning  and  LEarning.  500   Montpellier.  http://cocomile.disi.unitn.it/2012/papers/cocomile2012_manuscript.pdf.  501   Andrews,  T.  L.,  and  Macé,  C.  (2013).  Beyond  the  Tree  of  Texts:  Building  an  502   Empirical  Model  of  Scribal  Variation  through  Graph  Analysis  of  Texts  and  Stemmata.  503   Literary  and  Linguistic  Computing,  28(4):  504–21.  10.1093/llc/fqt032.  504   Baret,  P.,  Macé,  C.,  and  Robinson,  P.  (2006).  Testing  Methods  on  an  Artificially  505   Created  Textual  Tradition.  In  The  Evolution  of  Texts:  Confronting  Stemmatological  and  506   Genetical  Methods.  Pisa;  Rome:  Istituti  Editoriali  e  Poligrafici  Internazionali,  pp.  255–83.  507   Bédier,  J.  (1928).  La  tradition  manuscrite  du  Lai  de  l’Ombre.  Réflexions  sur  l’art  508   d’éditer  les  anciens  textes.  Romania,  54:  161–96,  321–56.  509   Blake,  N.,  and  Thaisen,  J.  (2004).  Spelling’s  Significance  for  Textual  Studies.  510   Nordic  Journal  of  English  Studies,  3(1):  93–108.  (accessed  28  March  2013).  511   Bod,  R.  (2013).  A  New  History  of  the  Humanities:  The  Search  for  Principles  and  512   Patterns  from  Antiquity  to  the  Present.  Oxford  University  Press.  513   Dekker,  R.  H.,  Hulle,  D.  van,  Middell,  G.,  Neyt,  V.,  and  Zundert,  J.  van.  (2014).  514   Computer-­‐supported  collation  of  modern  manuscripts:  CollateX  and  the  Beckett  Digital  515     Manuscript  Project.  Literary  and  Linguistic  Computing,  fqu007.  10.1093/llc/fqu007.  516   Greg,  W.  W.  (1927).  The  calculus  of  variants:  an  essay  on  textual  criticism.  Oxford:  517   Clarendon  press.  518   Housman,  A.  E.  (1921).  The  Application  of  Thought  to  Textual  Criticism.  519   Proceedings  of  the  Classical  Association,  18:  67–84.  520   Howe,  C.  J.,  Connolly,  R.,  and  Windram,  H.  F.  (2012).  Responding  to  Criticisms  521   of  Phylogenetic  Methods  in  Stemmatology.  Studies  in  English  Literature  1500-­‐1900,  522   52(1):  51–67.  10.1353/sel.2012.0008.  523   Moore,  D.  S.,  Craig,  B.  A.,  and  McCabe,  G.  P.  (2012).  Introduction  to  the  practice  524   of  statistics  (7th  ed.,  international  ed.).  New  York:  W.  H.  Freeman.  525   Robinson,  P.  (2004).  Making  electronic  editions  and  the  fascination  of  what  is  526   difficult.  Linguistica  Computazionale,  20–21:  415–38.  527   Roelli,  P.,  and  Bachmann,  D.  (2010).  Towards  Generating  a  Stemma  of  528   Complicated  Manuscript  Traditions:  Petrus  Alfonsi’s  Dialogus.  Revue  d’histoire  des  textes,  529   n.s.  5:  307–21.  530   Roos,  T.,  and  Heikkilä,  T.  (2009).  Evaluating  methods  for  computer-­‐assisted  531   stemmatology  using  artificial  benchmark  data  sets.  Literary  and  Linguistic  Computing,  532   24(4):  417–33.  10.1093/llc/fqp002.  533   Salemans,  B.  J.  P.  (1996).  Cladistics  or  the  Resurrection  of  the  Method  of  534   Lachmann.  In  van  Reenen,  P.  T.,  van  Mulken,  M.,  and  Dyk,  J.  W.  (eds.),  Studies  in  535   Stemmatology.  Amsterdam;  Philadelphia:  Benjamins,  pp.  3–70.  536   Salemans,  B.  J.  P.  (2000).  Building  Stemmas  with  the  Computer  in  a  Cladistic,  Neo-­‐537   Lachmannian,  Way:  The  Case  of  Fourteen  Text  Versions  of  Lanseloet  van  Denemerken.  538   Ph.D.  thesis,  Katholieke  Universiteit  Nijmegen.  539   Schmid,  U.  (2004).  Genealogy  by  chance!  On  the  significance  of  accidental  540   variation  (parallelisms).  In  van  Reenen,  P.  T.,  den  Hollander,  A.,  and  van  Mulken,  M.  541   (eds.),  Studies  in  Stemmatology  II.  Amsterdam:  Benjamins,  pp.  127–43.  542   Schmidt,  D.,  and  Colomb,  R.  (2009).  A  data  structure  for  representing  multi-­‐543   version  texts  online.  International  Journal  of  Human-­‐Computer  Studies,  67:  497–514.  544   Schøsler,  L.  (2004).  Scribal  variations:  When  are  they  genealogically  relevant—545   and  when  are  they  to  be  considered  as  instances  of  “mouvance”?  In  van  Reenen,  P.  T.,  546   den  Hollander,  A.,  and  van  Mulken,  M.  (eds.),  Studies  in  Stemmatology  II.  Amsterdam:  547   Benjamins,  pp.  207–26.  548   Smelik,  W.  F.  (2004).  Trouble  in  the  trees!  Variant  selection  and  tree  549     construction  illustrated  by  the  texts  of  Targum  Judges.  In  van  Reenen,  P.  T.,  den  550   Hollander,  A.,  and  van  Mulken,  M.  (eds.),  Studies  in  Stemmatology  II.  Amsterdam:  551   Benjamins,  pp.  167–206.  552   Spencer,  M.,  Davidson,  E.  A.,  Barbrook,  A.  C.,  and  Howe,  C.  J.  (2004).  553   Phylogenetics  of  Artificial  Manuscripts.  Journal  of  Theoretical  Biology,  227:  503–11.  554   Spencer,  M.,  Mooney,  L.,  Barbrook,  A.,  Bordalejo,  B.,  Howe,  C.  J.,  and  555   Robinson,  P.  (2004).  The  effects  of  weighting  kinds  of  variants.  In  van  Reenen,  P.  T.,  den  556   Hollander,  A.,  and  van  Mulken,  M.  (eds.),  Studies  in  Stemmatology  II.  Amsterdam:  557   Benjamins,  pp.  227–39.  558   Wattel,  E.  (2004).  Constructing  initial  binary  trees  in  stemmatology.  In  van  559   Reenen,  P.  T.,  den  Hollander,  A.,  and  van  Mulken,  M.  (eds.),  Studies  in  Stemmatology  II.  560   Amsterdam:  Benjamins,  pp.  145–65.  561   Wattel,  E.,  and  van  Mulken,  M.  (1996).  Weighted  Formal  Support  of  a  Pedigree.  562   In  van  Reenen,  P.  T.,  van  Mulken,  M.,  and  Dyk,  J.  W.  (eds.),  Studies  in  Stemmatology.  563   Amsterdam;  Philadelphia:  Benjamins,  pp.  135–68.  564   West,  M.  L.  (1973).  Textual  Criticism  and  Editorial  Technique:  Applicable  to  Greek  565   and  Latin  Texts.  Stuttgart:  B.  G.  Teubner.  566    567   1