JAL-3725 fix tests for EMBLFlatFile parser when mapping doesn’t include stop codon
[jalview.git] / test / jalview / io / EmblFlatFileTest.java
index 949e0a2..2465f27 100644 (file)
@@ -3,9 +3,9 @@ package jalview.io;
 import static org.testng.Assert.assertEquals;
 import static org.testng.Assert.assertTrue;
 import static org.testng.AssertJUnit.assertNotNull;
+import static org.testng.AssertJUnit.assertNull;
 import static org.testng.AssertJUnit.assertSame;
 import static org.testng.AssertJUnit.fail;
-import static org.testng.AssertJUnit.assertNull;
 
 import java.io.File;
 import java.io.IOException;
@@ -14,11 +14,12 @@ import java.util.Arrays;
 import java.util.List;
 import java.util.Set;
 
+import org.testng.annotations.BeforeClass;
 import org.testng.annotations.Test;
 
+import jalview.bin.Cache;
 import jalview.datamodel.DBRefEntry;
 import jalview.datamodel.Mapping;
-import jalview.datamodel.Sequence.DBModList;
 import jalview.datamodel.SequenceFeature;
 import jalview.datamodel.SequenceI;
 import jalview.datamodel.features.SequenceFeatures;
@@ -26,6 +27,12 @@ import jalview.util.MapList;
 
 public class EmblFlatFileTest
 {
+  @BeforeClass(alwaysRun = true)
+  public void setUp()
+  {
+    Cache.initLogger();
+  }
+
   /**
    * A fairly tough test, using J03321 (circular DNA), which has 8 CDS features,
    * one of them reverse strand
@@ -37,7 +44,7 @@ public class EmblFlatFileTest
   public void testParse() throws MalformedURLException, IOException
   {
     File dataFile = new File("test/jalview/io/J03321.embl.txt");
-    FileParse fp = new FileParse(dataFile, DataSourceType.FILE);
+    FileParse fp = new FileParse(dataFile.getAbsolutePath(), DataSourceType.FILE);
     EmblFlatFile parser = new EmblFlatFile(fp, "EmblTest");
     parser.parse();
     List<SequenceI> seqs = parser.getSeqs();
@@ -127,7 +134,8 @@ public class EmblFlatFileTest
      * (some e.g. INTERPRO are duplicates). Jalview adds a dbref to 'self'.
      * Sample a few here. Note DBRefEntry constructor capitalises source.
      */
-    List<DBRefEntry> dbrefs = seq.getDBRefs();
+    List<DBRefEntry> dbrefs = Arrays.asList(seq.getDBRefs());
+
     assertEquals(dbrefs.size(), 32);
     // xref to 'self':
     DBRefEntry selfRef = new DBRefEntry("EMBLTEST", "1", "J03321");
@@ -165,7 +173,7 @@ public class EmblFlatFileTest
         {
           assertEquals((ranges = map.getFromRanges()).size(), 1);
           assertEquals(ranges.get(0)[0], 1579);
-          assertEquals(ranges.get(0)[1], 2934);
+          assertEquals(ranges.get(0)[1], 2931);
           assertEquals((ranges = map.getToRanges()).size(), 1);
           assertEquals(ranges.get(0)[0], 1);
           assertEquals(ranges.get(0)[1], 451);
@@ -177,7 +185,7 @@ public class EmblFlatFileTest
         {
           assertEquals((ranges = map.getFromRanges()).size(), 1);
           assertEquals(ranges.get(0)[0], 2928);
-          assertEquals(ranges.get(0)[1], 3992);
+          assertEquals(ranges.get(0)[1], 3989);
           assertEquals((ranges = map.getToRanges()).size(), 1);
           assertEquals(ranges.get(0)[0], 1);
           assertEquals(ranges.get(0)[1], 354);
@@ -186,7 +194,7 @@ public class EmblFlatFileTest
         {
           assertEquals((ranges = map.getFromRanges()).size(), 1);
           assertEquals(ranges.get(0)[0], 4054);
-          assertEquals(ranges.get(0)[1], 4848);
+          assertEquals(ranges.get(0)[1], 4845);
           assertEquals((ranges = map.getToRanges()).size(), 1);
           assertEquals(ranges.get(0)[0], 1);
           assertEquals(ranges.get(0)[1], 264);
@@ -198,7 +206,7 @@ public class EmblFlatFileTest
           assertEquals(ranges.get(0)[0], 7022);
           assertEquals(ranges.get(0)[1], 7502);
           assertEquals(ranges.get(1)[0], 1);
-          assertEquals(ranges.get(1)[1], 437);
+          assertEquals(ranges.get(1)[1], 434);
           assertEquals((ranges = map.getToRanges()).size(), 1);
           assertEquals(ranges.get(0)[0], 1);
           assertEquals(ranges.get(0)[1], 305);
@@ -208,7 +216,7 @@ public class EmblFlatFileTest
           // complement(488..1480)
           assertEquals((ranges = map.getFromRanges()).size(), 1);
           assertEquals(ranges.get(0)[0], 1480);
-          assertEquals(ranges.get(0)[1], 488);
+          assertEquals(ranges.get(0)[1], 491);
           assertEquals((ranges = map.getToRanges()).size(), 1);
           assertEquals(ranges.get(0)[0], 1);
           assertEquals(ranges.get(0)[1], 330);
@@ -242,10 +250,14 @@ public class EmblFlatFileTest
   public void testParse_noUniprotXref() throws IOException
   {
     // MN908947 cut down to 40BP, one CDS, length 5 peptide for test purposes
+    // plus an additional (invented) test case:
+    // - multi-line /product qualifier including escaped quotes
     String data = "ID   MN908947; SV 3; linear; genomic RNA; STD; VRL; 20 BP.\n"
             + "DE   Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1,\n"
             + "FT   CDS             3..17\n"
             + "FT                   /protein_id=\"QHD43415.1\"\n"
+            + "FT                   /product=\"orf1ab polyprotein\n"
+            + "FT                   \"\"foobar\"\" \"\n"
             + "FT                   /translation=\"MRKLD\n"
             + "SQ   Sequence 7496 BP; 2450 A; 1290 C; 1434 G; 2322 T; 0 other;\n"
             + "     ggatGcgtaa gttagacgaa attttgtctt tgcgcacaga        40\n";
@@ -255,7 +267,7 @@ public class EmblFlatFileTest
     List<SequenceI> seqs = parser.getSeqs();
     assertEquals(seqs.size(), 1);
     SequenceI seq = seqs.get(0);
-    DBModList<DBRefEntry> dbrefs = seq.getDBRefs();
+    List<DBRefEntry> dbrefs = Arrays.asList(seq.getDBRefs());
 
     /*
      * dna should have dbref to itself, and to inferred EMBLCDSPROTEIN:QHD43415.1
@@ -283,6 +295,8 @@ public class EmblFlatFileTest
     mapping = dbref.getMap();
     SequenceI mapTo = mapping.getTo();
     assertEquals(mapTo.getName(), "QHD43415.1");
+    // the /product qualifier transfers to protein product description
+    assertEquals(mapTo.getDescription(), "orf1ab polyprotein \"foobar\"");
     assertEquals(mapTo.getSequenceAsString(), "MRKLD");
     map = mapping.getMap();
     assertEquals(map.getFromLowest(), 3);
@@ -298,11 +312,12 @@ public class EmblFlatFileTest
   {
     int[] exons = new int[] { 11, 15, 21, 25, 31, 38 }; // 18 bp
 
+    int[] exons_nostop = new int[] { 11, 15, 21, 25, 31, 35 }; // 15 bp
     // exact length match:
     assertSame(exons, EmblFlatFile.adjustForProteinLength(6, exons));
 
-    // match if we assume exons include stop codon not in protein:
-    assertSame(exons, EmblFlatFile.adjustForProteinLength(5, exons));
+    // trimmed if we assume exons include stop codon not in protein:
+    assertEquals(Arrays.toString(exons_nostop), Arrays.toString(EmblFlatFile.adjustForProteinLength(5, exons)));
 
     // truncate last exon by 6bp
     int[] truncated = EmblFlatFile.adjustForProteinLength(4, exons);
@@ -321,4 +336,13 @@ public class EmblFlatFileTest
     truncated = EmblFlatFile.adjustForProteinLength(7, exons);
     assertSame(exons, truncated);
   }
+
+  @Test(groups = "Functional")
+  public void testRemoveQuotes()
+  {
+    assertNull(EmblFlatFile.removeQuotes(null));
+    assertEquals(EmblFlatFile.removeQuotes("No quotes here"), "No quotes here");
+    assertEquals(EmblFlatFile.removeQuotes("\"Enclosing quotes\""), "Enclosing quotes");
+    assertEquals(EmblFlatFile.removeQuotes("\"Escaped \"\"quotes\"\" example\""), "Escaped \"quotes\" example");
+  }
 }