2050:
2040:
2079:
48:
In its most commonly used form, the corpus consists of 11 files, selected as "average" documents from 11 classes of documents, totaling 2,810,784 bytes as follows.
702:
874:
379:
229:
The
Artificial Corpus, a set of files with highly "artificial" data designed to evoke pathological or worst-case behavior. Last updated 2000 (tar timestamp).
1542:
1353:
740:
1242:
301:
225:
The
University of Canterbury also offers the following corpora. Additional files may be added, so results should be only reported for individual files.
1056:
1748:
1571:
1365:
2120:
274:
1753:
1330:
1483:
68:
1860:
1598:
1537:
1348:
1298:
1121:
966:
981:
867:
311:
284:
1973:
372:
2149:
1983:
1821:
1672:
1591:
1385:
841:
791:
565:
1956:
1576:
1370:
1158:
1089:
583:
1718:
1046:
2053:
674:
2043:
1946:
1488:
860:
550:
2113:
1036:
1031:
365:
1978:
1905:
1743:
1723:
1667:
1325:
1116:
919:
811:
2139:
1988:
1929:
1855:
1703:
1293:
1288:
1143:
1061:
986:
470:
25:
1993:
1566:
1360:
1192:
603:
465:
402:
115:
29:
961:
1934:
1305:
1148:
944:
934:
422:
2106:
1559:
1310:
1094:
939:
544:
540:
532:
528:
506:
502:
494:
490:
486:
482:
478:
475:
1963:
1647:
1109:
1071:
892:
826:
646:
631:
2144:
1878:
1728:
1713:
1682:
1677:
1586:
1493:
1395:
1380:
1163:
831:
412:
1951:
1921:
1900:
1806:
1738:
1632:
1320:
1136:
1126:
1021:
1001:
996:
1532:
40:. The files were selected based on their ability to provide representative performance results.
1895:
1883:
1865:
1733:
1617:
1554:
1400:
1315:
1271:
1232:
914:
801:
588:
575:
307:
280:
154:
2086:
1870:
1826:
1799:
1794:
1769:
1652:
1637:
1547:
1456:
1451:
1426:
1280:
1013:
991:
883:
684:
613:
455:
253:
236:
genome, a King James bible, and the CIA world fact book. Last updated 1997 (tar timestamp).
1789:
1603:
1527:
1508:
1478:
1446:
1412:
971:
909:
836:
786:
664:
598:
555:
460:
2090:
1581:
1375:
1104:
1099:
956:
929:
901:
816:
697:
659:
621:
536:
82:
37:
2133:
1888:
1836:
1503:
1498:
1473:
1405:
1026:
924:
725:
593:
560:
171:
21:
2009:
976:
951:
730:
636:
430:
407:
1968:
1846:
1642:
1518:
1468:
821:
781:
735:
716:
669:
654:
518:
514:
510:
498:
435:
217:
88:
33:
327:
2025:
1816:
1811:
1698:
1657:
1463:
712:
200:
446:
2078:
852:
1939:
1784:
1441:
756:
692:
1708:
1182:
1131:
397:
357:
1222:
167:
232:
The Large Corpus, a set of large (megabyte-size) files. Contains an
2057:
1831:
1662:
1255:
1202:
806:
796:
774:
769:
764:
523:
350:
210:
185:
276:
Managing
Gigabytes: Compressing and Indexing Documents and Images
1212:
1066:
1051:
1041:
129:
101:
856:
361:
1187:
1153:
240:
239:
273:
Ian H. Witten; Alistair Moffat; Timothy C. Bell (1999).
2094:
2018:
2002:
1920:
1845:
1777:
1768:
1691:
1625:
1616:
1517:
1434:
1425:
1341:
1279:
1270:
1172:
1082:
1012:
900:
891:
749:
711:
683:
645:
612:
574:
444:
421:
2114:
868:
373:
8:
24:intended for use as a benchmark for testing
741:The quick brown fox jumps over the lazy dog
28:algorithms. It was created in 1997 at the
2121:
2107:
1774:
1622:
1431:
1276:
897:
875:
861:
853:
380:
366:
358:
306:(Fourth ed.). Springer. p. 12.
303:Data Compression: The Complete Reference
50:
265:
328:"The Canterbury Corpus: Descriptions"
7:
2075:
2073:
243:. Last updated 2000 (tar timestamp).
14:
2077:
2049:
2048:
2039:
2038:
842:1951 USAF resolution test chart
279:. Morgan Kaufmann. p. 92.
1:
2093:. You can help Knowledge by
812:"The North Wind and the Sun"
36:and designed to replace the
594:Trabb Pardo–Knuth algorithm
2166:
2072:
1930:Compressed data structures
1252:RLE + BWT + MTF + Huffman
920:Asymmetric numeral systems
792:functions for optimization
551:Snell & Wilcox SW2/SW4
2034:
1289:Discrete cosine transform
1219:LZ77 + Huffman + context
471:EIA 1956 resolution chart
393:
26:lossless data compression
1994:Smallest grammar problem
604:Just another Perl hacker
466:Indian-head test pattern
403:Reference implementation
30:University of Canterbury
1935:Compressed suffix array
1484:Nyquist–Shannon theorem
584:"Hello, World!" program
423:Artificial intelligence
332:corpus.canterbury.ac.nz
300:Salomon, David (2007).
2150:Computer science stubs
822:SMPTE universal leader
529:Philips circle pattern
1964:Kolmogorov complexity
1832:Video characteristics
1209:LZ77 + Huffman + ANS
2054:Compression software
1648:Compression artifact
1604:Psychoacoustic model
827:EURion constellation
647:3D computer graphics
2044:Compression formats
1683:Texture compression
1678:Standard test image
1494:Silence compression
413:Standard test image
388:Standard test items
20:is a collection of
1952:Information theory
1807:Display resolution
1633:Chroma subsampling
1022:Byte pair encoding
967:Shannon–Fano–Elias
576:Computer languages
143:Excel spreadsheet
2102:
2101:
2067:
2066:
1916:
1915:
1866:Deblocking filter
1764:
1763:
1612:
1611:
1421:
1420:
1266:
1265:
850:
849:
802:Harvard sentences
627:Canterbury corpus
223:
222:
155:Technical writing
18:Canterbury corpus
2157:
2140:Data compression
2123:
2116:
2109:
2087:computer science
2081:
2074:
2052:
2051:
2042:
2041:
1871:Lapped transform
1775:
1653:Image resolution
1638:Coding tree unit
1623:
1432:
1277:
898:
884:Data compression
877:
870:
863:
854:
685:Machine learning
614:Data compression
456:SMPTE color bars
382:
375:
368:
359:
354:
353:
351:Official website
336:
335:
324:
318:
317:
297:
291:
290:
270:
254:Data compression
51:
2165:
2164:
2160:
2159:
2158:
2156:
2155:
2154:
2130:
2129:
2128:
2127:
2070:
2068:
2063:
2030:
2014:
1998:
1979:Rate–distortion
1912:
1841:
1760:
1687:
1608:
1513:
1509:Sub-band coding
1417:
1342:Predictive type
1337:
1262:
1229:LZSS + Huffman
1179:LZ77 + Huffman
1168:
1078:
1014:Dictionary type
1008:
910:Adaptive coding
887:
881:
851:
846:
837:Webdriver Torso
787:EICAR test file
745:
707:
679:
665:Stanford dragon
641:
608:
599:Man or boy test
570:
556:Telefunken FuBK
461:EBU colour bars
440:
417:
389:
386:
349:
348:
345:
340:
339:
326:
325:
321:
314:
299:
298:
294:
287:
272:
271:
267:
262:
250:
46:
12:
11:
5:
2163:
2161:
2153:
2152:
2147:
2142:
2132:
2131:
2126:
2125:
2118:
2111:
2103:
2100:
2099:
2082:
2065:
2064:
2062:
2061:
2046:
2035:
2032:
2031:
2029:
2028:
2022:
2020:
2016:
2015:
2013:
2012:
2006:
2004:
2000:
1999:
1997:
1996:
1991:
1986:
1981:
1976:
1971:
1966:
1961:
1960:
1959:
1949:
1944:
1943:
1942:
1937:
1926:
1924:
1918:
1917:
1914:
1913:
1911:
1910:
1909:
1908:
1903:
1893:
1892:
1891:
1886:
1881:
1873:
1868:
1863:
1858:
1852:
1850:
1843:
1842:
1840:
1839:
1834:
1829:
1824:
1819:
1814:
1809:
1804:
1803:
1802:
1797:
1792:
1781:
1779:
1772:
1766:
1765:
1762:
1761:
1759:
1758:
1757:
1756:
1751:
1746:
1741:
1731:
1726:
1721:
1716:
1711:
1706:
1701:
1695:
1693:
1689:
1688:
1686:
1685:
1680:
1675:
1670:
1665:
1660:
1655:
1650:
1645:
1640:
1635:
1629:
1627:
1620:
1614:
1613:
1610:
1609:
1607:
1606:
1601:
1596:
1595:
1594:
1589:
1584:
1579:
1574:
1564:
1563:
1562:
1552:
1551:
1550:
1545:
1535:
1530:
1524:
1522:
1515:
1514:
1512:
1511:
1506:
1501:
1496:
1491:
1486:
1481:
1476:
1471:
1466:
1461:
1460:
1459:
1454:
1449:
1438:
1436:
1429:
1423:
1422:
1419:
1418:
1416:
1415:
1413:Psychoacoustic
1410:
1409:
1408:
1403:
1398:
1390:
1389:
1388:
1383:
1378:
1373:
1368:
1358:
1357:
1356:
1345:
1343:
1339:
1338:
1336:
1335:
1334:
1333:
1328:
1323:
1313:
1308:
1303:
1302:
1301:
1296:
1285:
1283:
1281:Transform type
1274:
1268:
1267:
1264:
1263:
1261:
1260:
1259:
1258:
1250:
1249:
1248:
1245:
1237:
1236:
1235:
1227:
1226:
1225:
1217:
1216:
1215:
1207:
1206:
1205:
1197:
1196:
1195:
1190:
1185:
1176:
1174:
1170:
1169:
1167:
1166:
1161:
1156:
1151:
1146:
1141:
1140:
1139:
1134:
1124:
1119:
1114:
1113:
1112:
1102:
1097:
1092:
1086:
1084:
1080:
1079:
1077:
1076:
1075:
1074:
1069:
1064:
1059:
1054:
1049:
1044:
1039:
1034:
1024:
1018:
1016:
1010:
1009:
1007:
1006:
1005:
1004:
999:
994:
989:
979:
974:
969:
964:
959:
954:
949:
948:
947:
942:
937:
927:
922:
917:
912:
906:
904:
895:
889:
888:
882:
880:
879:
872:
865:
857:
848:
847:
845:
844:
839:
834:
829:
824:
819:
814:
809:
804:
799:
794:
789:
784:
779:
778:
777:
772:
767:
759:
753:
751:
747:
746:
744:
743:
738:
733:
728:
722:
720:
709:
708:
706:
705:
700:
698:MNIST database
695:
689:
687:
681:
680:
678:
677:
672:
667:
662:
660:Stanford bunny
657:
651:
649:
643:
642:
640:
639:
637:enwik8, enwik9
634:
632:Silesia corpus
629:
624:
622:Calgary corpus
618:
616:
610:
609:
607:
606:
601:
596:
591:
586:
580:
578:
572:
571:
569:
568:
563:
558:
553:
548:
526:
521:
473:
468:
463:
458:
452:
450:
442:
441:
439:
438:
433:
427:
425:
419:
418:
416:
415:
410:
405:
400:
394:
391:
390:
387:
385:
384:
377:
370:
362:
356:
355:
344:
343:External links
341:
338:
337:
319:
312:
292:
285:
264:
263:
261:
258:
257:
256:
249:
246:
245:
244:
237:
230:
221:
220:
214:
208:
204:
203:
197:
194:
190:
189:
183:
180:
176:
175:
165:
162:
158:
157:
152:
149:
145:
144:
141:
138:
134:
133:
127:
124:
120:
119:
113:
110:
106:
105:
99:
96:
92:
91:
86:
80:
76:
75:
72:
66:
62:
61:
58:
55:
45:
42:
38:Calgary corpus
13:
10:
9:
6:
4:
3:
2:
2162:
2151:
2148:
2146:
2143:
2141:
2138:
2137:
2135:
2124:
2119:
2117:
2112:
2110:
2105:
2104:
2098:
2096:
2092:
2089:article is a
2088:
2083:
2080:
2076:
2071:
2059:
2055:
2047:
2045:
2037:
2036:
2033:
2027:
2024:
2023:
2021:
2017:
2011:
2008:
2007:
2005:
2001:
1995:
1992:
1990:
1987:
1985:
1982:
1980:
1977:
1975:
1972:
1970:
1967:
1965:
1962:
1958:
1955:
1954:
1953:
1950:
1948:
1945:
1941:
1938:
1936:
1933:
1932:
1931:
1928:
1927:
1925:
1923:
1919:
1907:
1904:
1902:
1899:
1898:
1897:
1894:
1890:
1887:
1885:
1882:
1880:
1877:
1876:
1874:
1872:
1869:
1867:
1864:
1862:
1859:
1857:
1854:
1853:
1851:
1848:
1844:
1838:
1837:Video quality
1835:
1833:
1830:
1828:
1825:
1823:
1820:
1818:
1815:
1813:
1810:
1808:
1805:
1801:
1798:
1796:
1793:
1791:
1788:
1787:
1786:
1783:
1782:
1780:
1776:
1773:
1771:
1767:
1755:
1752:
1750:
1747:
1745:
1742:
1740:
1737:
1736:
1735:
1732:
1730:
1727:
1725:
1722:
1720:
1717:
1715:
1712:
1710:
1707:
1705:
1702:
1700:
1697:
1696:
1694:
1690:
1684:
1681:
1679:
1676:
1674:
1671:
1669:
1666:
1664:
1661:
1659:
1656:
1654:
1651:
1649:
1646:
1644:
1641:
1639:
1636:
1634:
1631:
1630:
1628:
1624:
1621:
1619:
1615:
1605:
1602:
1600:
1597:
1593:
1590:
1588:
1585:
1583:
1580:
1578:
1575:
1573:
1570:
1569:
1568:
1565:
1561:
1558:
1557:
1556:
1553:
1549:
1546:
1544:
1541:
1540:
1539:
1536:
1534:
1531:
1529:
1526:
1525:
1523:
1520:
1516:
1510:
1507:
1505:
1504:Speech coding
1502:
1500:
1499:Sound quality
1497:
1495:
1492:
1490:
1487:
1485:
1482:
1480:
1477:
1475:
1474:Dynamic range
1472:
1470:
1467:
1465:
1462:
1458:
1455:
1453:
1450:
1448:
1445:
1444:
1443:
1440:
1439:
1437:
1433:
1430:
1428:
1424:
1414:
1411:
1407:
1404:
1402:
1399:
1397:
1394:
1393:
1391:
1387:
1384:
1382:
1379:
1377:
1374:
1372:
1369:
1367:
1364:
1363:
1362:
1359:
1355:
1352:
1351:
1350:
1347:
1346:
1344:
1340:
1332:
1329:
1327:
1324:
1322:
1319:
1318:
1317:
1314:
1312:
1309:
1307:
1304:
1300:
1297:
1295:
1292:
1291:
1290:
1287:
1286:
1284:
1282:
1278:
1275:
1273:
1269:
1257:
1254:
1253:
1251:
1246:
1244:
1241:
1240:
1239:LZ77 + Range
1238:
1234:
1231:
1230:
1228:
1224:
1221:
1220:
1218:
1214:
1211:
1210:
1208:
1204:
1201:
1200:
1198:
1194:
1191:
1189:
1186:
1184:
1181:
1180:
1178:
1177:
1175:
1171:
1165:
1162:
1160:
1157:
1155:
1152:
1150:
1147:
1145:
1142:
1138:
1135:
1133:
1130:
1129:
1128:
1125:
1123:
1120:
1118:
1115:
1111:
1108:
1107:
1106:
1103:
1101:
1098:
1096:
1093:
1091:
1088:
1087:
1085:
1081:
1073:
1070:
1068:
1065:
1063:
1060:
1058:
1055:
1053:
1050:
1048:
1045:
1043:
1040:
1038:
1035:
1033:
1030:
1029:
1028:
1025:
1023:
1020:
1019:
1017:
1015:
1011:
1003:
1000:
998:
995:
993:
990:
988:
985:
984:
983:
980:
978:
975:
973:
970:
968:
965:
963:
960:
958:
955:
953:
950:
946:
943:
941:
938:
936:
933:
932:
931:
928:
926:
923:
921:
918:
916:
913:
911:
908:
907:
905:
903:
899:
896:
894:
890:
885:
878:
873:
871:
866:
864:
859:
858:
855:
843:
840:
838:
835:
833:
830:
828:
825:
823:
820:
818:
817:"Tom's Diner"
815:
813:
810:
808:
805:
803:
800:
798:
795:
793:
790:
788:
785:
783:
782:"Bad Apple!!"
780:
776:
773:
771:
768:
766:
763:
762:
760:
758:
755:
754:
752:
748:
742:
739:
737:
734:
732:
729:
727:
726:Etaoin shrdlu
724:
723:
721:
718:
714:
710:
704:
701:
699:
696:
694:
691:
690:
688:
686:
682:
676:
673:
671:
668:
666:
663:
661:
658:
656:
653:
652:
650:
648:
644:
638:
635:
633:
630:
628:
625:
623:
620:
619:
617:
615:
611:
605:
602:
600:
597:
595:
592:
590:
587:
585:
582:
581:
579:
577:
573:
567:
564:
562:
561:TVE test card
559:
557:
554:
552:
549:
546:
542:
538:
534:
530:
527:
525:
522:
520:
516:
512:
508:
504:
500:
496:
492:
488:
484:
480:
477:
476:BBC Test Card
474:
472:
469:
467:
464:
462:
459:
457:
454:
453:
451:
448:
443:
437:
434:
432:
429:
428:
426:
424:
420:
414:
411:
409:
406:
404:
401:
399:
396:
395:
392:
383:
378:
376:
371:
369:
364:
363:
360:
352:
347:
346:
342:
333:
329:
323:
320:
315:
313:9781846286032
309:
305:
304:
296:
293:
288:
286:9781558605701
282:
278:
277:
269:
266:
259:
255:
252:
251:
247:
242:
238:
235:
231:
228:
227:
226:
219:
215:
212:
209:
206:
205:
202:
198:
195:
192:
191:
187:
184:
181:
178:
177:
173:
172:Paradise Lost
169:
166:
163:
160:
159:
156:
153:
150:
147:
146:
142:
139:
136:
135:
131:
128:
125:
122:
121:
117:
114:
111:
108:
107:
103:
100:
97:
94:
93:
90:
87:
84:
81:
78:
77:
74:English text
73:
70:
67:
64:
63:
59:
56:
53:
52:
49:
43:
41:
39:
35:
31:
27:
23:
19:
2095:expanding it
2084:
2069:
2010:Hutter Prize
1974:Quantization
1879:Compensation
1673:Quantization
1396:Compensation
962:Shannon–Fano
902:Entropy type
731:Hamburgevons
626:
445:Television (
431:Chinese room
408:Sanity check
331:
322:
302:
295:
275:
268:
233:
224:
164:plrabn12.txt
60:Description
54:Size (bytes)
47:
17:
15:
1969:Prefix code
1822:Frame types
1643:Color space
1469:Convolution
1199:LZ77 + ANS
1110:Incremental
1083:Other types
1002:Levenshtein
736:Lorem ipsum
717:filler text
670:Utah teapot
655:Cornell box
436:Turing test
218:manual page
140:kennedy.xls
126:grammar.lsp
89:Shakespeare
34:New Zealand
2145:Test items
2134:Categories
2026:Mark Adler
1984:Redundancy
1901:Daubechies
1884:Estimation
1817:Frame rate
1739:Daubechies
1699:Chain code
1658:Macroblock
1464:Companding
1401:Estimation
1321:Daubechies
1027:Lempel–Ziv
987:Exp-Golomb
915:Arithmetic
713:Typography
260:References
201:executable
151:lcet10.txt
2003:Community
1827:Interlace
1213:Zstandard
992:Fibonacci
982:Universal
940:Canonical
832:Shakedown
447:test card
188:test set
137:1,029,744
57:File name
1989:Symmetry
1957:Timeline
1940:FM-index
1785:Bit rate
1778:Concepts
1626:Concepts
1489:Sampling
1442:Bit rate
1435:Concepts
1137:Sequitur
972:Tunstall
945:Modified
935:Adaptive
893:Lossless
757:3DBenchy
693:ImageNet
248:See also
112:fields.c
83:asyoulik
44:Contents
1947:Entropy
1896:Wavelet
1875:Motion
1734:Wavelet
1714:Fractal
1709:Deflate
1692:Methods
1479:Latency
1392:Motion
1316:Wavelet
1233:LHA/LZH
1183:Deflate
1132:Re-Pair
1127:Grammar
957:Shannon
930:Huffman
886:methods
545:PM 5644
541:PM 5544
537:PM 5540
533:PM 5538
398:Pangram
234:E. coli
179:513,216
161:481,861
148:426,754
132:source
118:source
104:source
98:cp.html
79:125,179
65:152,089
2058:codecs
2019:People
1922:Theory
1889:Vector
1406:Vector
1223:Brotli
1173:Hybrid
1072:Snappy
925:Golomb
310:
283:
199:SPARC
193:38,240
168:Poetry
109:11,150
95:24,603
71:29.txt
2085:This
1849:parts
1847:Codec
1812:Frame
1770:Video
1754:SPIHT
1663:Pixel
1618:Image
1572:ACELP
1543:ADPCM
1533:ÎĽ-law
1528:A-law
1521:parts
1519:Codec
1427:Audio
1366:ACELP
1354:ADPCM
1331:SPIHT
1272:Lossy
1256:bzip2
1247:LZHAM
1203:LZFSE
1105:Delta
997:Gamma
977:Unary
952:Range
807:Lenna
797:GTUBE
761:Acid
750:Other
589:Quine
524:ETP-1
211:xargs
207:4,227
186:CCITT
123:3,721
69:alice
22:files
2091:stub
1861:DPCM
1668:PSNR
1599:MDCT
1592:WLPC
1577:CELP
1538:DPCM
1386:WLPC
1371:CELP
1349:DPCM
1299:MDCT
1243:LZMA
1144:LDCT
1122:DPCM
1067:LZWL
1057:LZSS
1052:LZRW
1042:LZJB
703:List
675:List
566:UEIT
308:ISBN
281:ISBN
216:GNU
182:ptt5
130:LISP
102:HTML
85:.txt
16:The
1906:DWT
1856:DCT
1800:VBR
1795:CBR
1790:ABR
1749:EZW
1744:DWT
1729:RLE
1719:KLT
1704:DCT
1587:LSP
1582:LAR
1567:LPC
1560:FFT
1457:VBR
1452:CBR
1447:ABR
1381:LSP
1376:LAR
1361:LPC
1326:DWT
1311:FFT
1306:DST
1294:DCT
1193:LZS
1188:LZX
1164:RLE
1159:PPM
1154:PAQ
1149:MTF
1117:DMC
1095:CTW
1090:BWT
1062:LZW
1047:LZO
1037:LZ4
1032:842
196:sum
2136::
1724:LP
1555:FT
1548:DM
1100:CM
543:,
539:,
535:,
517:,
513:,
509:,
505:,
501:,
497:,
493:,
489:,
485:,
481:,
330:.
241:pi
213:.1
174:)
32:,
2122:e
2115:t
2108:v
2097:.
2060:)
2056:(
876:e
869:t
862:v
775:3
770:2
765:1
719:)
715:(
547:)
531:(
519:X
515:W
511:J
507:H
503:G
499:F
495:E
491:D
487:C
483:B
479:A
449:)
381:e
374:t
367:v
334:.
316:.
289:.
170:(
116:C
Text is available under the Creative Commons Attribution-ShareAlike License. Additional terms may apply.