Knowledge

Canterbury corpus

Source đź“ť

2050: 2040: 2079: 48:
In its most commonly used form, the corpus consists of 11 files, selected as "average" documents from 11 classes of documents, totaling 2,810,784 bytes as follows.
702: 874: 379: 229:
The Artificial Corpus, a set of files with highly "artificial" data designed to evoke pathological or worst-case behavior. Last updated 2000 (tar timestamp).
1542: 1353: 740: 1242: 301: 225:
The University of Canterbury also offers the following corpora. Additional files may be added, so results should be only reported for individual files.
1056: 1748: 1571: 1365: 2120: 274: 1753: 1330: 1483: 68: 1860: 1598: 1537: 1348: 1298: 1121: 966: 981: 867: 311: 284: 1973: 372: 2149: 1983: 1821: 1672: 1591: 1385: 841: 791: 565: 1956: 1576: 1370: 1158: 1089: 583: 1718: 1046: 2053: 674: 2043: 1946: 1488: 860: 550: 2113: 1036: 1031: 365: 1978: 1905: 1743: 1723: 1667: 1325: 1116: 919: 811: 2139: 1988: 1929: 1855: 1703: 1293: 1288: 1143: 1061: 986: 470: 25: 1993: 1566: 1360: 1192: 603: 465: 402: 115: 29: 961: 1934: 1305: 1148: 944: 934: 422: 2106: 1559: 1310: 1094: 939: 544: 540: 532: 528: 506: 502: 494: 490: 486: 482: 478: 475: 1963: 1647: 1109: 1071: 892: 826: 646: 631: 2144: 1878: 1728: 1713: 1682: 1677: 1586: 1493: 1395: 1380: 1163: 831: 412: 1951: 1921: 1900: 1806: 1738: 1632: 1320: 1136: 1126: 1021: 1001: 996: 1532: 40:. The files were selected based on their ability to provide representative performance results. 1895: 1883: 1865: 1733: 1617: 1554: 1400: 1315: 1271: 1232: 914: 801: 588: 575: 307: 280: 154: 2086: 1870: 1826: 1799: 1794: 1769: 1652: 1637: 1547: 1456: 1451: 1426: 1280: 1013: 991: 883: 684: 613: 455: 253: 236:
genome, a King James bible, and the CIA world fact book. Last updated 1997 (tar timestamp).
1789: 1603: 1527: 1508: 1478: 1446: 1412: 971: 909: 836: 786: 664: 598: 555: 460: 2090: 1581: 1375: 1104: 1099: 956: 929: 901: 816: 697: 659: 621: 536: 82: 37: 2133: 1888: 1836: 1503: 1498: 1473: 1405: 1026: 924: 725: 593: 560: 171: 21: 2009: 976: 951: 730: 636: 430: 407: 1968: 1846: 1642: 1518: 1468: 821: 781: 735: 716: 669: 654: 518: 514: 510: 498: 435: 217: 88: 33: 327: 2025: 1816: 1811: 1698: 1657: 1463: 712: 200: 446: 2078: 852: 1939: 1784: 1441: 756: 692: 1708: 1182: 1131: 397: 357: 1222: 167: 232:
The Large Corpus, a set of large (megabyte-size) files. Contains an
2057: 1831: 1662: 1255: 1202: 806: 796: 774: 769: 764: 523: 350: 210: 185: 276:
Managing Gigabytes: Compressing and Indexing Documents and Images
1212: 1066: 1051: 1041: 129: 101: 856: 361: 1187: 1153: 240: 239:
The Miscellaneous Corpus. Contains one million digits of
273:
Ian H. Witten; Alistair Moffat; Timothy C. Bell (1999).
2094: 2018: 2002: 1920: 1845: 1777: 1768: 1691: 1625: 1616: 1517: 1434: 1425: 1341: 1279: 1270: 1172: 1082: 1012: 900: 891: 749: 711: 683: 645: 612: 574: 444: 421: 2114: 868: 373: 8: 24:intended for use as a benchmark for testing 741:The quick brown fox jumps over the lazy dog 28:algorithms. It was created in 1997 at the 2121: 2107: 1774: 1622: 1431: 1276: 897: 875: 861: 853: 380: 366: 358: 306:(Fourth ed.). Springer. p. 12. 303:Data Compression: The Complete Reference 50: 265: 328:"The Canterbury Corpus: Descriptions" 7: 2075: 2073: 243:. Last updated 2000 (tar timestamp). 14: 2077: 2049: 2048: 2039: 2038: 842:1951 USAF resolution test chart 279:. Morgan Kaufmann. p. 92. 1: 2093:. You can help Knowledge by 812:"The North Wind and the Sun" 36:and designed to replace the 594:Trabb Pardo–Knuth algorithm 2166: 2072: 1930:Compressed data structures 1252:RLE + BWT + MTF + Huffman 920:Asymmetric numeral systems 792:functions for optimization 551:Snell & Wilcox SW2/SW4 2034: 1289:Discrete cosine transform 1219:LZ77 + Huffman + context 471:EIA 1956 resolution chart 393: 26:lossless data compression 1994:Smallest grammar problem 604:Just another Perl hacker 466:Indian-head test pattern 403:Reference implementation 30:University of Canterbury 1935:Compressed suffix array 1484:Nyquist–Shannon theorem 584:"Hello, World!" program 423:Artificial intelligence 332:corpus.canterbury.ac.nz 300:Salomon, David (2007). 2150:Computer science stubs 822:SMPTE universal leader 529:Philips circle pattern 1964:Kolmogorov complexity 1832:Video characteristics 1209:LZ77 + Huffman + ANS 2054:Compression software 1648:Compression artifact 1604:Psychoacoustic model 827:EURion constellation 647:3D computer graphics 2044:Compression formats 1683:Texture compression 1678:Standard test image 1494:Silence compression 413:Standard test image 388:Standard test items 20:is a collection of 1952:Information theory 1807:Display resolution 1633:Chroma subsampling 1022:Byte pair encoding 967:Shannon–Fano–Elias 576:Computer languages 143:Excel spreadsheet 2102: 2101: 2067: 2066: 1916: 1915: 1866:Deblocking filter 1764: 1763: 1612: 1611: 1421: 1420: 1266: 1265: 850: 849: 802:Harvard sentences 627:Canterbury corpus 223: 222: 155:Technical writing 18:Canterbury corpus 2157: 2140:Data compression 2123: 2116: 2109: 2087:computer science 2081: 2074: 2052: 2051: 2042: 2041: 1871:Lapped transform 1775: 1653:Image resolution 1638:Coding tree unit 1623: 1432: 1277: 898: 884:Data compression 877: 870: 863: 854: 685:Machine learning 614:Data compression 456:SMPTE color bars 382: 375: 368: 359: 354: 353: 351:Official website 336: 335: 324: 318: 317: 297: 291: 290: 270: 254:Data compression 51: 2165: 2164: 2160: 2159: 2158: 2156: 2155: 2154: 2130: 2129: 2128: 2127: 2070: 2068: 2063: 2030: 2014: 1998: 1979:Rate–distortion 1912: 1841: 1760: 1687: 1608: 1513: 1509:Sub-band coding 1417: 1342:Predictive type 1337: 1262: 1229:LZSS + Huffman 1179:LZ77 + Huffman 1168: 1078: 1014:Dictionary type 1008: 910:Adaptive coding 887: 881: 851: 846: 837:Webdriver Torso 787:EICAR test file 745: 707: 679: 665:Stanford dragon 641: 608: 599:Man or boy test 570: 556:Telefunken FuBK 461:EBU colour bars 440: 417: 389: 386: 349: 348: 345: 340: 339: 326: 325: 321: 314: 299: 298: 294: 287: 272: 271: 267: 262: 250: 46: 12: 11: 5: 2163: 2161: 2153: 2152: 2147: 2142: 2132: 2131: 2126: 2125: 2118: 2111: 2103: 2100: 2099: 2082: 2065: 2064: 2062: 2061: 2046: 2035: 2032: 2031: 2029: 2028: 2022: 2020: 2016: 2015: 2013: 2012: 2006: 2004: 2000: 1999: 1997: 1996: 1991: 1986: 1981: 1976: 1971: 1966: 1961: 1960: 1959: 1949: 1944: 1943: 1942: 1937: 1926: 1924: 1918: 1917: 1914: 1913: 1911: 1910: 1909: 1908: 1903: 1893: 1892: 1891: 1886: 1881: 1873: 1868: 1863: 1858: 1852: 1850: 1843: 1842: 1840: 1839: 1834: 1829: 1824: 1819: 1814: 1809: 1804: 1803: 1802: 1797: 1792: 1781: 1779: 1772: 1766: 1765: 1762: 1761: 1759: 1758: 1757: 1756: 1751: 1746: 1741: 1731: 1726: 1721: 1716: 1711: 1706: 1701: 1695: 1693: 1689: 1688: 1686: 1685: 1680: 1675: 1670: 1665: 1660: 1655: 1650: 1645: 1640: 1635: 1629: 1627: 1620: 1614: 1613: 1610: 1609: 1607: 1606: 1601: 1596: 1595: 1594: 1589: 1584: 1579: 1574: 1564: 1563: 1562: 1552: 1551: 1550: 1545: 1535: 1530: 1524: 1522: 1515: 1514: 1512: 1511: 1506: 1501: 1496: 1491: 1486: 1481: 1476: 1471: 1466: 1461: 1460: 1459: 1454: 1449: 1438: 1436: 1429: 1423: 1422: 1419: 1418: 1416: 1415: 1413:Psychoacoustic 1410: 1409: 1408: 1403: 1398: 1390: 1389: 1388: 1383: 1378: 1373: 1368: 1358: 1357: 1356: 1345: 1343: 1339: 1338: 1336: 1335: 1334: 1333: 1328: 1323: 1313: 1308: 1303: 1302: 1301: 1296: 1285: 1283: 1281:Transform type 1274: 1268: 1267: 1264: 1263: 1261: 1260: 1259: 1258: 1250: 1249: 1248: 1245: 1237: 1236: 1235: 1227: 1226: 1225: 1217: 1216: 1215: 1207: 1206: 1205: 1197: 1196: 1195: 1190: 1185: 1176: 1174: 1170: 1169: 1167: 1166: 1161: 1156: 1151: 1146: 1141: 1140: 1139: 1134: 1124: 1119: 1114: 1113: 1112: 1102: 1097: 1092: 1086: 1084: 1080: 1079: 1077: 1076: 1075: 1074: 1069: 1064: 1059: 1054: 1049: 1044: 1039: 1034: 1024: 1018: 1016: 1010: 1009: 1007: 1006: 1005: 1004: 999: 994: 989: 979: 974: 969: 964: 959: 954: 949: 948: 947: 942: 937: 927: 922: 917: 912: 906: 904: 895: 889: 888: 882: 880: 879: 872: 865: 857: 848: 847: 845: 844: 839: 834: 829: 824: 819: 814: 809: 804: 799: 794: 789: 784: 779: 778: 777: 772: 767: 759: 753: 751: 747: 746: 744: 743: 738: 733: 728: 722: 720: 709: 708: 706: 705: 700: 698:MNIST database 695: 689: 687: 681: 680: 678: 677: 672: 667: 662: 660:Stanford bunny 657: 651: 649: 643: 642: 640: 639: 637:enwik8, enwik9 634: 632:Silesia corpus 629: 624: 622:Calgary corpus 618: 616: 610: 609: 607: 606: 601: 596: 591: 586: 580: 578: 572: 571: 569: 568: 563: 558: 553: 548: 526: 521: 473: 468: 463: 458: 452: 450: 442: 441: 439: 438: 433: 427: 425: 419: 418: 416: 415: 410: 405: 400: 394: 391: 390: 387: 385: 384: 377: 370: 362: 356: 355: 344: 343:External links 341: 338: 337: 319: 312: 292: 285: 264: 263: 261: 258: 257: 256: 249: 246: 245: 244: 237: 230: 221: 220: 214: 208: 204: 203: 197: 194: 190: 189: 183: 180: 176: 175: 165: 162: 158: 157: 152: 149: 145: 144: 141: 138: 134: 133: 127: 124: 120: 119: 113: 110: 106: 105: 99: 96: 92: 91: 86: 80: 76: 75: 72: 66: 62: 61: 58: 55: 45: 42: 38:Calgary corpus 13: 10: 9: 6: 4: 3: 2: 2162: 2151: 2148: 2146: 2143: 2141: 2138: 2137: 2135: 2124: 2119: 2117: 2112: 2110: 2105: 2104: 2098: 2096: 2092: 2089:article is a 2088: 2083: 2080: 2076: 2071: 2059: 2055: 2047: 2045: 2037: 2036: 2033: 2027: 2024: 2023: 2021: 2017: 2011: 2008: 2007: 2005: 2001: 1995: 1992: 1990: 1987: 1985: 1982: 1980: 1977: 1975: 1972: 1970: 1967: 1965: 1962: 1958: 1955: 1954: 1953: 1950: 1948: 1945: 1941: 1938: 1936: 1933: 1932: 1931: 1928: 1927: 1925: 1923: 1919: 1907: 1904: 1902: 1899: 1898: 1897: 1894: 1890: 1887: 1885: 1882: 1880: 1877: 1876: 1874: 1872: 1869: 1867: 1864: 1862: 1859: 1857: 1854: 1853: 1851: 1848: 1844: 1838: 1837:Video quality 1835: 1833: 1830: 1828: 1825: 1823: 1820: 1818: 1815: 1813: 1810: 1808: 1805: 1801: 1798: 1796: 1793: 1791: 1788: 1787: 1786: 1783: 1782: 1780: 1776: 1773: 1771: 1767: 1755: 1752: 1750: 1747: 1745: 1742: 1740: 1737: 1736: 1735: 1732: 1730: 1727: 1725: 1722: 1720: 1717: 1715: 1712: 1710: 1707: 1705: 1702: 1700: 1697: 1696: 1694: 1690: 1684: 1681: 1679: 1676: 1674: 1671: 1669: 1666: 1664: 1661: 1659: 1656: 1654: 1651: 1649: 1646: 1644: 1641: 1639: 1636: 1634: 1631: 1630: 1628: 1624: 1621: 1619: 1615: 1605: 1602: 1600: 1597: 1593: 1590: 1588: 1585: 1583: 1580: 1578: 1575: 1573: 1570: 1569: 1568: 1565: 1561: 1558: 1557: 1556: 1553: 1549: 1546: 1544: 1541: 1540: 1539: 1536: 1534: 1531: 1529: 1526: 1525: 1523: 1520: 1516: 1510: 1507: 1505: 1504:Speech coding 1502: 1500: 1499:Sound quality 1497: 1495: 1492: 1490: 1487: 1485: 1482: 1480: 1477: 1475: 1474:Dynamic range 1472: 1470: 1467: 1465: 1462: 1458: 1455: 1453: 1450: 1448: 1445: 1444: 1443: 1440: 1439: 1437: 1433: 1430: 1428: 1424: 1414: 1411: 1407: 1404: 1402: 1399: 1397: 1394: 1393: 1391: 1387: 1384: 1382: 1379: 1377: 1374: 1372: 1369: 1367: 1364: 1363: 1362: 1359: 1355: 1352: 1351: 1350: 1347: 1346: 1344: 1340: 1332: 1329: 1327: 1324: 1322: 1319: 1318: 1317: 1314: 1312: 1309: 1307: 1304: 1300: 1297: 1295: 1292: 1291: 1290: 1287: 1286: 1284: 1282: 1278: 1275: 1273: 1269: 1257: 1254: 1253: 1251: 1246: 1244: 1241: 1240: 1239:LZ77 + Range 1238: 1234: 1231: 1230: 1228: 1224: 1221: 1220: 1218: 1214: 1211: 1210: 1208: 1204: 1201: 1200: 1198: 1194: 1191: 1189: 1186: 1184: 1181: 1180: 1178: 1177: 1175: 1171: 1165: 1162: 1160: 1157: 1155: 1152: 1150: 1147: 1145: 1142: 1138: 1135: 1133: 1130: 1129: 1128: 1125: 1123: 1120: 1118: 1115: 1111: 1108: 1107: 1106: 1103: 1101: 1098: 1096: 1093: 1091: 1088: 1087: 1085: 1081: 1073: 1070: 1068: 1065: 1063: 1060: 1058: 1055: 1053: 1050: 1048: 1045: 1043: 1040: 1038: 1035: 1033: 1030: 1029: 1028: 1025: 1023: 1020: 1019: 1017: 1015: 1011: 1003: 1000: 998: 995: 993: 990: 988: 985: 984: 983: 980: 978: 975: 973: 970: 968: 965: 963: 960: 958: 955: 953: 950: 946: 943: 941: 938: 936: 933: 932: 931: 928: 926: 923: 921: 918: 916: 913: 911: 908: 907: 905: 903: 899: 896: 894: 890: 885: 878: 873: 871: 866: 864: 859: 858: 855: 843: 840: 838: 835: 833: 830: 828: 825: 823: 820: 818: 817:"Tom's Diner" 815: 813: 810: 808: 805: 803: 800: 798: 795: 793: 790: 788: 785: 783: 782:"Bad Apple!!" 780: 776: 773: 771: 768: 766: 763: 762: 760: 758: 755: 754: 752: 748: 742: 739: 737: 734: 732: 729: 727: 726:Etaoin shrdlu 724: 723: 721: 718: 714: 710: 704: 701: 699: 696: 694: 691: 690: 688: 686: 682: 676: 673: 671: 668: 666: 663: 661: 658: 656: 653: 652: 650: 648: 644: 638: 635: 633: 630: 628: 625: 623: 620: 619: 617: 615: 611: 605: 602: 600: 597: 595: 592: 590: 587: 585: 582: 581: 579: 577: 573: 567: 564: 562: 561:TVE test card 559: 557: 554: 552: 549: 546: 542: 538: 534: 530: 527: 525: 522: 520: 516: 512: 508: 504: 500: 496: 492: 488: 484: 480: 477: 476:BBC Test Card 474: 472: 469: 467: 464: 462: 459: 457: 454: 453: 451: 448: 443: 437: 434: 432: 429: 428: 426: 424: 420: 414: 411: 409: 406: 404: 401: 399: 396: 395: 392: 383: 378: 376: 371: 369: 364: 363: 360: 352: 347: 346: 342: 333: 329: 323: 320: 315: 313:9781846286032 309: 305: 304: 296: 293: 288: 286:9781558605701 282: 278: 277: 269: 266: 259: 255: 252: 251: 247: 242: 238: 235: 231: 228: 227: 226: 219: 215: 212: 209: 206: 205: 202: 198: 195: 192: 191: 187: 184: 181: 178: 177: 173: 172:Paradise Lost 169: 166: 163: 160: 159: 156: 153: 150: 147: 146: 142: 139: 136: 135: 131: 128: 125: 122: 121: 117: 114: 111: 108: 107: 103: 100: 97: 94: 93: 90: 87: 84: 81: 78: 77: 74:English text 73: 70: 67: 64: 63: 59: 56: 53: 52: 49: 43: 41: 39: 35: 31: 27: 23: 19: 2095:expanding it 2084: 2069: 2010:Hutter Prize 1974:Quantization 1879:Compensation 1673:Quantization 1396:Compensation 962:Shannon–Fano 902:Entropy type 731:Hamburgevons 626: 445:Television ( 431:Chinese room 408:Sanity check 331: 322: 302: 295: 275: 268: 233: 224: 164:plrabn12.txt 60:Description 54:Size (bytes) 47: 17: 15: 1969:Prefix code 1822:Frame types 1643:Color space 1469:Convolution 1199:LZ77 + ANS 1110:Incremental 1083:Other types 1002:Levenshtein 736:Lorem ipsum 717:filler text 670:Utah teapot 655:Cornell box 436:Turing test 218:manual page 140:kennedy.xls 126:grammar.lsp 89:Shakespeare 34:New Zealand 2145:Test items 2134:Categories 2026:Mark Adler 1984:Redundancy 1901:Daubechies 1884:Estimation 1817:Frame rate 1739:Daubechies 1699:Chain code 1658:Macroblock 1464:Companding 1401:Estimation 1321:Daubechies 1027:Lempel–Ziv 987:Exp-Golomb 915:Arithmetic 713:Typography 260:References 201:executable 151:lcet10.txt 2003:Community 1827:Interlace 1213:Zstandard 992:Fibonacci 982:Universal 940:Canonical 832:Shakedown 447:test card 188:test set 137:1,029,744 57:File name 1989:Symmetry 1957:Timeline 1940:FM-index 1785:Bit rate 1778:Concepts 1626:Concepts 1489:Sampling 1442:Bit rate 1435:Concepts 1137:Sequitur 972:Tunstall 945:Modified 935:Adaptive 893:Lossless 757:3DBenchy 693:ImageNet 248:See also 112:fields.c 83:asyoulik 44:Contents 1947:Entropy 1896:Wavelet 1875:Motion 1734:Wavelet 1714:Fractal 1709:Deflate 1692:Methods 1479:Latency 1392:Motion 1316:Wavelet 1233:LHA/LZH 1183:Deflate 1132:Re-Pair 1127:Grammar 957:Shannon 930:Huffman 886:methods 545:PM 5644 541:PM 5544 537:PM 5540 533:PM 5538 398:Pangram 234:E. coli 179:513,216 161:481,861 148:426,754 132:source 118:source 104:source 98:cp.html 79:125,179 65:152,089 2058:codecs 2019:People 1922:Theory 1889:Vector 1406:Vector 1223:Brotli 1173:Hybrid 1072:Snappy 925:Golomb 310:  283:  199:SPARC 193:38,240 168:Poetry 109:11,150 95:24,603 71:29.txt 2085:This 1849:parts 1847:Codec 1812:Frame 1770:Video 1754:SPIHT 1663:Pixel 1618:Image 1572:ACELP 1543:ADPCM 1533:ÎĽ-law 1528:A-law 1521:parts 1519:Codec 1427:Audio 1366:ACELP 1354:ADPCM 1331:SPIHT 1272:Lossy 1256:bzip2 1247:LZHAM 1203:LZFSE 1105:Delta 997:Gamma 977:Unary 952:Range 807:Lenna 797:GTUBE 761:Acid 750:Other 589:Quine 524:ETP-1 211:xargs 207:4,227 186:CCITT 123:3,721 69:alice 22:files 2091:stub 1861:DPCM 1668:PSNR 1599:MDCT 1592:WLPC 1577:CELP 1538:DPCM 1386:WLPC 1371:CELP 1349:DPCM 1299:MDCT 1243:LZMA 1144:LDCT 1122:DPCM 1067:LZWL 1057:LZSS 1052:LZRW 1042:LZJB 703:List 675:List 566:UEIT 308:ISBN 281:ISBN 216:GNU 182:ptt5 130:LISP 102:HTML 85:.txt 16:The 1906:DWT 1856:DCT 1800:VBR 1795:CBR 1790:ABR 1749:EZW 1744:DWT 1729:RLE 1719:KLT 1704:DCT 1587:LSP 1582:LAR 1567:LPC 1560:FFT 1457:VBR 1452:CBR 1447:ABR 1381:LSP 1376:LAR 1361:LPC 1326:DWT 1311:FFT 1306:DST 1294:DCT 1193:LZS 1188:LZX 1164:RLE 1159:PPM 1154:PAQ 1149:MTF 1117:DMC 1095:CTW 1090:BWT 1062:LZW 1047:LZO 1037:LZ4 1032:842 196:sum 2136:: 1724:LP 1555:FT 1548:DM 1100:CM 543:, 539:, 535:, 517:, 513:, 509:, 505:, 501:, 497:, 493:, 489:, 485:, 481:, 330:. 241:pi 213:.1 174:) 32:, 2122:e 2115:t 2108:v 2097:. 2060:) 2056:( 876:e 869:t 862:v 775:3 770:2 765:1 719:) 715:( 547:) 531:( 519:X 515:W 511:J 507:H 503:G 499:F 495:E 491:D 487:C 483:B 479:A 449:) 381:e 374:t 367:v 334:. 316:. 289:. 170:( 116:C

Index

files
lossless data compression
University of Canterbury
New Zealand
Calgary corpus
alice
asyoulik
Shakespeare
HTML
C
LISP
Technical writing
Poetry
Paradise Lost
CCITT
executable
xargs
manual page
pi
Data compression
Managing Gigabytes: Compressing and Indexing Documents and Images
ISBN
9781558605701
Data Compression: The Complete Reference
ISBN
9781846286032
"The Canterbury Corpus: Descriptions"
Official website
v
t

Text is available under the Creative Commons Attribution-ShareAlike License. Additional terms may apply.

↑