Fetching Web Pages from the WebBase Web Page Repository

InfoLab was Database Group
                                                                                                                                       Gary Wesley <Gary at InfoLab.Stanford.Edu>
Updated   April 18, 2008


Herein is described how to retrieve Web pages from the Stanford WebBase Archive,
a World Wide Web page repository built as part of the Stanford Digital Libraries Project
by members of the
Stanford InfoLab.

The Repository

This web repository is over 110TB ( uncompressed size as of November 2007 ) of various web pages intended for research into topics such as web graph analysis and election or disaster press coverage ( we have  a workbench for press coverage analysis and coding ).

The general text crawls are about  0.5TB compressed  ( 1.5TB uncompressed ). Sizes below are in compressed units.  We now effectively have rudimentary time series data. General crawls use the same site list each time. Building the client software.   Lists of sites with page counts is available via the "sites" links below.  Architecture diagram. Our web crawler or spider is named WebVac ( it was called Pita ). Technical report: Stanford WebBase Components and Applications.  We are working in cooperation with the Library of Congress and the California Digital Library.

We now have tools for computational sociology in our Web Sociologist's Workbench. It was used for election coverage analysis by the Stanford Communication Department. Picture of  a sample screen. (The letter in the checkbox label is a keyboard shortcut.) Here is  a 2007 report on our efforts.

A future project is duplicate detection because newspaper crawls carry so many duplicated both within and across papers (like wire stories). This will be integrated into the
Web Sociologist's Workbench.

We have a collection of the links from each of the general crawls. These are available upon request via ftp.

We have a C++ tool to convert from our format to ARC version 1 format (Internet Archive and Heretrix). We will developing one for WARC when it becomes an ISO and International Internet Preservation Consortium (IIPC) standard. County crawls have now
been converted to ARC.

Wibbi:

If you don't want to bother with the client because you will not be building custom handlers, there is now  a Web interface to the crawls. There are several custom filters to choose from like and and or. Wibbi will give slower throughput than our C++ client, even with no filtering. A Windows/Linux browser limit (Except  Opera and Firefox 2.0.0.1) causes you to only be able to download 4GB at  a time. Since the filters are run on our server, it is possible to filter more data than that but not to reach that limit.

If you decide to use the data, please  email Gary  for our records (and our funders).
We would also appreciate knowing of any papers that come out of your usage.


The Crawls

General Monthly Crawls
US Government
State and Local Governments
Newspapers
Universities
California 2003 Governor Recall
2004 National Elections
2005 California Special Election
Hurricane Katrina aftermath
2006 Mid Term Elections
Virginia Tech shooting

General Crawls
2004   2005   2006   2007  2008


Host       Port     Million pgs             Date         Mimetype   Type of web crawl  

                                                
WB11       7003     119      343GB         1/2001         Text     general crawl    site list

WB12       7005      44      152GB         3/2002         Text     general crawl    site list(use 2002getpages.pl) 

[unavailable]        50      500GB         4/2003         Text     general crawl    site list (has many 0 page sites)

WB1        7006      96      406GB         6/2003         Text     general crawl    site list

WB1        7008      96      423GB         8/2003         Text     general crawl    site list

WB1        7010     102      451GB        10/2003         Text     general crawl    site list

                             526GB
WB8        7012      36                   12/2003         Text     general crawl    site list
           7032      14                   12/2003         Image    general crawl    site list  

2004

WB1        7103      95      450GB         3/2004         Text     general crawl    site list
   
WB1        7114      6       447GB         4/2004         Image    general crawl  
site list

                                                                178GB
[repairing]7105      17                    5/2004         Text     general crawl   site list
WB1        7115       8                    5/2004         Image    general crawl   site list

                                                                457GB
WB2        7107     11.5                   7/2004         Text     general crawl   site list
           7117      4.2                   7/2004         Image    general crawl   site list
           7127      0.02                  7/2004         Audio    general crawl   site list
           7137      2.3                   7/2004         Other    general crawl   site list

WB13       7108      45      388GB         8/2004         Text     general crawl   site list


                             474GB
WB3        7109      36                    9/2004         Text     general crawl   site list
WB3        7119       7                    9/2004         Image    general crawl   site list

WB9        7190     105       495GB       10/2004         Text     general crawl   site list

                             1561GB!
[by special arrangement]
           7192     37                    12/2004         Text      general crawl  site list

           7193     14                    12/2004         Image     general crawl  site list
           7194     0.08                  12/2004         Audio     general crawl  site list
           7195     7.7                   12/2004         Other     general crawl  site list

             


Host       Port     Million pgs             Date         Mimetype   Type of web crawl  


2005                               

                              980GB
WB8        7601     27                     1/2005         Text       general crawl  site list

           7611     6                      1/2005         Image      general crawl  site list
           7621     0.04                   1/2005         Audio      general crawl  site list
           7631     3.5                    1/2005         Other      general crawl  site list 

this deeper next crawl was done with pagemax of 20k per site instead of the usual 10k:
WB1        7603     85        440GB        3/2005         Text       general crawl  site list

WB18       7489     0.48      192GB      3-5/2005         Audio      general audio  site list

WB5        7604     98        480GB        4/2005         Text       general crawl  site list 

WB5        7605     79        460GB        5/2005         Text       general crawl  site list
 

WB8        7606    101        503GB        6/2005         Text       general crawl  site list

                              487GB
WB16       7658     9.5                    8/2005         Text       general crawl 
site list
           7668     3.4                                   Image                     site list
           7658     .02                                   Audio                     site list
           7678     2                                     Other                     site list       

WB4        7609     97        490GB        9/2005         Text       general crawl  site list

WB4        7610     97        508GB       10/2005         Text       general crawl  site list

WB18       7691     93        527GB       11/2005         Text       general crawl  site list

                                                                  945GB
WB1        7612     20.7                  12/2005         Text       general crawl 
site list
           7622      7                    12/2005         Image      general crawl  site list
           7632     0.04                  12/2005         Audio      general crawl  site list
           7642     4.5                   12/2005         Other      general crawl 
site list
                                                                                      

                                                                                     


Host       Port     Million pgs             Date         Mimetype   Type of web crawl  


2006

WB1        7701     98        515GB        1/2006         Text       general crawl  site list

WB19       7702     93        490GB        2/2006         Text       general crawl  site list

WB1        7703     95        497GB        3/2006         Text       general crawl  site list

WB17       7704     92        493GB        4/2006         Text       general crawl  site list

WB17       7705     93        499GB        5/2006         Text       general crawl  site list    

WB10       7706     90        497GB        6/2006         Text       general crawl  site list

WB19       7707     92        501GB        7/2006         Text       general crawl  site list

WB10       7708     93        515GB        8/2006         Text       general crawl  site list

WB8        7709     90        502GB        9/2006         Text       general crawl  site list

WB1        7710     90        497GB        10/2006        Text       general crawl  site list

WB19       7730     10        353GB        10-11/2006     Image      general crawl  site list

WB16       7711     90        506GB        11/2006        Text       general crawl  site list

WB1        7712     90        511GB        12/2006        Text       general crawl  site list

WB1        7713     0.5       222GB        12/2006        Audio      general crawl  site list

                                                                                      

    


Host     Port Million pgs           Date        Mimetype   Type of web crawl      


2007

WB2        7118     87        502GB        1/2007         Text       general crawl  site list

WB2        7106    103        590GB        2/2007         Text       general crawl  site list

WB14       7161    102        578GB        3/2007         Text       general crawl  site list

WB19       7163    100        578GB        4/2007         Text       general crawl  site list

WB15       7239     98        573GB        5/2007         Text       general crawl  site list

WB6        7260     98        590GB        6/2007         Text       general crawl 
site list

WB1        7261     86        525GB        7/2007         Text       general crawl  site list

WB12       7262     87        514GB        8/2007         Text       general crawl 
site list

WB13       7266     79        486GB        9/2007         Text       general crawl  site list

WB2        7272     78        492GB       10/2007         Text       general crawl  site list

WB19       7289     80        497GB       11/2007         Text       general crawl  site list

WB7        7291     79        494GB       12/2007         Text       general crawl  site list


Host   Port  Million pgs            Date      Mimetype   Type of web crawl      


2008

WB20        7320     81        498GB        1/2008         Text       general crawl  site list

WB7         7298     79        496GB        2/2008         Text       general crawl  site list

WB20        7299     80        507GB        3/2008         Text       general crawl  site list

Crawled  a  small set of general site list weekly,  January-May 2006 (available on  Wibbi ).
Around 2 million pages and 12.5GB of highest rank site list per week.
Ports 8101-8121 on WB11, in chronological order.



Specialized Crawls

University

Host       Port     Million pgs             Date         Mimetype   Type of web crawl    

WB1        7022      .28     1GB         11/2002         Text    U Cal@Berkeley site list

WB8        7050      .35    13GB          8/2003         All     Stanford University www.stanford.edu
[ we crawl 202 Stanford sites in our monthly text crawl ]

WB1        7300      .4      2GB         11/2004         Text    US CS        site list 

                                7.6GB
WB1        7440      .14                  1/2005         Text    U Cal@Berkeley site list
           7641      .07                  1/2005         Image   U Cal@Berkeley site list
           7492      .0001                1/2005         Audio   U Cal@Berkeley site list
           7443      .02                  1/2005         Other   U Cal@Berkeley site list

                              3GB
WB4        7060      .040   1.5GB         6/2005         Text    Stanford University site list
           7061      .038   125MB         6/2005         Image   Stanford University site list
           7062      60pgs                6/2005         Audio   Stanford University site list
           7063      .011   1.4GB         6/2005         Other   Stanford University site list

[ we crawl 202 Stanford sites in our monthly text crawl ]


Government

US Government
    .mil is in the general crawl


Host       Port     Million pgs             Date         Mimetype   Type of web crawl         


                               213GB
WB6        7567      4.3                  7/2003         Text     US Government 
site list
                        270GB
WB4        7506      3.4                  6/2004         Text     US Government  site list
           7516      1.6                  6/2004         Image                  
site list
           7516      .003                 6/2004         Audio                   site list
           7536      1.2                  6/2004         Other                   site list

                            274GB
[by request]7508   3.2                    8/2004         Text     US Government  site list
           7518      1.7                  8/2004         Image                   site list
           7538      1.2                  8/2004         Other                   site list

                            259GB
WB1        7509      2.8                  9/2004         Text     US Government  site list
           7519      1.5                  9/2004         Image                   site list
           7529      .006                 9/2004         Audio                   site list
           7539      1.1                  9/2004         Other                   site list

                            274GB
[by request]7570   2.9                    10/2004         Text    US Govt early Oct  site list
           7580      1.5                  10/2004         Image                      site list
           7590      2.2                  10/2004         Other                      site list

                            280GB
[by request]7573     3.0                  10/2004         Text   US Govt ,very late Oct site list
           7583      1.6                  10/2004         Image                         site list
           7563      0.004                10/2004         Audio                         site list
           7593      1.2                  10/2004         Other                         site list

                            283GB                          
WB8        7511      3.0                 11/2004    Text   US Govt+election, early Nov site list
           7521      1.6                 11/2004    Image                              site list
           7531      .004                11/2004    Audio                              site list
           7541      1.3                 11/2004    Other                              site list

                            277GB
[by request]7512      2.9                 12/2004         Text   US Government site list
            7522      1.5                 12/2004         Image                site list
            7532     .004                 12/2004         Audio                site list
            7542      1.2                 12/2004         Other                site list



Host       Port     Million pgs             Date         Mimetype   Type of web crawl  


 2005                         
                                  274GB

[upon request]       3.0                  1/2005         Text   US Government, January site list
           7781      1.5                  1/2005         Image  site list
           7791     .004                  1/2005         Audio  site list
           7792      1.2                  1/2005         Other  site list

                                  483GB
WB3       7644      2.5                  4/2005         Text  US Govt .gov + election site list
          7614      1.3                  4/2005         Image
          7624     .003                  4/2005         Audio
          7634      1.1                  4/2005         Other


Next 3: 20,000/site max on .gov only
                                    363GB
WB18       7607      4.0                  6-7/2005       Text   US .gov            site list
           7617      2.0                  6-7/2005       Image  US .gov            site list

           7627      .004                 6-7/2005       Audio  US .gov            site list
           7637      1.7                  6-7/2005       Other  US .gov            site list

                                   336GB (updated site list from LOC)
WB6        7799      3.3                  9/2005         Text   US .gov            site list
           7719      1.1                  9/2005         Image  US .gov            site list
           7729                           9/2005         Audio  US .gov            site list
           7739      1.4                  9/2005         Other  US .gov            site list

                                   233GB
WB8        8012      2.2                 12/2005         Text   US .gov            site list
           8022      1.1                 12/2005         Image  US .gov            site list
           8032      0.004               12/2005         Audio  US .gov            site list
           8042      1.0                 12/2005         Other  US .gov            site list

 From here on we crawl up to 150,000 pages per  .gov site to  a depth of 12 quarterly.
For those below, we have removed the site list from ca.gov, which are state site list for California.
ca.gov are about 100GB for each crawl and can be made available upon request. These are also in the
state crawls.

2006                              484GB
WB2        8001      5.0                  3/2006          Text   US .gov            site list
           8011      2.7                  3/2006          Image  US .gov            site list
            8021      0.007                3/2006          Audio  US .gov            site list
            8031      1.9                  3/2006          Other  US .gov            site list
                                                                       
                                   658GB
WB14       8041      7.6                 6-7/2006         Text   US .gov            site list
           8051      3.6                 6-7/2006         Image  US .gov            site list
           8052      0.01                6-7/2006         Audio  US .gov            site list
            8053      3.0                 6-7/2006         Other  US .gov            site list       

                                   726GB
WB1        7100      6.6                 9-10/2006        Text   US .gov            site list
           7101      3.0                                  Image                     site list
           7102      0.01                                 Audio                     site list
           7104      2.8                                  Other                     site list
                                                                    
                                    609GB
WB12       7149      7.6                  12/2006         Text   US .gov            site list
           7150      3.2                                  Image                     site list
           7151      0.01                                 Audio                     site list
           7152      2.9                                  Other                     site list
                                                                      
2007                                681GB
WB2        7157      8.1                  3/2007          Text   US .gov            site list
           7158      3.4                                  Image                     site list
           7159      0.01                                 Audio                     site list
           7160      3.1                                  Other                     site list

(Updated our list of site list here. )

                                     613GB
WB1        7255      7.0                  6/2007          Text   US .gov            site list
           7256      3.0                                  Image                     site list
           7257      0.01                                 Audio                     site list
           7258      2.8                                  Other                     site list
 
                                     636GB
WB8        7267      5.5                  9/2007          Text   US .gov            site list
           7268      2.7                                  Image                     site list
           7269      0.01                                 Audio                     site list
           7270      2.4                                  Other                     site list
 
  ( California ca.gov is not crawled from here on except as part of the state crawls )

 
                                    629 GB
WB7        7292      5.4                 12/2007          Text   US .gov            site list
           7293      2.5                                  Image                     site list
           7295      0.01                                 Audio                     site list
           7296      2.3                                  Other                     site list
         
2008

                                    654 GB
WB7        7369      7.4                  3/2008          Text   US .gov            site list
           7370      3.4                                  Image                     site list
           7371      0.01                                 Audio                     site list
           7372      3.0                                  Other                     site list



 
State and Local


Host       Port     Million pgs             Date         Mimetype   Type of web crawl  


These sitelists were compiled from the site http://www.statelocalgov.net

State site list                                        210GB
WB13       7204      2.3                  5/2005         Text    State govt   site list
           7214      0.7                  5/2005         Image   State govt   site list
           7224     .005                  5/2005         Audio   State govt   site list
           7234      1.4                  5/2005         Other   State govt   site list

County site list                                        90GB
WB8        7264      1.2                  5/2005         Text    County govt   site list
           7274      0.5                  5/2005         Image   County govt   site list
           7284     .060                  5/2005         Audio   County govt   site list   
           7294      0.5                  5/2005         Other   County govt   site list

City and town site list                                 187GB
WB13       7664      2.5                  5/2005         Text    City govt    site list
           7674      1.2                  5/2005         Image   City govt    site list
           7684     .001                  5/2005         Audio   City govt    site list
           7694      1.0                  5/2005         Other   City govt    site list  

 
 Post Katrina crawl
State site list                                         217GB

WB2        7465      2.1                  9/2005         Text    State govt    site list
           7466      0.7                  9/2005         Image   State govt    site list
           7467     .060                  9/2005         Audio   State govt    site list
           7468      1.3                  9/2005         Other   State govt    site list    


2006

State site list                                         245GB
WB17       7365      2.0                  4/2006         Text    State govt    site list  
            7366      0.7                  4/2006         Image   State govt    site list
           7367     .006                  4/2006         Audio   State govt    site list
           7368      1.3                  4/2006         Other   State govt    site list
      
County site list                                        115GB
WB1        7364      1.2                  4/2006         Text    County govt    site list
           7374      0.4                  4/2006         Image   County govt    site list
           7384     .002                  4/2006         Audio   County govt    site list
           7394      0.6                  4/2006         Other   County govt    site list

City and town site list                                 237GB
WB16       7165      2.7                  4/2006         Text    City govt     
site list   
   
       7175      1.1                  4/2006         Image   City govt      site list
           7185      0.001                4/2006         Audio   City govt      site list
           7186      1.2                  4/2006         Other   City govt      site list


State site list                                         251GB
WB15       7395      2.4                  9/2006         Text    State govt     site list
           7966      0.7                  9/2006         Image   State govt     site list
           7367     .008                  9/2006         Audio   State govt     site list
           7968      1.5                  9/2006         Other   State govt     site list

County site list                                        126GB
WB1        7964      1.2                  9/2006         Text    County govt    site list
           7974      0.4                  9/2006         Image   County govt    site list
           7987     .002                  9/2006         Audio   County govt    site list
           7407      0.7                  9/2006         Other   County govt    site list

City and town site list                                 258GB
WB18       7965      2.9                  9/2006         Text    City govt      site list
           7975      1.1                  9/2006         Image   City govt      site list
           7985     .002                  9/2006         Audio   City govt      site list
           7986      1.3                  9/2006         Other   City govt      site list


State site list                                         263GB
WB9        7133      2.4                 12/2006         Text    State govt     site list
           7138      0.7                 12/2006         Image   State govt     site list
           7139     .008                 12/2006         Audio   State govt     site list
           7140      1.5                 12/2006         Other   State govt     site list

County site list                                        129GB
WB1        7141      1.3                 12/2006         Text    County govt    site list
           7142      0.5                 12/2006         Image   County govt    site list
           7143     .002                 12/2006         Audio   County govt    site list
           7144      0.7                 12/2006         Other   County govt    site list

City and town site list                                 270GB
WB1        7145      2.9                 12/2006         Text    City govt      site list
           7146      1.1                 12/2006         Image   City govt      site list
           7147     .002                 12/2006         Audio   City govt      site list
           7148      1.3                 12/2006         Other   City govt      site list

2007
State sites                                             260GB
WB6        7246      2.4                 5/2007         Text    State govt     site list
           7247      0.7                 5/2007         Image   State govt     site list
           7248     .008                 5/2007         Audio   State govt     site list
           7249      1.5                 5/2007         Other   State govt     site list

County sites                                            140GB
WB10       7242      1.3                 5/2007         Text    County govt    site list

           7243      0.5                
5/2007         Image   County govt    site list
           7244     .002                
5/2007         Audio   County govt    site list
           7245      0.7                
5/2007         Other   County govt    site list

City and town sites                                     279GB
WB11       7236      2.9                 5/2007         Text    City govt      site list
           7237      1.1                 5/2007         Image   City govt      site list
           7240     .002                 5/2007         Audio   City govt      site list
           7241      1.3                 5/2007         Other   City govt      site list     

 (Updated sites to be crawled here. )

State sites                                             296 GB
WB8        7273      2.3                 10/2007         Text    State govt     site list
           7275      0.7                 10/2007         Image   State govt     site list
           7276      .01         &