id index

2006-10-16 14:27:21 -04:00 · 2006-10-16 14:27:21 -04:00 · 46ca6cd4f4
commit 46ca6cd4f4
parent 002471fc68
4 changed files with 146 additions and 0 deletions
--- a/planet/idindex.py
+++ b/planet/idindex.py
@ -0,0 +1,72 @@
 from glob import glob
 import os, sys, dbhash
 if __name__ == '__main__':
    rootdir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
    sys.path.insert(0, rootdir)
 from planet.spider import filename
 from planet import config
 def open():
    cache = config.cache_directory()
    index=os.path.join(cache,'index')
    if not os.path.exists(index): return None
    return dbhash.open(filename(index, 'id'),'w')
 def destroy():
    from planet import logger as log
    cache = config.cache_directory()
    index=os.path.join(cache,'index')
    if not os.path.exists(index): return None
    idindex = filename(index, 'id')
    if os.path.exists(idindex): os.unlink(idindex)
    os.removedirs(index)
    log.info(idindex + " deleted")
 def create():
    import libxml2
    from planet import logger as log
    cache = config.cache_directory()
    index=os.path.join(cache,'index')
    if not os.path.exists(index): os.makedirs(index)
    index = dbhash.open(filename(index, 'id'),'c')
    for file in glob(cache+"/*"):
        if not os.path.isdir(file):
            try:
                doc = libxml2.parseFile(file)
                ctxt = doc.xpathNewContext()
                ctxt.xpathRegisterNs('atom','http://www.w3.org/2005/Atom')
                entry = ctxt.xpathEval('/atom:entry/atom:id')
                source = ctxt.xpathEval('/atom:entry/atom:source/atom:id')
                if entry and source:
                    index[filename('',entry[0].content)] = source[0].content
                doc.freeDoc()
            except:
                log.error(file)
    log.info(str(len(index.keys())) + " entries indexed")
    index.close()
    return open()
 if __name__ == '__main__':
    if len(sys.argv) < 2:
        print 'Usage: %s [-c|-d]' % sys.argv[0]
        sys.exit(1)
    config.load(sys.argv[1])
    if len(sys.argv) > 2 and sys.argv[2] == '-c':
        create()
    elif len(sys.argv) > 2 and sys.argv[2] == '-d':
        destroy()
    else:
        from planet import logger as log
        index = open()
        if index:
            log.info(str(len(index.keys())) + " entries indexed")
            index.close()
        else:
            log.info("no entries indexed")
--- a/planet/spider.py
+++ b/planet/spider.py
@ -196,6 +196,9 @@ def spiderFeed(feed):
    # perform user configured scrub operations on the data
    scrub(feed, data)
    from planet import idindex
    index = idindex.open()
    # write each entry to the cache
    cache = config.cache_directory()
    for entry in data.entries:
@ -234,6 +237,13 @@ def spiderFeed(feed):
        write(output, cache_file) 
        os.utime(cache_file, (mtime, mtime))
        # optionally index
        if index != None: 
            index[filename('', entry.id)] = \
                data.feed.get('id', data.feed.get('link',None))
    if index: index.close()
    # identify inactive feeds
    if config.activity_threshold(feed):
        updated = [entry.updated_parsed for entry in data.entries
--- a/planet/splice.py
+++ b/planet/splice.py
@ -4,6 +4,7 @@ from xml.dom import minidom
 import planet, config, feedparser, reconstitute, shell
 from reconstitute import createTextElement, date
 from spider import filename
 from planet import idindex
 def splice():
    """ Splice together a planet from a cache of entries """
@ -62,9 +63,12 @@ def splice():
        reconstitute.source(xdoc.documentElement, data.feed, None, None)
        feed.appendChild(xdoc.documentElement)
    index = idindex.open()
    # insert entry information
    items = 0
    for mtime,file in dir:
        if index and index[file.split('/')[-1]] not in sub_ids: continue
        try:
            entry=minidom.parse(file)
@ -83,6 +87,8 @@ def splice():
        except:
            log.error("Error parsing %s", file)
    if index: index.close()
    return doc
 def apply(doc):
--- a/tests/test_idindex.py
+++ b/tests/test_idindex.py
@ -0,0 +1,58 @@
 #!/usr/bin/env python
 import unittest
 from planet import idindex, config, logger
 class idIndexTest(unittest.TestCase):
    def tearDown(self):
        idindex.destroy()
    def test_index_spider(self):
        import test_spider
        config.load(test_spider.configfile)
        index = idindex.create()
        self.assertEqual(0, len(index))
        index.close()
        from planet.spider import spiderPlanet
        try:
            spiderPlanet()
            index = idindex.open()
            self.assertEqual(12, len(index))
            self.assertEqual('tag:planet.intertwingly.net,2006:testfeed1', index['planet.intertwingly.net,2006,testfeed1,1'])
            self.assertEqual('http://intertwingly.net/code/venus/tests/data/spider/testfeed3.rss', index['planet.intertwingly.net,2006,testfeed3,1'])
            index.close()
        finally:
            import os, shutil
            shutil.rmtree(test_spider.workdir)
            os.removedirs(os.path.split(test_spider.workdir)[0])
    def test_index_splice(self):
        import test_splice
        config.load(test_splice.configfile)
        index = idindex.create()
        self.assertEqual(12, len(index))
        self.assertEqual('tag:planet.intertwingly.net,2006:testfeed1', index['planet.intertwingly.net,2006,testfeed1,1'])
        self.assertEqual('http://intertwingly.net/code/venus/tests/data/spider/testfeed3.rss', index['planet.intertwingly.net,2006,testfeed3,1'])
        for key,value in index.items():
            if value.find('testfeed2')>0: index[key] = value[::-1]
        index.close()
        from planet.splice import splice
        doc = splice()
        self.assertEqual(8,len(doc.getElementsByTagName('entry')))
        self.assertEqual(4,len(doc.getElementsByTagName('planet:source')))
        self.assertEqual(12,len(doc.getElementsByTagName('planet:name')))
 try:
    import libxml2
 except ImportError:
    logger.warn("libxml2 is not available => can't test id index")
    for method in dir(idIndexTest):
        if method.startswith('test_'):  delattr(idIndexTest,method)