Ha egy crawlerrel egy csomó mindent kiszedek különböző oldalakról, és szeretném eltárolni, akkor használjak valami saját megoldást a tárolásra, vagy jobban járnék valami előre kitaposott megoldással? WARC fájl? a lehető legkevesebb fölös infót tárolnám el, lényegében oldalanként 4-5 adat lenne ami érdekelne. Lehet valami MAP al járnék legjobban, de akár tömb is elegendő lehetne (és egy fájlban 1 sor 1 tömb ami 1 leszedett bejegyzés)
Akinek van tapasztalata web crawlerrel, napi pár száz oldal (esetleg ezer) átnézése és bizonyos bejegyzések tárolásában, nyugodtan ossza meg gondolatait :)
(Azért is akarom letárolni, nem pedig egyből adatbázisba nyomni, mert így visszanézhetem hol csúszott el a dolog, lesz archívumon és véleményem szerint kevesebb adatbázis művelettel megoldható a dolog)