Öncelikle işlemi Windows üzerinde yapamıyorsunuz ne kadar kassanızda.
Ubuntu üzerinde aşağıdaki adımları çalıştırdım.
- Kendi sayfasındaki "git clone git://github.com/dbpedia/extraction-framework.git" komutu çalışmıyor. Bunun yerine idea üzerinden "https://github.com/dbpedia/extraction-framework.git"adresini vererek githubdan kodları indirelim.(ben buraya indirdim --/home/repo/extraction)
- daha sonra indirdiğim dizinde (/home/repo/extraction) aşağıdaki komutu çalıştırdım.
- mvn clean install
- Daha sonra dump dizinine geçip "download.minimal.properties" dosyasında gerekli dedğişiklikleri yapalım.
- "base-dir" parametresine dumpların indirileceği dizini verdim (/home/repo/dumpdir)
- "download" parametresine sadece türkçe dumpları alması için "tr:pages-articles.xml.bz2" ayarladım.
- Daha sonra dosyayı "download.properties" olarak keydettim.
- cd dump
- ../run download config=download.properties
- Yukarıdaki komutu çalıştırdıktan sonra dumpdir dizininin altına istediğimiz dillere ait dumpları indiriyor.
- İndirme işlemi tamamlandıktan "dumpdir/trwiki/20130212/" klasörünün altına "trwiki-20130212-pages-articles.xml.bz2" adında bir dosya oluşturuyor. Eğer bu isimde oluşturmazsa yani -pages-articles.xml.bz2 bölümünde başka birşeyler yazıyorsa bunları dosya isminden siliyoruz.
- Daha sonra bu dosyayı extract ediyoruz.
- Sonraki aşamada "extraction.default.properties" dosyasını açıp aşağıdaki değişiklikleri yapmamız .
- "base-dir" parametresine dumpların indirileceği dizini verdim (/home/repo/dumpdir)
- languages=tr
- extractors.tr=MappingExtractor (Diğer diller için tanımlananları uçurdum)
- extractors=InfoboxExtractor,WikiPageExtractor(Burada sadece işime yarayacak olanları bıraktım.)
- Bu işlemi yaptıktan sonra "extraction.properties" olarak kaydediyoruz.
- ../run extraction extraction.properties
- Bu işlemden sonra dumpdir/trwiki/20130212 altında ilgili dosyaları oluşturdu
Hiç yorum yok:
Yorum Gönder