ReadMe.txt Pytania i odpowiedzi ze zbioru "Czy wiesz". Wersja 1.1. Data publikacji: 30.09.2013r. Różnice z wersją 1.0: - dodane numery ID dla zdań w pliku czywiesz.csv - zamiana kolejności kolumn w pliku czywiesz.csv (desc. -> ReadMe.txt: l. 48) - uaktualniony plik ReadMe.txt - dodatkowy podział na część rozwojową i część do późniejszej oceny (pliki CSV w katalogu source) Zbiór zawiera: 1. Wstępnie przetworzony zrzut polskiej Wikipedii z 22.01.2013 (Czywiesz.tar). 2. Listę poprawnych pytań pobranych z serwisu "Czy wiesz" (source/questions.txt). 3. Listę poprawnych pytań pobranych z serwisu "Czy wiesz" z linkami do stron Wikipedii (source/questions_links.txt) 4. Listę poprawnych pytań pobranych z serwisu "Czywiesz" i przypisane im dokumenty mające zawierać odpowiedź (source/czywiesz.csv). 5. Listę pytań odrzuconych jako niepoprawne (source/removed.txt). 6. Logi śladujące proces pobierania pytań z Wikipedii (logs/log1.txt i logs/log2.txt). Celem zbioru jest testowanie i rozwój systemów typu Question Answering. Liczymy na to, że dzięki udostępnieniu zarówno pytań, jak i całej kolekcji testowej (całej Wikipedii z wspomnianego zrzutu), możliwe będzie przeprowadzenie różnych eksperymentów w tych samych warunkach, dzięki czemu wyniki będą bezpośrednio ze sobą porównywalne. Zbiór udostępniany jest na licencji Creative Commons Uznanie Autorstwa Na tych samych warunkach 3.0 (CC-BY-SA 3.0). Instytut Informatyki, Politechnika Wrocławska, 2013 Osoby zaangażowane w projekt: Łukasz Burdka Michał Marcińczuk Dominik Piasecki Maciej Piasecki Marcin Ptak Adam Radziszewski Paweł Rychlikowski Tomasz Zięba ************************************************************************** ********************* czywiesz.csv *********************** ************************************************************************** Udostępniana przez nas paczka zawiera pytania i przetworzony wstępnie zrzut polskiej Wikipedii (z 22.01.2013). Zrzut przetworzony został programem Wikipedia Distiller, wskutek czego zapisany jest jako dokumenty w postaci 'pre_morph' (XCES). Format ten zasadniczo zachowuje podział dokumentu na akapity i nic więcej. Wikipedia Distiller usunął też pewne elementy formatowania, treść tabel, ramki itp. -- proces przetwarzania nie jest doskonały. Spośród 5062 pytań odrzuciliśmy te, dla których w naszej wersji Wikipedii brakowało dokumentów odpowiadających linkom wskazanym w serwisie "Czy wiesz". Wskutek tego pozostało 4721 pytań. Tym pytaniom plik czywiesz.csv przyporządkowuje plik w formacie 'pre_morph' z dołączonej w tej paczce struktury katalogów (archiwum "Czywiesz.tar"). Struktura pliku czywiesz.csv - dla każdego pytania stworzona jest w pliku osobna linia, która wygląda następująco: q_id;text;path;name;title gdzie: - q_id: unikalny identyfikator pytania - text: treść pytania - path: ścieżka dokumentu w załączonej strukturze katalogów - name: nazwa pliku z dokumentem (unikalny identyfikator dokumentu) - title: tytuł dokumentu ************************************************************************** ******** questions.txt || questions_links.txt ******** ************************************************************************** W zbiorze Czywiesz znajduje się 5062 z pierwotnego zbioru zawierającego 10340 pytań. Pytania te zgromadzone są w pliku questions.txt. Plik questions_links.txt zawiera z kolei listę tych pytań wraz z linkami do stron Wikipedii, które zawierają odpowiedzi na nie. Pytanie jest oddzielone od linka separatorem ";". Poniżej znajduje się lista stron, z których pobierane były Czywieszki w dniu 13.03.2013r.: 1) Seria stron: http://pl.wikipedia.org/wiki/Wikiprojekt:Czy_wiesz/ekspozycje/yyyy-mm-dd gdzie: yyyy - rok, mm - miesiąc, dd - dzień dla każdego dnia od 01.12.2010r. do 20.03.2013r. 2) Seria stron: http://pl.wikipedia.org/wiki/Wikiprojekt:Czy_wiesz/archiwum/yyyy-mm gdzie: yyyy - rok, mm - miesiąc dla każdego miesiąca od 03 do 11 w 2010r., dla 07/2008r. oraz dla 07/2009r. 3) Seria stron: http://pl.wikipedia.org/wiki/Wikiprojekt:Czy_wiesz/archiwum/yyyy-mm-dd:YYYY-MM-DD gdzie: yyyy -rok, mm - miesiąc, dd - dzień ; YYYY - rok II daty, MM - miesiąc II daty, DD - dzień II daty dla następujących okresów: - 2007-05-09:2007-12-31 - 2007-05-09:2007-12-31 - 2007-04-05:2007-05-08 - 2007-01-20:2007-04-04 - 2006-09-22:2007-01-19 - 2006-06-04:2006-09-21 - 2005-09-26:2006-06-03 - 2004-07-13:2005-09-25 4) Dodatkowe strony, służące jako źródło pytań: - http://pl.wikipedia.org/wiki/Wikiprojekt:Czy_wiesz/Muzyczne - http://pl.wikipedia.org/wiki/Wikiprojekt:Czy_wiesz/militaria - http://pl.wikipedia.org/wiki/Wikiprojekt:Czy_wiesz/Biografie - http://pl.wikipedia.org/wiki/Wikiprojekt:Czy_wiesz/pozostałe - http://pl.wikipedia.org/wiki/Wikipedysta:Putoro/brudnopis0 Pytania z pierwotnego zbioru zostały wstępnie przeselekcjonowane i sprawdzone (ok. 80% pytań zostało sprawdzonych dokładnie, reszta pobieżnie/heurystycznie). Kryteria akceptacji/odrzucenia pytań: 1. Usunięto pytania powtarzające się. 2. Usunięto pytania o dwie (lub więcej) rzeczy -- więcej niż jedno pytanie w pytaniu. Np. „od jak dawna i gdzie pływa Lublin?”. Kryterium rozróżnienia była tu odpowiedź: jeśli odpowiedzią mógł być jeden obiekt/stwierdzenie/wyjaśnienie, to pytanie uznawano za poprawne, ale jeśli odpowiedź musiałaby składać się z kilku części, to pytanie uznawano za wielokrotne i odrzucano je. 3. Usunięto pytania, które wymagają dodatkowego kontekstu, by udzielić odpowiedzi. W szczególności, gdy pojawiały się sformułowania w stylu "ta jaszczurka", "ten symbol". 4. Usunięto pytania w formie cytatów, bo nie wiadomo, czego oczekuje pytający (np. „gdzie ląd się kończy, a morze zaczyna…?”). Akceptowane były pytania, gdzie cytat stanowił sensowny fragment pytania. 5. Do nieprecyzyjnych pytań zaliczano i odrzucano pytania w stylu „co trzeba było zrobić dziś, co jutro, a co pojutrze?” — ciężko byłoby udzielić na nie sensownej odpowiedzi. 6. Odrzucano pytania, które wydawały się po prostu niezrozumiałe. 7. Usunięto pytania odwołujące się wprost do „tego roku” (podczas testów nie będziemy wiedzieć, z którego roku one są). Podobnie, gdyby było pytanie, ile lat temu coś się zdarzyło, np. "ilu nowych członków dołączy do liberyjskiej izby reprezentantów w tym roku?", "kto awansował o 19 pozycji w tegorocznym Grand Prix Belgii Formuły 1?". Ale -- pytania o miliony lat pozostawiono, gdyż w tej sytuacji paręnaście lat w jedną czy drugą stronę nie ma znaczenia. 8. Usunięto pytania, których treść zależy od konkretnej chwili (daty) zadawania, np. "dlaczego dzisiaj obchodzimy Światowy Dzień Gruźlicy?", "jakie obchody organizowały wczoraj państwa ONZ?". 9. Usunięto sformułowania zaczynające się od "że" -- można by je wprawdzie uznać za pytania tak/nie, ale z założenia wszystkie takie pytania miałyby odpowiedź twierdzącą, więc nie odpowiadają rzeczywistym pytaniom użytkownika. STATYSTYKA ODRZUCEŃ NA KOLEJNYCH ETAPACH: zebranych pytań: 10340 etapy filtracji: A. Usunięcie pytań rozpoczynających się od "że" (zdania będące stwierdzeniami, nie mające formy pytającej). (-) 760 = 9580 B. Usunięcie pytań powtarzających się w zbiorze: (-) 3095 = 6485 C. Usunięcie sformułowań nie mających formy pytającej: * Zauważono, że duża część pytań ze strony http://pl.wikipedia.org/wiki/Wikipedysta:Putoro/brudnopis0 nie posiada formy pytającej, jest sformułowana jako stwierdzenia. * Pytania te zostały odrzucone. (-) 1141 = 5344 D. Usunięcie pytań z nieadekwatnymi do zadanego pytania linkami, z linkami do stron nieistniejących (6), ręczne poprawienie linków na aktualne - jeśli istaniały (5). (-) 6 = 5338 E. Usunięcie pytań niepoprawnych (na podstawie ww. kryteriów). (-) 276 = 5062 F. Odrzucenie pytań, dla których w naszej wersji Wikipedii brakowało dokumentów odpowiadających linkom wskazanym w serwisie "Czy wiesz" (-) 341 = 4721 OSTATECZNIE: pozostawiono 4721 pytania wraz z linkami do stron Wikipedii zawierających odpowiedzi na te pytania. ************************************************************************** ********************** removed.txt *********************** ************************************************************************** Plik removed.txt zawiera listę pytań, które zostały przez nas odrzucone jako niepoprawne wg ww. kryteriów. Plik ma charakter poglądowy i zapoznawczy. Może stanowić w przyszłości cenną pomoc w określeniu poprawności/niepoprawności następnych pytań. ************************************************************************** ************************ L O G I ************************* ************************************************************************** W plikach log1.txt oraz log2.txt zawarta jest informacja o ilości pobranych pytań z każdej ze stron, stosując dwie metody odczytywania źródła tych stron. Różnica wynikała z dwojakiego sposobu kodowania ciągu znaków tworzących wielokropki ("..."), występujące na początku pytań serii "Czy wiesz". - log1.txt ---> "..." - log2.txt ---> "…"