Prezentace rozsáhlého testu antiplagiátorských nástrojů Turnitin, Ephorus, Theses.cz a vlastního řešení na bázi Google, zpracovaného v rámci doktorského studia na ÚISK FF UK.
1 of 20
Download to read offline
More Related Content
Antiplagiátorské nástroje pro naše repozitáře
1. Antiplagiátorské nástroje
pro naše repozitáře
Jan Mach
Vysoká škola ekonomická v Praze
Univerzita Karlova v Praze
23. 10. 2013 Seminář ke zpřístupňování šedé literatury
2. 1.
2.
3.
klonování – vydávání cizí práce, slovo od slova, za vlastní
CTRL-C – vydávání cizí práce za vlastní, s minimálním množstvím úprav
najít/nahradit – změna klíčových slov a frází bez změny podstaty textu
5.
6.
7.
8.
9.
recyklování – využití předchozích textů autora, bez autocitace
hybridní – mixování velmi dobře citovaných zdrojů s necitovanými
míchání zdrojů – kombinace více necitovaných zdrojů do textu
chyba 404 – citace neexistujících zdrojů nebo špatné informace o zdroji
agregace – korektní citování cizích zdrojů, ale téměř bez vlastního
osobního přínosu autorem
10.
re-tweet – korektní citování, ale za využití originálního textu/struktury bez
podstatnějších úprav
Co jeremixování – parafrázování z více zdrojů do jednoho textu
plagiát?
4.
The Plagiarism Spectrum: Tagging 10 Types of Unoriginal Work
3. 10 typů zdrojů,
ze kterých studenti opisují
celkem 50 dokumentů,
z každého věta a odstavec
300 záznamů - fragmentů
textu za použití různých úprav
kopírovaných vět
4. Použité transformace
• věta se dvěma slovy prohozenými,
• věta s odstraněnou diakritikou,
• věta s jedním slovem nahrazeným slovem
významově blízkým – parafráze slova,
• věta s více slovy nahrazenými slovy
významově blízkými – parafráze věty,
• věta přeložená automaticky
do českého/anglického jazyka
5. Ověřované hypotézy
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
Hypotéza Thesis
Turnitin Ephorus GooglePl. Průměr
1
12%
40%
2%
56%
28%
Aplikace umí odhalit jeden odstavec zkopírovaný ze zdrojového dokumentu. Aplikaci nevadí
2
14%
42%
6%
46%
27%
případná zalomení řádků, indexy apod. ve zdrojovém nebo testovaném dokumentu.
Pro úspěšnou detekci nevadí, pokud plagiátor přidá/odebere slovo v kopírované větě.
3
100%
100%
0%
0%
50%
Aplikace provádí detekci českých textů nezávisle na diakritice. 80%
4
100%
100%
0%
70%
Pro úspěšnou detekci nevadí, pokud plagiátor parafrázuje jedno slovo ve větě.
5
67%
100%
0%
4%
43%
Pro úspěšnou detekci nevadí, pokud 88%
plagiátor parafrázuje celou větu.
6
0%
na
0%
29%
Pro úspěšnou detekci nevadí, pokud plagiátor přeloží text z/do českého jazyka.
7
0%
0%
0%
0%
0%
Systém Theses.cz by měl v detekci plagiátorství u10%
českých VŠKP dosahovat nejlepších
8
10%
50%
30%
25%
výsledků.
9
0%
0%
0%
0%
0%
U zdroje Anopress bude nalezeno nízké procento z celkového počtu podobností oproti
10
0%
40%
0%
70%
28%
zdrojům volně dostupným na Internetu.
11
50%
0%
80%
38%
Lepších výsledků u EIZ 20%
a Open Access zdrojů dosáhnou nástroje zahraniční oproti českým.
Aplikace umí odhalit jednu větu zkopírovanou ze zdrojového dokumentu.
Velmi dobrých výsledků u webových zdrojů budou dosahovat systémy využívající služeb
webových vyhledávačů.
6. TURNITIN
O APLIKACI
• 15 jazykových mutací
bez češtiny
• velká databáze textů
• cena dle počtu studentů,
v řádu stovek tisíc Kč
• integrace se systémy
MOODLE apod., bez API
• moduly GradeMark a
PeerMark
VYHODNOCENÍ PODOBNOSTÍ
• zpracování do 30 s
• konfigurovatelná velikost
hledaných podobností,
možnost vyloučení citací
• velmi přehledné a funkční
rozhraní s podobnostmi,
sdružování zdrojů
8. EPHORUS
O APLIKACI
• aplikaci používá přes
3 000 škol a univerzit,
v ČR 4 školy (FPH na
VŠE)
• rozhraní v češtině
• dle provozovatele
databáze s miliardami
webových stránek,
odevzdanými pracemi,
texty z časopisů aj.
VYHODNOCENÍ PODOBNOSTÍ
• možno definovat min.
procento podobností
• odesílání výsledků
e-mailem, přílohy v PDF
• základní rozhraní
na webu
• chybí deduplikace zdrojů
10. SYSTÉMY MUNI
O APLIKACI
VYHODNOCENÍ PODOBNOSTÍ
• theses.cz, odevzdej.cz
a repozitar.cz
• přes 30 veřejných i
soukromých škol z ČR a SK
• cena dle počtu studentů
• rozsáhlá databáze
českých VŠ závěrečných
prací, studijních materiálů a
vybraných webových
stránek
• API pro napojení
• zpracování v řádu hodin
• duplicitní dokumenty
• porovnávání dvojic
dokumentů
→ dva seznamy podobností
• chybí celkové procento
nalezených podobností
• zobrazeny podobnosti
pouze od 5 % délky
jednoho z porovnávané
dvojice dokumentů
11. První seznam obsahuje dokumenty s
délkou podobnosti min. 5 %
zkoumaného souboru.
bakalářská práce o 40 stranách: 2 strany
Druhý seznam doplňuje předchozí
o dokumenty další, ale pouze
s délkou podobnosti min. 5 %
nalezeného souboru.
12. GooglePlagiarism
O APLIKACI
• vlastní desktopová
aplikace pro osobní
počítače s Windows
• určena pro osobní
analýzy dokumentů
jednotlivcem
• hledání celých vět ve
vyhledávači Google
VYHODNOCENÍ PODOBNOSTÍ
• limitovaný počet
vyhledávání → doba
zpracování v řádu hodin
• výstupem HTML bez
zachování formátování
• vyznačené nalezené věty
a první odpovídající zdroj
13. Pokud není zachována velikost a
zalomení řádků, je velmi snížena
orientace v textu při kontrole.
14. Hodnocení ovládání
a funkcí systémů
Hodnocení
doba zpracování
přehlednost výsledků
zobrazení celkové podobnosti
minimální podobnost
cena
integrace s IS školy
deduplikace zdrojů
Thesis
Turnitin
Ephorus GooglePl.
Systém Thesis.cz vyniká
příznivou cenou a možností
integrace s repozitáři.
Aplikace Turnitin exceluje
uživatelským rozhraním
a dostupnými funkcemi,
ale je drahá a nelze ji
snadno zaintegrovat.
Systém Ephorus by byl
dobrým kompromisem mezi
Thesis a Turnitin, ale …
16. Počet nalezených dokumentů
podle jazyka dokumentu
Jazyk
česky
anglicky
slovensky
Celkem
Jazyk
česky
anglicky
slovensky
Korpus
19
30
1
50
Korpus
100%
100%
100%
Thesis
6
1
0
7
Thesis
32%
3%
0%
Turnitin
10
12
0
22
Turnitin
53%
40%
0%
Ephorus GooglePl. Průměr
3
11
7,5
2
18
8,25
0
0
0
5
29
15,75
Ephorus GooglePl. Průměr
16%
58%
39%
7%
60%
28%
0%
0%
0%
Systém Theses.cz nalezl
průměrný počet českých
dokumentů, u anglických
dokumentů dosáhl výsledků
nejhorších.
Stále však v celku více než
Ephorus. Snížení 5%
hranice by úspěšnosti
Theses.cz výrazně pomohlo!
17. Počet nalezených záznamů
podle typu úprav
– podezření na plagiátorství
Úprava
jedna věta
jeden odstavec
prohození slova
bez diakritiky
parafráze věty
parafráze slova
překlad
Celkem
Korpus
50
50
50
19
31
50
50
300
Thesis
6
7
6
5
0
4
0
28
Turnitin
20
21
20
9
10
20
0
100
Ephorus GooglePl. Průměr
1
28
13,75
3
23
13,5
1
0
6,75
1
8
5,75
0
0
2,5
1
1
6,5
1
0
0,25
8
60
49,00
Úprava
jedna věta
jeden odstavec
prohození slova
bez diakritiky
parafráze věty
parafráze slova
překlad
Průměr
Korpus
100%
100%
100%
100%
100%
100%
100%
100%
Thesis
12%
14%
12%
26%
0%
8%
0%
10%
Turnitin
40%
42%
40%
47%
32%
40%
0%
35%
Ephorus GooglePl. Průměr
2%
56%
28%
6%
46%
27%
2%
0%
14%
5%
42%
30%
0%
0%
8%
2%
2%
13%
2%
0%
1%
3%
21%
17%
Hledání celých vět v aplikaci
GooglePlagiarism
nedetekuje úpravy textu.
Systém Ephorus detekoval
pouze 8 zkopírovaných
pasáží textu, především ale
jen typu rozepsání zkratky.
18. Počet nalezených záznamů
podle typu úprav
– důkazy plagiátorství
Úprava
jedna věta
jeden odstavec
prohození slova
bez diakritiky
parafráze věty
parafráze slova
překlad
Celkem
Korpus
50
50
50
19
31
50
50
300
Thesis
5
6
1
4
0
3
0
19
Turnitin
8
10
7
6
2
8
0
41
Ephorus GooglePl. Průměr
0
25
9,5
1
9
6,5
0
0
2
0
7
4,25
0
0
0,5
0
1
3
0
0
0
1
42
25,75
Úprava
jedna věta
jeden odstavec
prohození slova
bez diakritiky
parafráze věty
parafráze slova
překlad
Průměr
Korpus
100%
100%
100%
100%
100%
100%
100%
100%
Thesis
10%
12%
2%
21%
0%
6%
0%
7%
Turnitin
16%
20%
14%
32%
6%
16%
0%
15%
Ephorus GooglePl. Průměr
0%
50%
19%
2%
18%
13%
0%
0%
4%
0%
37%
22%
0%
0%
2%
0%
2%
6%
0%
0%
0%
0%
15%
9%
Systém Ephorus
ve skutečnosti jen jednou
nalezl dokument jasně
prokazující plagiátorství.
Zatím žádný ze systémů
neumí vyhledat přeložený
text.
Věty bez úprav vyhledává
nejlépe GooglePlagiarism,
věty s úpravami nejlépe
Turnitin.
19. Závěrečné shrnutí
Aplikace Turnitin dosahuje velmi dobrých výsledků,
ale je velmi drahá.
Aplikace Ephorus vyhledávala
duplicity v testovacím korpusu nedostatečně.
Aplikace Theses.cz je dobrým kompromisem mezi
cenou a schopnostmi. Zlepšením by bylo
odstranění 5% limitu na délku podobnosti.
Vyhledáváním zdrojů online v GooglePlagiarism je
velmi účinné na detekci zkopírovaných textů.
20. Detailní výsledky testu naleznete ve sborníku
Semináře ke zpřístupňování šedé literatury 2013
http://nusl.techlib.cz/sbornik/
Jan Mach
machj@vse.cz