Может ли Git определить, являются ли два исходных файла копиями друг друга?

Question

Может ли Git определить, являются ли два исходных файла копиями друг друга?

Извините, если это не по теме, но у вас есть шанс уменьшить количество "домашних заданий" на этом сайте:-)

Я преподаю класс программирования C, где студенты работают над небольшой библиотекой числовых подпрограмм на C. В этом году исходные файлы из нескольких групп студентов содержали значительное количество дублирующегося кода.

(Вплоть до одинаково с ошибками printf отладочные заявления. Я имею в виду, насколько глупым ты можешь быть.)

Я знаю, что Git может определять, когда два исходных файла похожи друг на друга за определенное пороговое значение, но я никогда не смог заставить его работать с двумя исходными файлами, которых нет в репозитории Git.

Имейте в виду, что это не особенно искушенные ученики. Маловероятно, что они столкнутся с проблемой изменения имен переменных / функций.

Есть ли способ, которым я могу использовать Git для обнаружения значительного и буквального дублирования кода, известного как плагиат? Или есть какой-то другой инструмент, который вы могли бы порекомендовать для этого

9

c git plagiarism-detection

Источник

user1428 21 янв '12 в 05:46

5 ответов

Другие вопросы по тегам c git plagiarism-detection

user485561 21 янв '12 в 05:50 2012-01-21 05:50 · Answer 1 · 2012-01-21 05:50

Зачем вообще использовать git? Простой, но эффективный метод состоит в том, чтобы сравнить размеры различий между всеми различными представлениями, а затем вручную проверить и сравнить их с наименьшими различиями.

4

Источник

user485561 21 янв '12 в 05:50

user533212 21 янв '12 в 05:54 2012-01-21 05:54 · Answer 2 · 2012-01-21 05:54

Мосс - это инструмент, разработанный проф. Я думаю, что они используют это там же. Это как diff для исходного кода.

3

Источник

user533212 21 янв '12 в 05:54

user464744 21 янв '12 в 05:52 2012-01-21 05:52 · Answer 3 · 2012-01-21 05:52

Вы могли бы использовать diff и проверьте, похожи ли эти два файла:

diff -iEZbwB -U 0 file1.cpp file2.cpp

Эти варианты говорят diff игнорировать изменения пробелов и сделать git -лайк diff файл. Попробуйте это на двух примерах.

1

Источник

user464744 21 янв '12 в 05:52

user102916 21 янв '12 в 05:59 2012-01-21 05:59 · Answer 4 · 2012-01-21 05:59

Добавляя к другим ответам, вы можете использовать diff - но я не думаю, что ответы будут настолько полезны сами по себе. То, что вы хотите, это количество совпадающих строк, минус количество непустых строк, и чтобы получить это автоматически, вам нужно сделать немного магии с wc -l а также grep чтобы вычислить сумму длин файлов, минус длина файла сравнения, минус количество пустых строк, которые diff включены как соответствующие. И даже тогда вы пропустите некоторые случаи, когда diff решил, что одинаковые строки не совпадают из-за разных вещей, вставленных перед ними.

Гораздо лучшим вариантом является одно из предложений, перечисленных в https://stackru.com/questions/5294447/how-can-i-find-source-code-copying (или в https://stackru.com/questions/4131900 / Как обнаружить плагиат-код, хотя ответы, кажется, дублируют).

user2363712 30 дек '15 в 12:37 2015-12-30 12:37 · Answer 5 · 2015-12-30 12:37

Использование diff абсолютно не очень хорошая идея, если вы не хотите рисковать в области комбинаторного ада:

Если у вас есть 2 представления, вы должны выполнить 1 diff, чтобы проверить на плагиат,
Если у вас есть 3 представления, вы должны выполнить 2 сравнения, чтобы проверить плагиат,
Если у вас есть 4 представления, вы должны выполнить 6 различий, чтобы проверить плагиат,
...
Если у вас есть n представлений, вы должны выполнить (n-1)! отличаться!

С другой стороны, Мосс, уже предложенный в другом ответе, использует совершенно другой алгоритм. По сути, он вычисляет набор отпечатков пальцев для значительных килограммов каждого документа. Отпечаток пальца фактически является хешем, используемым для классификации документов, и возможный плагиат обнаруживается, когда два документа в конечном итоге сортируются в одном и том же сегменте.